정보 추출

Information extraction

정보 추출(IE)은 비구조화 및/또는 반구조화 기계 판독 가능한 문서 및 기타 전자적으로 표현된 소스로부터 구조화된 정보를 자동으로 추출하는 작업이다.대부분의 경우 이 활동은 자연어 처리(NLP)를 통해 인간 언어 텍스트를 처리하는 것과 관련이 있습니다.이미지/오디오/비디오/문서 중 자동 주석 및 콘텐츠 추출과 같은 멀티미디어 문서 처리의 최근 활동은 정보 추출로 볼 수 있다.

문제의 어려움으로 인해 IE에 대한 현재(2010년 기준) 접근법은 좁게 제한된 영역에 초점을 맞추고 있다.예를 들어, 공식 관계와 같이 기업 합병에 관한 뉴스 와이어 보도에서 발췌한 것입니다.

e e en ( p n 1, p 2, t ){ \ {} ( ,

다음과 같은 온라인 뉴스 문장에서 볼 수 있습니다.

어제 뉴욕에 본사를 둔 Foo Inc.가 Bar Corp. 인수를 발표했다.

IE의 광범위한 목표는 이전에 구조화되지 않은 데이터에 대해 계산을 수행할 수 있도록 하는 것입니다.보다 구체적인 목표는 입력 데이터의 논리적 내용을 바탕으로 논리적 추론을 도출할 수 있도록 하는 것입니다.구조화된 데이터는 선택된 대상 도메인에서 의미론적으로 잘 정의된 데이터이며, 범주 및 컨텍스트와 관련하여 해석됩니다.

정보 추출은 전송, 저장 및 표시를 넘어 텍스트 관리를 위한 자동 방법을 고안하는 문제를 다루는 더 큰 퍼즐의 일부입니다.IR([1]Information Retrieval) 부문은 일반적으로 통계적 취향의 자동 방법을 개발하여 대량의 문서 수집을 인덱싱하고 문서를 분류합니다.또 다른 보완적 접근방식은 자연 언어 처리(NLP)의 접근방식이다. 자연 언어 처리(Natural Language Processing, NLP)는 과제의 크기를 고려할 때 인간 언어 처리 모델링 문제를 상당히 성공적으로 해결했다.난이도와 강조점 모두에서 IE는 IR과 NLP 사이의 태스크를 다룬다.입력의 관점에서 IE는 각 문서가 템플릿을 따르는 일련의 문서가 존재한다고 가정한다. 즉, 하나 이상의 실체 또는 사건을 다른 문서와 유사하지만 세부 사항은 다른 방식으로 기술한다.예를 들어, 중남미 테러에 관한 뉴스 전문 기사의 각 기사가 하나 이상의 테러 행위에 근거하는 것으로 추정되는 것을 생각해 보자.또한 특정 IE 태스크에 대해 템플릿을 정의합니다.템플릿은 단일 문서에 포함된 정보를 보관하기 위한 케이스 프레임입니다.테러의 경우 템플릿에는 테러행위의 가해자, 피해자 및 무기에 해당하는 슬롯과 사건이 발생한 날짜가 포함됩니다.이 문제의 IE 시스템은 이 템플릿의 슬롯에 대응하는 데이터를 찾을 수 있을 정도로만 공격 기사를 '이해'해야 합니다.

역사

정보 추출은 [2]NLP 초기인 1970년대 후반으로 거슬러 올라간다.1980년대 중반부터의 초기 상업 시스템은 금융 트레이더에게 [3]실시간 금융 뉴스를 제공하기 위해 카네기 그룹에 의해 로이터 통신에 의해 구축된 JASP였습니다.

1987년부터 IE는 일련의 메시지 이해 회의에 의해 촉진되었습니다.MUC는 다음 도메인에 초점을 맞춘 경쟁 기반 회의입니다[4].

  • MUC-1(1987), MUC-3(1989) :해군 작전 메시지입니다
  • MUC-3(1991), MUC-4(1992) :중남미 국가들의 테러.
  • MUC-5(1993) :조인트 벤처 및 마이크로 일렉트로닉스 분야.
  • MUC-6(1995):경영진의 변화에 관한 뉴스 기사.
  • MUC-7(1998):위성 발사 보고입니다

미국 국방고등연구계획국(DARPA)은 신문에서 [citation needed]테러와의 연관성을 스캔하는 것과 같은 정부 분석가들이 수행하는 일상적인 업무를 자동화하기를 원했다.

현재의 의의

IE의 현재 중요성은 구조화되지 않은 형태로 이용 가능한 정보의 양이 증가하는 것과 관련이 있습니다.World Wide Web의 발명가인 Tim Berners-Lee기존의 인터넷을 문서의 웹이라고 부르며 더 많은 콘텐츠를 데이터[6]으로 사용할 수 있도록 해야 한다고 주장합니다.이것이 일어날 때까지 웹은 대부분 의미 메타데이터가 없는 구조화되지 않은 문서로 구성됩니다.이러한 문서에 포함된 지식은 관계형식으로 변환하거나 XML 태그를 사용하여 기계 처리에 보다 쉽게 접근할 수 있습니다.뉴스 데이터 피드를 감시하는 인텔리전트 에이전트는 IE가 비구조화 데이터를 합리적으로 설명할 수 있는 것으로 변환해야 합니다.IE의 일반적인 적용은 자연어로 작성된 문서 세트를 스캔하여 [7]추출된 정보로 데이터베이스를 채우는 것입니다.

태스크 및 하위 태스크

텍스트에 정보 추출을 적용하는 것은 자유 텍스트에 존재하는 정보의 구조화된 뷰를 작성하기 위해 텍스트 단순화의 문제와 연결되어 있다.전체적인 목표는 문장을 처리하기 위해 기계에서 더 쉽게 읽을 수 있는 텍스트를 만드는 것입니다.일반적인 IE 태스크 및 하위 태스크는 다음과 같습니다.

  • 템플릿 채우기: 문서에서 고정된 필드 세트를 추출합니다. 예를 들어 테러 공격에 대한 신문 기사에서 가해자, 피해자, 시간 등을 추출합니다.
    • 이벤트 추출: 입력 문서를 지정하면 0개 이상의 이벤트 템플릿을 출력합니다.예를 들어, 신문 기사는 다수의 테러 공격을 묘사할 수 있다.
  • Knowledge Base 모집단:일련의 문서가 주어진 사실 데이터베이스를 채웁니다.일반적으로 데이터베이스는 세쌍둥이(엔티티 1, 관계, 엔티티 2) 형태로 되어 있습니다(Barack Obama, Spader, Michelle Obama).
    • 명명된 엔티티 인식: 도메인 또는 다른 [8]문장에서 추출한 정보를 사용하여 알려진 엔티티 이름(사람 및 조직용), 지명, 시간 표현 및 특정 유형의 숫자 표현을 인식합니다.일반적으로 인식 태스크에는 추출된 엔티티에 고유 식별자를 할당하는 작업이 포함됩니다.엔티티 인스턴스에 대한 기존 지식 없이 엔티티를 탐지하는 것이 더 간단한 작업입니다.예를 들어, "M"이라는 문장을 처리하는 경우.Smith는 낚시를 좋아한다"라고 이름 붙여진 실체 검출은 "M"이라는 문구가 검출되었음을 나타낸다."Smith"는 특정 M에 대한 지식이 없어도(또는 사용하지 않아도) 개인을 지칭한다. 문장이 말하는 특정 인물(또는 "아마도)인 스미스.
    • 상호 참조 해결: 텍스트 엔티티 간의 상호 참조 및 아나포릭 링크 검출.IE 태스크에서는 일반적으로 이전에 추출된 이름 있는 엔티티 간의 링크를 찾는 것으로 제한됩니다.예를 들어 "International Business Machines"와 "IBM"은 동일한 실제 엔티티를 나타냅니다.이 두 문장을 M이라고 하면스미스는 낚시를 좋아한다.하지만 자전거 타는 것을 좋아하지 않는다"며 "그"가 이전에 발견된 사람 "M"을 지칭하는 것임을 알아내는 것이 유익할 것이다.스미스.
    • 관계 추출: 다음과 같은 [8]실체 간의 관계 식별:
      • 개인은 조직을 위해 일한다("Bill works for IBM"이라는 문장에서 발췌).
      • LOCATION에 있는 사람(Bill is in France라는 문장에서 발췌).")
  • 반구조적 정보 추출. 다음과 같이 출판을 통해 손실된 정보 구조를 복원하려는 IE를 가리킬 수 있습니다.
    • 표 추출: 문서에서 [9][10]표를 찾아 추출합니다.
    • 테이블 정보 추출 : 테이블에서 구조화된 방식으로 정보를 추출합니다.표 추출은 첫 번째 단계이기 때문에 표 추출보다 더 복잡한 작업이지만 셀, 행, 열의 역할을 이해하고 표 내부의 정보를 연결하며 표에 제시된 정보를 이해하는 것은 표 정보 추출에 필요한 추가 작업이다.[11][12][13]
    • 댓글 추출 : 각 문장의 작성자 간 연결을 복원하기 위해 기사의 실제 내용에서 댓글을 추출합니다.
  • 언어 및 어휘 분석
  • 오디오 추출
    • 템플릿 기반 음악 추출: 소정의 레퍼토리에서 취해진 오디오 신호에서 관련 특성을 찾아낸다.예를 들어 타악음 발생의 시간 인덱스를 추출하여 악곡의 필수적인 리듬 성분을 나타낼 수 있다.

이 목록은 완전하지 않으며 IE 활동의 정확한 의미는 일반적으로 받아들여지지 않으며, 많은 접근법이 IE의 여러 하위 작업을 결합하여 더 넓은 목표를 달성한다는 점에 유의하십시오.IE에서는 종종 기계학습, 통계분석 및/또는 자연어 처리를 사용한다.

비텍스트 문서에 대한 IE는 점점 더 흥미로운[when?] 연구 주제가 되고 있으며, 멀티미디어 문서에서 추출된 정보는 텍스트에서와 같이 높은 수준의 구조로 표현될 수 있다[when?].이는 자연스럽게 여러 종류의 문서와 출처에서 추출된 정보의 융합으로 이어진다.

월드 와이드 웹 애플리케이션

IE는 MUC 회의의 초점이 되어 왔다.그러나 의 확산은 사람들이 온라인에서 이용할 수 있는 방대한 양의 데이터에 대처할 수 있도록 도와주는 IE 시스템의 개발 필요성을 심화시켰다.온라인 텍스트에서 IE를 수행하는 시스템은 저비용, 개발 유연성 및 새로운 도메인에 대한 손쉬운 적응 요건을 충족해야 한다.MUC 시스템은 이러한 기준을 충족하지 못합니다.또한 구조화되지 않은 텍스트에 대해 수행되는 언어 분석에서는 온라인 텍스트에서 사용할 수 있는 HTML/XML 태그 및 레이아웃 형식을 이용하지 않습니다.그 결과 특정 페이지의 콘텐츠를 추출하는 고정밀 규칙 세트인 래퍼를 사용하여 웹 상에서 IE에 언어 집약적인 접근법이 개발되었습니다.수동으로 래퍼를 개발하는 것은 시간이 많이 걸리는 작업이며, 높은 수준의 전문 지식을 필요로 합니다.이러한 규칙을 자동으로 유도하기 위해 기계 학습 기법(감독 또는 비감독)이 사용되었습니다.

일반적으로 래퍼는 제품 카탈로그나 전화번호부 등 고도로 구조화된 웹 페이지 컬렉션을 처리합니다.그러나 텍스트 유형이 덜 구조화되면 실패합니다. 이는 웹에서도 일반적입니다.적응형 정보 추출에 대한 최근의 노력은 잘 구성된 텍스트에서 혼합 유형을 포함한 거의 자유로운 텍스트까지 다양한 유형의 텍스트를 처리할 수 있는 IE 시스템의 개발에 동기를 부여한다.이러한 시스템은 얕은 자연 언어 지식을 이용할 수 있으므로 덜 구조화된 텍스트에도 적용할 수 있습니다.

최근[when?] 개발된 것은 Visual Information Extraction([15][16]시각 정보 추출)으로, 브라우저에서 웹 페이지를 렌더링하고 렌더링된 웹 페이지의 영역 근접성을 기반으로 규칙을 만듭니다.이는 시각적 패턴을 나타낼 수 있지만 HTML 소스 코드에 식별 가능한 패턴이 없는 복잡한 웹 페이지에서 엔티티를 추출하는 데 도움이 됩니다.

접근

다음과 같은 표준 접근법이 현재 널리 받아들여지고 있습니다.

IE에는 앞서 열거한 표준 접근법 중 일부를 결합하는 복합 접근법을 포함하여 수많은 다른 접근법이 존재한다.

무료 또는 오픈 소스 소프트웨어 및 서비스

  • GATE(General Architecture for Text Engineering)는 무료 정보 추출 시스템에 번들되어 있습니다.
  • Apache OpenNLP는 자연어 처리를 위한 Java 머신 러닝 툴킷입니다.
  • OpenCalaisThomson Reuters의 자동화된 정보 추출 웹 서비스입니다(무료 한정 버전).
  • Mallet(Machine Learning for Language Toolkit)은 정보 추출을 포함한 다양한 자연 언어 처리 태스크를 위한 Java 기반 패키지입니다.
  • DBpedia Spotlight는 Java/Scala(및 무료 웹 서비스)의 오픈 소스 도구이며, 이름 인식 및 이름 해결에 사용할 수 있습니다.
  • Natural Language Toolkit은 Python 프로그래밍 언어를 위한 기호 및 통계 NLP(자연 언어 처리)용 라이브러리 및 프로그램 모음입니다.
  • 'CRF의 실장'도 참조해 주세요.

「 」를 참조해 주세요.

레퍼런스

  1. ^ FREITAG, DAYNE. "Machine Learning for Information Extraction in Informal Domains" (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.
  2. ^ Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). "Automatic Extraction of Facts from Press Releases to Generate News Stories". Proceedings of the third conference on Applied natural language processing -. pp. 170–177. CiteSeerX 10.1.1.14.7943. doi:10.3115/974499.974531. S2CID 14746386.
  3. ^ Cowie, Jim; Wilks, Yorick (1996). Information Extraction (PDF). p. 3. CiteSeerX 10.1.1.61.6480. S2CID 10237124. Archived from the original (PDF) on 2019-02-20.
  4. ^ Marco Costantino, Paolo Coleetti, 금융정보 추출, Wit Press, 2008.ISBN 978-1-84564-146-7
  5. ^ "Linked Data - The Story So Far" (PDF).
  6. ^ "Tim Berners-Lee on the next Web".
  7. ^ R. K. 스리하리, W. 리, C.Niu와 T.코넬,"InfoXtract: 맞춤형 중급 정보 추출 엔진", 자연 언어 공학 [dead link]저널, 캠브리지 미국 출판부, 2008, 페이지 33-69.
  8. ^ a b Dat Quoc Nguyen and Karin Verspoor (2019). "End-to-end neural relation extraction using deep biaffine attention". Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
  9. ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "A framework for information extraction from tables in biomedical literature". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  10. ^ Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.
  11. ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "A framework for information extraction from tables in biomedical literature". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  12. ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (June 2016). "Disentangling the structure of tables in scientific literature". 21st International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. 21: 162–174. doi:10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0. S2CID 19538141.
  13. ^ Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.
  14. ^ A. 질스, F.파체트, O.들뢰와 에프Gouyon, 폴리포닉 음악 신호에서 드럼 트랙 자동 추출, 독일 Darmstadt, WedelMusic의 진행, 2002.
  15. ^ Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: An Algebra for Expressing Spatial and Textual Rules for Information Extraction". arXiv:1506.08454 [cs.CL].
  16. ^ Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "Visual Web Information Extraction with Lixto": 119–128. CiteSeerX 10.1.1.21.8236. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  17. ^ Peng, F.; McCallum, A. (2006). "Information extraction from research papers using conditional random fields☆". Information Processing & Management. 42 (4): 963. doi:10.1016/j.ipm.2005.09.002.
  18. ^ Shimizu, Nobuyuki; Hass, Andrew (2006). "Extracting Frame-based Knowledge Representation from Route Instructions" (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.

외부 링크