관계추출

Relationship extraction

관계 추출 작업은 일반적으로 텍스트 또는 XML 문서에서 일련의 아티팩트 내에서 의미 관계 언급의 탐지 및 분류를 요구한다.과제는 정보추출(IE)과 매우 유사하지만 IE는 추가로 반복적인 관계(해체)의 제거를 요구하고 있으며 일반적으로 여러 가지 다른 관계의 추출을 가리킨다.

개념 및 응용 프로그램

관계 추출의 개념은 1998년 제7차 메시지 이해 콘퍼런스에서 처음 소개되었다.[1]관계 추출은 실체들 간의 관계를 식별하는 것을 포함하며, 그것은 보통 이항 관계의 추출에 초점을 맞춘다.[2]관계 추출이 유용한 응용 분야에는 유전자-질소 관계,[3] 단백질-단백질 상호작용[4] 등이 포함된다.

현재 관계 추출 연구는 기계 학습 기술을 사용하며, 이 기술은 관계 추출에 접근하여 분류 문제로 삼는다.[1]네버엔딩언어학습카네기멜론대 연구팀이 개발한 의미론적 기계학습 시스템으로 오픈 웹에서 관계를 추출한다.

접근

관계를 추출하는 데 사용되는 몇 가지 방법이 있으며, 여기에는 텍스트 기반 관계 추출이 포함된다.이러한 방법은 사전 검증된 관계 구조 정보의 사용에 의존하거나 관계를 드러내기 위해 구조의 학습을 수반할 수 있다.[5]이 문제에 대한 또 다른 접근법은 도메인 온톨로지의 사용을 포함한다.[6][7]또한 표의 위치가 소프트웨어 사용자에 의해 제어되는 대로 자동으로 순열되는 데이터 표에 열거된 객체의 파라메트릭 값에서 의미 있는 관계의 시각적 감지를 수반하는 접근법이 있다.의미론적 어휘(: 워드넷, UMLS) 및 도메인 온톨로지(예: Gene Ontology)와 같은 구조화된 자원과 관련된 열악한 커버리지, 희귀성 및 개발 비용은 웹 상의 광범위하고 동적인 배경 지식을 바탕으로 한 새로운 접근방식을 낳았다.예를 들어 ARCHILES 기법은[8] 가벼운 온톨로지를 구축하기 위해 거친 결속 관계를 얻기 위해 위키피디아와 검색 엔진 페이지 수만을 사용한다.

그 관계는 다양한 공식화/언어를 사용하여 표현될 수 있다.웹 상의 데이터에 대한 그러한 표현 언어 중 하나는 RDF이다.

보다 최근에는, 기업의 언급과 그들의 의미적 관계를 추출하는 것을 공동으로 배우는 엔드투엔드 시스템이 높은 성과를 얻을 수 있는 강력한 잠재력을 가지고 제안되었다.[9]

보고된 대부분의 시스템은 영어 데이터 집합에 대한 그들의 접근법을 입증했다.그러나 자료와 시스템은 다른 언어(예: 러시아어[10]베트남어)에 대해 설명되어 왔다.[11]

데이터 집합

연구자들은 관계 추출 방법을 벤치마킹하기 위해 다수의 데이터 세트를 구축했다.[12]그러한 데이터 세트 중 하나는 DocRED라고 불리는 문서 수준의 관계 추출 데이터 세트였다.위키다타의 관계와 영어 위키백과의 텍스트를 사용한다.[12]이 데이터세트는 다른 연구자들이 사용했으며 코다랩에서는 예측 경쟁이 설정되었다.[13][14]

참고 항목

참조

  1. ^ a b Ning, Huansheng (2019). Cyberspace Data and Intelligence, and Cyber-Living, Syndrome, and Health: International 2019 Cyberspace Congress, CyberDI and CyberLife, Beijing, China, December 16–18, 2019, Proceedings, Part II. Singapore: Springer Nature. p. 260. ISBN 978-981-15-1924-6.
  2. ^ Denecke, Kerstin (2012). Event-Driven Surveillance: Possibilities and Challenges. Heidelberg: Springer Science & Business Media. p. 36. ISBN 978-3-642-28134-1.
  3. ^ Hong-Woo Chun; Yoshimasa Tsuruoka; Jin-Dong Kim; Rie Shiba; Naoki Nagata; Teruyoshi Hishiki; Jun-ichi Tsujii (2006). "Extraction of Gene-Disease Relations from Medline Using Domain Dictionaries and Machine Learning". Pacific Symposium on Biocomputing. CiteSeerX 10.1.1.105.9656.
  4. ^ Minlie Huang and Xiaoyan Zhu and Yu Hao and Donald G. Payan and Kunbin Qu and Ming Li (2004). "Discovering patterns to extract protein-protein interactions from full texts". Bioinformatics. 20 (18): 3604–3612. doi:10.1093/bioinformatics/bth451. PMID 15284092.
  5. ^ Tickoo, Omesh; Iyer, Ravi (2016). Making Sense of Sensors: End-to-End Algorithms and Infrastructure Design from Wearable-Devices to Data Centers. Portland: Apress. p. 68. ISBN 978-1-4302-6592-4.
  6. ^ T.C.Rindflesch and L.Tanabe and J.N.Weinstein and L.Hunter (2000). "EDGAR: Extraction of drugs, genes, and relations from the biomedical literature". Proc. Pacific Symposium on Biocomputing. pp. 514–525. PMC 2709525.
  7. ^ C. Ramakrishnan and K. J. Kochut and A. P. Sheth (2006). "A Framework for Schema-Driven Relationship Discovery from Unstructured Text". Proc. International Semantic Web Conference. pp. 583–596.
  8. ^ W. Wong and W. Liu and M. Bennamoun (2009). "Acquiring Semantic Relations using the Web for Constructing Lightweight Ontologies". Proc. 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD). doi:10.1007/978-3-642-01307-2_26.
  9. ^ Dat Quoc Nguyen and Karin Verspoor (2019). "End-to-end neural relation extraction using deep biaffine attention". Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
  10. ^ Elena Bruches; Alexey Pauls; Tatiana Batura; Vladimir Isachenko (14 December 2020), Entity Recognition and Relation Extraction from Scientific and Technical Texts in Russian (PDF), arXiv:2011.09817, Wikidata Q104419957
  11. ^ Pham Quang Nhat Minh (18 December 2020), An Empirical Study of Using Pre-trained BERT Models for Vietnamese Relation Extraction Task at VLSP 2020 (PDF), arXiv:2012.10275, Wikidata Q104418048
  12. ^ a b Yuan Yao; Deming Ye; Peng Li; et al. (2019). "DocRED: A Large-Scale Document-Level Relation Extraction Dataset" (PDF). Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: 764–777. arXiv:1906.06127. doi:10.18653/V1/P19-1074. Wikidata Q104419388.
  13. ^ Wang Xu; Kehai Chen; Tiejun Zhao (21 December 2020), Document-Level Relation Extraction with Reconstruction (PDF), arXiv:2012.11384, Wikidata Q104417795
  14. ^ "DocRED. Competition. CodaLab".