용어 추출

Terminology extraction

용어 추출(용어 추출, 용어 추출, 용어 인식 또는 용어 마이닝이라고도 함)은 정보 추출의 하위 작업입니다.용어 추출의 목적은 주어진 [1]말뭉치에서 관련 용어를 자동으로 추출하는 것이다.

시맨틱 웹 시대에 점점 더 많은 커뮤니티와 네트워크 기업이 인터넷을 통해 접속하고 상호 운용하기 시작했다.이러한 커뮤니티와 그 정보 요구를 모델링하는 것은 토픽 기반의 웹 크롤러,[2] 서비스,[3] 추천 시스템 [4]등과 같은 여러애플리케이션에서 중요합니다.용어 추출의 개발은 언어 산업에도 필수적입니다.

지식 도메인을 모델링하는 첫 번째 단계 중 하나는 도메인 개념의 언어 표면 표현을 구성하는 도메인 관련 용어의 어휘를 수집하는 것입니다.도메인별 문서 보관소에서 자동으로 기술 용어를 추출하는 몇 가지 방법이 문헌에 [5][6][7][8][9][10][11][12][13][14][15][16][17]설명되어 있습니다.

일반적으로 자동 용어 추출 접근법은 언어 처리 장치(음성 태그 부착, 구절 청킹의 일부)를 사용하여 용어 후보, 즉 구문적으로 그럴듯한 용어 명사 구문을 추출한다.명사구에는 복합어(예: "신용카드", 형용사 명사구(예: "지역 관광 안내소") 및 전치사 명사구(예: "이사회")가 포함된다.영어에서는 처음 두 개가 가장 [18]빈번하다.그런 다음 통계 및 기계 학습 방법을 사용하여 후보 목록에서 용어 엔트리가 필터링됩니다.일단 필터링을 하면, 이러한 용어들은 낮은 모호성과 높은 특수성으로 인해 지식 도메인을 개념화하거나 도메인 온톨로지 또는 용어 기반 작성을 지원하는 데 특히 유용합니다.또한 용어 추출은 의미 유사성, 지식 관리, 인간 번역기계 번역 등에 매우 유용한 출발점입니다.

2개 국어 용어 추출

용어 추출 방법은 병렬 말뭉치에 적용할 수 있다.예를 들어 공존 통계와 조합하여 용어 번역 후보를 얻을 [19]수 있습니다.2개 국어 용어는 동등한 말뭉치[20](동일한 텍스트 유형, 도메인 내의 텍스트를 포함하지만 서로 간의 문서 번역은 포함하지 않는 말뭉치)에서도 추출할 수 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Vol. 650. pp. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  2. ^ 멩체르 F, 팬트 G, 스리니바산 P.주제 중심 크롤러: 기계 학습 문제.
  3. ^ Fan J.와 Kambhampati S.ACM SIGMOD Record Archive Volume 34, 제1호(2005년 3월)의 퍼블릭서비스의 스냅샷.
  4. ^ 옌정웨이, 뤽 모로, 니콜라스 R.제닝스.ACM Transactions on Information Systems(TOIS), 23(3), 2005에서 추천자 시스템에 대한 시장 기반 접근법.
  5. ^ Bourigault D.와 Jacquemin C.용어 추출+용어집 작성: 컴퓨터 지원 용어집 통합 플랫폼 2006년 6월 19일 EACL, 1999년 Proc.의 Wayback Machine에서 아카이브.
  6. ^ Collier, N.; Nobata, C.; Tsujii, J. (2002). "Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain". Terminology. 7 (2): 239–257. doi:10.1075/term.7.2.07col.
  7. ^ K. Frantzi, S. Ananiadou, H. Mima.(2000).C-value/NC-value 방법이라는 여러 단어 용어를 자동으로 인식합니다.입력: C. Nikolau와 C.스테파니디스(Eds)국제 디지털 도서관 저널, 제3권, 제2호, 페이지 115-130.
  8. ^ K. Frantzi, S. Ananiadou 및 J.츠지이(1998) 복수 단어 용어의 자동 인식의 C-value/NC-value 방법, In: 제2회 디지털 도서관 연구 및 첨단 기술에 관한 유럽 회의의 ECDL '98 진행, 페이지 585-604.ISBN 3-540-65101-2
  9. ^ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). "Glossary extraction and utilization in the information search and delivery system for IBM Technical Support" (PDF). IBM Systems Journal. 43 (3): 546–563. doi:10.1147/sj.433.0546.
  10. ^ Navigli R. 및 Velardi, P. 문서 웨어하우스전용사이트에서 도메인 온톨로지를 학습합니다.컴퓨터 언어학, 30(2), MIT Press, 2004, 151-179페이지
  11. ^ Oliver, A. 및 Vazquez, M. TBXTools: 자동 용어 추출을 위한 무료, 고속, 유연한 도구.자연어 처리의 최근 발전 과정(LANLP 2015), 2015, 473–479페이지
  12. ^ Y. Park, R. J. Byrd, B. Boguraev.「자동 용어 추출: 용어 식별을 넘어」, 국제 컴퓨터 언어학 회의, 제19회 컴퓨터 언어학 국제 회의의 속행(타이베이, 대만, 2002).
  13. ^ Sclano, F. Velardi, P...Term Extractor: 긴급 웹 커뮤니티의 공용 용어를 학습하기 위한 웹 응용 프로그램.제3회 엔터프라이즈소프트웨어와 애플리케이션의 상호운용성에 관한 국제회의(I-ESA 2007)의 Pro.에 게재된다.2007년 3월 28일부터 30일까지 포르투갈의 Funchal(마데이라 섬).
  14. ^ P. 벨라디, R. 네비게리, P. 다마디오전문 용어집 작성을 위한 웹 마이닝, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, 페이지 18-25.
  15. ^ Wermter J.와 Hahn U. 2005년 10월 2~5일 캐나다 앨버타주 밴프, K-CAP'05의 대리점에서 새로운 용어 발견
  16. ^ Wong, W., Liu, W. & Bennamoon, M. (2007) 도메인 보급률과 경향을 이용한 도메인 온톨로지 학습 용어 결정제6회 호주 데이터 마이닝 회의(AusDM), 골드코스트.ISBN 978-1-920682-51-4
  17. ^ Wong, W., Liu, W. & Bennamoon, M. (2007) 확률론적 프레임워크에서의 도메인 온톨로지 학습 용어 결정.제6회 호주 데이터 마이닝 회의(AusDM), 골드코스트.ISBN 978-1-920682-51-4
  18. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Vol. 650. pp. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  19. ^ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment". Terminology. 19 (1): 1–30. doi:10.1075/term.19.1.01mac. hdl:1854/LU-2128573.
  20. ^ Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag