단어 감지 유도

Word-sense induction

컴퓨터 언어학에서 WSI(word-sense induction) 또는 판별단어감각(, 의미)의 자동 식별과 관련된 자연 언어 처리미해결 문제이다.단어 감지 유도의 출력이 대상 단어(감각 인벤토리)에 대한 감각 집합인 경우, 이 작업은 사전 정의된 감지 인벤토리에 의존하고 컨텍스트에서 단어의 모호성을 해결하는 것을 목표로 하는 단어 감지 모호성 제거(WSD)와 엄격하게 관련된다.

접근법 및 방법

워드센스 유도 알고리즘의 출력은 타깃 워드가 발생하는 컨텍스트의 클러스터화 또는 타깃 워드와 관련된 워드의 클러스터화입니다.문헌에는 [1][2]다음과 같은 세 가지 주요 방법이 제안되어 있다.

  • 콘텍스트 클러스터링
  • 단어 클러스터링
  • 공존 그래프

콘텍스트 클러스터링

이 접근법의 기본 가설은 단어들이 유사한 문서, 유사한 맥락 창 또는 유사한 구문적 [3]맥락에 나타나는 경우 의미론적으로 유사하다는 것이다.코퍼스에 있어서의 타겟 워드의 각 발생은 컨텍스트 벡터로 표현된다.이러한 콘텍스트 벡터는 눈앞의 콘텍스트를 직접 나타내는 1차 벡터 또는 2차 벡터일 수 있습니다.즉, 대상 워드의 콘텍스트가 함께 발생하는 경향이 있는 경우 유사합니다.그런 다음 벡터를 그룹으로 묶어서 각각 대상 단어의 의미를 식별합니다.컨텍스트 클러스터링에 대한 잘 알려진 접근법은 대규모 매트릭스 계산 방법에 기초한 컨텍스트 그룹 식별 알고리즘입니다.

단어 클러스터링

단어 클러스터링은 단어 감각의 유도에 대한 다른 접근법입니다.이것은 의미론적으로 유사하기 때문에 특정한 의미를 가질 수 있는 군집화 단어로 구성됩니다.린의 알고리즘은 구문 의존성 통계를 기반으로 하는 단어 클러스터링의 원형 사례로, 발견된 [6]각 단어의 감각에 대한 단어 집합을 생성하기 위해 말뭉치에서 발생합니다.CBC(Clustering By Committee)도 구문적 컨텍스트를 사용하지만 유사성 매트릭스를 이용하여 단어 간의 유사성을 인코딩하고 관심 있는 단어의 다양한 의미를 출력하기 위해 위원회의 개념에 의존합니다.이러한 접근방식은 많은 도메인 및 언어에서 대규모로 입수하기 어렵습니다.

공존 그래프

공생 그래프의 주요 가설은 단어의 의미론이 공생 그래프에 의해 표현될 수 있다고 가정한다.그들의 정점은 공생 그래프이고 가장자리는 공생 관계이다.이러한 접근법은 단어 클러스터링 방법과 관련이 있으며, 단어 간의 공존은 문법적 또는 위치적 관계를 기반으로 [9]얻을 수 있습니다.HyperLex는 다수의 파라미터를 [10]조정해야 하는 동시 발생 그래프의 허브 식별에 기초한 그래프 알고리즘의 성공적 접근법입니다.이 문제를 해결하기 위해 곡률 클러스터링, 정사각형, 삼각형 및 다이아몬드(SquaT++), 균형 최대 스패닝 트리 클러스터링(B-MST)[11] 등 간단한 그래프 패턴을 기반으로 하는 여러 그래프 기반 알고리즘이 제안되었다.패턴은 공존 그래프의 로컬 구조적 특성을 사용하여 의미를 식별하는 것을 목표로 합니다.메인스트림 메시지(즉, 단어 감지)를 인접[12] 정점에 반복적으로 전송하여 그래프 정점을 분할하는 랜덤화 알고리즘은 Chinese Whispers입니다.동시 발생 그래프를 적용함으로써 표준 평가 작업에서 최첨단 성능을 달성하는 접근방식이 입증되었다.

적용들

  • 단어 감지 인덕션은 매우 모호한 쿼리를 [9]사용할 때 웹 정보 검색에 도움이 되는 것으로 나타났습니다.
  • 간단한 단어 감지 유도 알고리즘으로 웹 검색 결과 클러스터링을 대폭 강화하고 [13]야후 등의 검색 엔진에서 반환되는 검색 결과의 다양화를 개선합니다.
  • 워드넷과 [14]같은 어휘 자원을 풍부하게 하기 위해 워드센스 인덕션이 적용되었다.

소프트웨어

  • Sense Clusters는 컨텍스트 클러스터링과 워드 클러스터링을 모두 실행하는 자유롭게 사용할 수 있는 오픈 소스 소프트웨어 패키지입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Navigli, R. (2009). "Word Sense Disambiguation: A Survey" (PDF). ACM Computing Surveys. 41 (2): 1–69. doi:10.1145/1459352.1459355. S2CID 461624.
  2. ^ Nasiruddin, M. (2013). A State of the Art of Word Sense Induction: A Way Towards Word Sense Disambiguation for Under-Resourced Languages (PDF). TALN-RÉCITAL 2013. Les Sables d'Olonne, France. pp. 192–205.
  3. ^ Van de Cruys, T. (2010). "Mining for Meaning. The Extraction of Lexico-Semantic Knowledge from Text" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  4. ^ Schütze, H. (1998). Dimensions of meaning. 1992 ACM/IEEE Conference on Supercomputing. Los Alamitos, CA: IEEE Computer Society Press. pp. 787–796. doi:10.1109/SUPERC.1992.236684.
  5. ^ Lin, D. (1998). Automatic retrieval and clustering of similar words (PDF). 17th International Conference on Computational linguistics (COLING). Montreal, Canada. pp. 768–774.
  6. ^ Van de Cruys, Tim; Apidianaki, Marianna (2011). "Latent Semantic Word Sense Induction and Disambiguation" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  7. ^ Lin, D.; Pantel, P. (2002). Discovering word senses from text. 8th International Conference on Knowledge Discovery and Data Mining (KDD). Edmonton, Canada. pp. 613–619. CiteSeerX 10.1.1.12.6771.
  8. ^ Widdows, D.; Dorow, B. (2002). A graph model for unsupervised lexical acquisition (PDF). 19th International Conference on Computational Linguistics (COLING). Taipei, Taiwan. pp. 1–7.
  9. ^ a b Véronis, J. (2004). "Hyperlex: Lexical cartography for information retrieval" (PDF). Computer Speech and Language. 18 (3): 223–252. CiteSeerX 10.1.1.66.6499. doi:10.1016/j.csl.2004.05.002.
  10. ^ Agirre, E.; Martinez, D.; De Lacalle, O. Lopez; Soroa, A. Two graph-based algorithms for state-of-the-art WSD (PDF). 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP). Sydney, Australia. pp. 585–593.
  11. ^ Di Marco, A.; Navigli, R. (2013). "Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction" (PDF). Computational Linguistics. 39 (3): 709–754. doi:10.1162/coli_a_00148. S2CID 1775181.
  12. ^ Biemann, C. (2006). "Chinese Whispers - an Efficient Graph Clustering Algorithm and its Application to Natural Language Processing Problems" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  13. ^ Navigli, R.; Crisafulli, G. Inducing Word Senses to Improve Web Search Result Clustering (PDF). 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010). Massachusetts, USA: MIT Stata Center. pp. 116–126.
  14. ^ Nasiruddin, M.; Schwab, D.; Tchechmedjiev, A.; Sérasset, G.; Blanchon, H. Induction de sens pour enrichir des ressources lexicales (Word Sense Induction for the Enrichment of Lexical Resources) (PDF). 21ème conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014). Marseille, France. pp. 598–603.