어휘사슬

Lexical chain

의미 관련 순서 단어 사이의 순서는 어휘 사슬로 분류된다.[1] 어휘사슬은 짧은 단어나 거리(입체 텍스트)에 걸쳐 있는, 로써 관련된 단어들의 배열이다. 사슬은 본문의 문법 구조와 무관하며 사실상 본문의 응집력 구조 일부를 포착하는 단어 목록이다. 어휘사슬은 모호한 용어의 해결을 위한 맥락을 제공할 수 있으며 용어가 나타내는 개념을 식별할 수 있다.

  • 로마 → 자본 → 도시 → 거주자
  • 위키백과 → 자원 → 웹

정보

모리스와 허스트는[1] 어휘적 응집력의 확장으로 어휘적 사슬이라는 용어를 소개한다.[2] 문장의 많은 부분이 의미적으로 연결되어 있는 텍스트는 종종 그 아이디어에 어느 정도의 연속성을 생성하여 문장들 사이에 좋은 응집력을 제공한다. 어휘적 응집력을 위해 사용되는 정의는 일관성이 다른 방법이 아니라 응집력의 결과라고 말한다.[2][3] 응집력은 추상적이거나 구체적인 관계 때문에 함께 속하는 일련의 단어들과 관련이 있다. 반면에 일관성은 전체 본문의 실제 의미와 관련이 있다.[1]

모리스와 허스트는[1] 어휘 사슬이 단어, 개념, 문장을 해석하는 데 의미적 맥락을 이용한다고 정의한다. 이와는 대조적으로 어휘적 응집력은 단어 쌍의 관계에 더 집중된다. 어휘 체인들은 이 개념을 인접한 단어들의 일련 번호로 확장시킨다. 어휘 체인이 필수적인 이유는 크게 두 가지가 있다.[1]

  • 문제를 단어의 특정 의미까지 모호하고 좁히는 데 도움이 되는 실현 가능한 상황.
  • 일관성과 담론을 결정하기 위한 단서, 따라서 본문의 더 깊은 의미-구조적 의미.

모리스와 허스트가[1] 제시한 방법은 어휘적 응집이라는 개념을 어휘적 체인을 통해 컴퓨터 시스템에 접목시킨 첫 번째 방법이다. 그들은 직관을 이용해 문자 문서에서 어휘적 사슬을 식별하고 할리데이와 하산의 관찰을[2] 고려해 구조를 구축했다. 이 과제를 위해, 그들은 서로 다른 출처와 비특정 출처로부터 총 183개의 문장으로 구성된 5개의 텍스트 문서를 고려했다. 반복 단어(예: 고주파 단어, 대명사, 명제, 언어 보조)는 구조 자체에 큰 의미적 가치를 가져오지 않기 때문에 전진적인 연쇄 요소로 간주되지 않았다.

어휘 체인은 텍스트 문서에 있는 단어 사이의 일련의 관계에 따라 만들어진다. 모리스와 허스트의[1] 정석적인 작품에서 그들은 이러한 관계를 추출하기 위한 어휘 데이터베이스로 외부 황소자리(로제트의 테사우루스)를 고려한다. A lexical chain is formed by a sequence of words appearing in this order, such as any two consecutive words present the following properties (i.e., attributes such as category, indexes, and pointers in 어휘 데이터베이스:[1][4]

  • 두 단어는 인덱스에서 하나의 공통 범주를 공유한다.
  • 이 단어 중 하나의 범주는 다른 단어를 가리킨다.
  • 단어 중 하나가 다른 단어의 항목 또는 범주에 속함
  • 두 단어는 의미상 관련이 있다.
  • 그들의 범주는 공통 범주에 동의한다.

접근 방식 및 방법

자연어 처리 작업에서 어휘 사슬의 사용(예: 텍스트 유사성, 워드 센스 모호성, 문서 클러스터링)은 문헌에서 널리 연구되어 왔다. 바질레이 등은 어휘 체인을 사용하여 텍스트에서 요약을 만든다. 그들은 원본 텍스트의 세분화, 어휘 체인 구성, 신뢰할 수 있는 체인의 식별, 그리고 중요한 문장의 추출의 4단계에 근거한 기술을 제안한다. Silber와 McCoy도[6] 텍스트 요약에 대해 조사하지만, 어휘사슬을 구성하기 위한 그들의 접근법은 선형적인 시간에 실행된다.

일부 저자들은 어휘 체인의 검색과 평가를 개선하기 위해 워드넷[7][8] 사용한다. 부다니츠키와 커스트는[9][10] 워드넷과 연계하여 어휘 체인을 사용하여 의미적 거리와 관련성의 여러 측정을 비교한다. 그들의 연구는 지앙과 콘라트의[11] 유사성 측정이 전반적으로 가장 좋은 결과를 나타낸다는 결론을 내리고 있다. Moldovan과 Adrian은[12] 문제 답변 시스템에 대한 주제 관련 단어를 찾기 위해 어휘 체인의 사용을 연구한다. 이는 워드넷의 각 synset에 대한 광택을 고려하여 이루어진다. 그들의 연구 결과에 따르면 어휘 사슬을 통한 주제 관계는 워드넷과 결합했을 때 질문 응답 시스템의 성능을 향상시킨다. 매카시 등은 워드넷을 사용하여 라벨이 부착되지 않은 텍스트에서 가장 우세한 신셋을 분류하고 찾는 방법론을 제시한다.[13] 전통적인 접근방식(예: BOW)과는 달리, 그들은 용어들 사이의 관계를 명시적으로 발생하지 않는 것으로 간주한다. 에르칸과 치체클리는[14] 감독된 머신러닝 관점을 통해 키워드 추출 과제에서 어휘 체인의 효과를 탐구한다. Wei 등에서는 어휘 체인과 워드넷을 결합하여 텍스트에서 의미론적으로 연관된 단어 집합을 추출하여 클러스터링에 사용한다.[15] 이들의 접근방식은 존재론적 계층 구조를 사용하여 워드센스 해체 작업 중 용어 간 유사성에 대한 보다 정확한 평가를 제공한다.

어휘 체인 및 워드 임베딩

어휘체인의 적용가능성은 다양하지만, 보다 구체적으로 단어 임베딩으로 NLP의 최근 진보를 통해 그것들을 탐구하는 작업은 거의 없다. 인에서 어휘 체인[7] 워드넷에서 발견되는 특정 패턴을 사용하여 구축되며 단어 임베딩 학습에 사용된다.[16] 이들의 결과 벡터는 문서 유사성 과제에서 검증된다. 곤잘레스 외 [17] 신경 기계 번역 모델과 통합된 어휘 체인을 생산하기 위해 단어암호 임베딩들을 사용한다. 마스카렐리는[18] 문서 인코더를 사용하여 통계 기계 번역을 활용하기 위해 어휘 체인을 사용하는 모델을 제안한다. 외부 어휘 데이터베이스를 사용하는 대신에, 그들은 소스 텍스트의 어휘 사슬을 감지하기 위해 단어 임베딩들을 사용한다.

루아스 외 연구진은 어휘 데이터베이스, 어휘 체인 및 단어 임베딩, 즉 플렉시블 어휘 체인 II(FLLC II)와 고정 어휘 체인 II(FXLC II)를 결합한 두 가지 기법을 제안한다.[4] FLLC II와 FXLC II의 주요 목표는 단어들의 의미적 가치에 의해 단어들의 집합을 보다 간결하게 표현하는 것이다. FLLC II에서 어휘 체인은 평가된 각 용어의 의미 내용 및 인접 국가와의 관계에 따라 동적으로 조립된다. 둘 이상의 단어를 연결하는 의미적 관계가 있는 한, 그것들은 독특한 개념으로 결합되어야 한다. 의미적 관계는 워드넷을 통해 얻어지는데, 이는 어떤 어휘 구조가 두 단어(예: 하이퍼니임, 하이포니임, 영어)를 연결하는지를 나타내는 지상 진리를 작동시킨다. 현재 체인과의 의미적 친화력이 없는 단어가 스스로 나타나면 새로운 어휘적 체인이 초기화된다. 반면 FXLC II는 텍스트 세그먼트를 미리 정의된 청크로 나누며, 각 단어의 특정 개수를 가지고 있다. FLLC II와는 달리 FXLC II 기법은 어휘 데이터베이스에 표현된 의미 관련성에 관계없이 일정량의 단어를 동일한 구조로 분류한다. 두 방법 모두, 각각의 형성된 체인은 사전 훈련된 단어 내장 벡터가 같은 체인에 있는 구성 단어의 평균 벡터와 가장 유사한 단어로 표현된다.

참고 항목

참조

  1. ^ a b c d e f g h MorrisJane; HirstGraeme (1991-03-01). "Lexical cohesion computed by thesaural relations as an indicator of the structure of text". Computational Linguistics.
  2. ^ a b c Halliday, Michael Alexander Kirkwood (1976). Cohesion in English. Hasan, Ruqaiya. London: Longman. ISBN 0-582-55031-9. OCLC 2323723.
  3. ^ Carrell, Patricia L. (1982). "Cohesion Is Not Coherence". TESOL Quarterly. 16 (4): 479–488. doi:10.2307/3586466. ISSN 0039-8322. JSTOR 3586466.
  4. ^ a b Ruas, Terry; Ferreira, Charles Henrique Porto; Grosky, William; de França, Fabrício Olivetti; de Medeiros, Débora Maria Rossi (2020-09-01). "Enhanced word embeddings using multi-semantic representation through lexical chains". Information Sciences. 532: 16–32. arXiv:2101.09023. doi:10.1016/j.ins.2020.04.048. ISSN 0020-0255.
  5. ^ Barzilay, Regina; McKeown, Kathleen R.; Elhadad, Michael (1999). "Information fusion in the context of multi-document summarization". Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. College Park, Maryland: Association for Computational Linguistics: 550–557. doi:10.3115/1034678.1034760. ISBN 1558606092.
  6. ^ Silber, Gregory; McCoy, Kathleen (2001). "Efficient text summarization using lexical chains Proceedings of the 5th international conference on Intelligent user interfaces": 252–255. doi:10.1145/325737.325861. S2CID 8403554. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  7. ^ a b "WordNet A Lexical Database for English". wordnet.princeton.edu. Retrieved 2020-05-20.
  8. ^ WordNet : an electronic lexical database. Fellbaum, Christiane. Cambridge, Mass: MIT Press. 1998. ISBN 0-262-06197-X. OCLC 38104682.{{cite book}}: CS1 maint : 기타(링크)
  9. ^ Budanitsky, Alexander; Hirst, Graeme (2001). "Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures" (PDF). Proceedings of the Workshop on WordNet and Other Lexical Resources, Second Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-2001). pp. 24–29. Retrieved 2020-05-20.{{cite web}}: CS1 maint : 위치 (링크) CS1 maint : url-status (링크)
  10. ^ Budanitsky, Alexander; Hirst, Graeme (2006). "Evaluating WordNet-based Measures of Lexical Semantic Relatedness". Computational Linguistics. 32 (1): 13–47. doi:10.1162/coli.2006.32.1.13. ISSN 0891-2017. S2CID 838777.
  11. ^ Jiang, Jay J.; Conrath, David W. (1997-09-20). "Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy". arXiv:cmp-lg/9709008.
  12. ^ Moldovan, Dan; Novischi, Adrian (2002). "Lexical chains for question answering". Proceedings of the 19th International Conference on Computational Linguistics. Taipei, Taiwan: Association for Computational Linguistics. 1: 1–7. doi:10.3115/1072228.1072395.
  13. ^ McCarthy, Diana; Koeling, Rob; Weeds, Julie; Carroll, John (2004). "Finding predominant word senses in untagged text". Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics - ACL '04. Barcelona, Spain: Association for Computational Linguistics: 279–es. doi:10.3115/1218955.1218991.
  14. ^ Ercan, Gonenc; Cicekli, Ilyas (2007). "Using lexical chains for keyword extraction". Information Processing & Management. 43 (6): 1705–1714. doi:10.1016/j.ipm.2007.01.015. hdl:11693/23343.
  15. ^ Wei, Tingting; Lu, Yonghe; Chang, Huiyou; Zhou, Qiang; Bao, Xianyu (2015). "A semantic approach for text clustering using WordNet and lexical chains". Expert Systems with Applications. 42 (4): 2264–2275. doi:10.1016/j.eswa.2014.10.023.
  16. ^ Linguistic Modeling and Knowledge Processing Department, Institute of Information and Communication Technology, Bulgarian Academy of Sciences; Simov, Kiril; Boytcheva, Svetla; Osenova, Petya (2017-11-10). "Towards Lexical Chains for Knowledge-Graph-basedWord Embeddings" (PDF). RANLP 2017 - Recent Advances in Natural Language Processing Meet Deep Learning. Incoma Ltd. Shoumen, Bulgaria: 679–685. doi:10.26615/978-954-452-049-6_087. ISBN 978-954-452-049-6. S2CID 41952796.{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  17. ^ Rios Gonzales, Annette; Mascarell, Laura; Sennrich, Rico (2017). "Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings". Proceedings of the Second Conference on Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics: 11–19. doi:10.18653/v1/W17-4702.
  18. ^ Mascarell, Laura (2017). "Lexical Chains meet Word Embeddings in Document-level Statistical Machine Translation". Proceedings of the Third Workshop on Discourse in Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics: 99–109. doi:10.18653/v1/W17-4813.