어휘사슬
Lexical chain의미 관련 순서 단어 사이의 순서는 어휘 사슬로 분류된다.[1] 어휘사슬은 짧은 단어나 긴 거리(입체 텍스트)에 걸쳐 있는, 글로써 관련된 단어들의 배열이다. 사슬은 본문의 문법 구조와 무관하며 사실상 본문의 응집력 구조 일부를 포착하는 단어 목록이다. 어휘사슬은 모호한 용어의 해결을 위한 맥락을 제공할 수 있으며 용어가 나타내는 개념을 식별할 수 있다.
- 로마 → 자본 → 도시 → 거주자
- 위키백과 → 자원 → 웹
정보
모리스와 허스트는[1] 어휘적 응집력의 확장으로 어휘적 사슬이라는 용어를 소개한다.[2] 문장의 많은 부분이 의미적으로 연결되어 있는 텍스트는 종종 그 아이디어에 어느 정도의 연속성을 생성하여 문장들 사이에 좋은 응집력을 제공한다. 어휘적 응집력을 위해 사용되는 정의는 일관성이 다른 방법이 아니라 응집력의 결과라고 말한다.[2][3] 응집력은 추상적이거나 구체적인 관계 때문에 함께 속하는 일련의 단어들과 관련이 있다. 반면에 일관성은 전체 본문의 실제 의미와 관련이 있다.[1]
모리스와 허스트는[1] 어휘 사슬이 단어, 개념, 문장을 해석하는 데 의미적 맥락을 이용한다고 정의한다. 이와는 대조적으로 어휘적 응집력은 단어 쌍의 관계에 더 집중된다. 어휘 체인들은 이 개념을 인접한 단어들의 일련 번호로 확장시킨다. 어휘 체인이 필수적인 이유는 크게 두 가지가 있다.[1]
- 문제를 단어의 특정 의미까지 모호하고 좁히는 데 도움이 되는 실현 가능한 상황.
- 일관성과 담론을 결정하기 위한 단서, 따라서 본문의 더 깊은 의미-구조적 의미.
모리스와 허스트가[1] 제시한 방법은 어휘적 응집이라는 개념을 어휘적 체인을 통해 컴퓨터 시스템에 접목시킨 첫 번째 방법이다. 그들은 직관을 이용해 문자 문서에서 어휘적 사슬을 식별하고 할리데이와 하산의 관찰을[2] 고려해 구조를 구축했다. 이 과제를 위해, 그들은 서로 다른 출처와 비특정 출처로부터 총 183개의 문장으로 구성된 5개의 텍스트 문서를 고려했다. 반복 단어(예: 고주파 단어, 대명사, 명제, 언어 보조)는 구조 자체에 큰 의미적 가치를 가져오지 않기 때문에 전진적인 연쇄 요소로 간주되지 않았다.
어휘 체인은 텍스트 문서에 있는 단어 사이의 일련의 관계에 따라 만들어진다. 모리스와 허스트의[1] 정석적인 작품에서 그들은 이러한 관계를 추출하기 위한 어휘 데이터베이스로 외부 황소자리(로제트의 테사우루스)를 고려한다. A lexical chain is formed by a sequence of words appearing in this order, such as any two consecutive words present the following properties (i.e., attributes such as category, indexes, and pointers in 어휘 데이터베이스:[1][4]
- 두 단어는 인덱스에서 하나의 공통 범주를 공유한다.
- 이 단어 중 하나의 범주는 다른 단어를 가리킨다.
- 단어 중 하나가 다른 단어의 항목 또는 범주에 속함
- 두 단어는 의미상 관련이 있다.
- 그들의 범주는 공통 범주에 동의한다.
접근 방식 및 방법
자연어 처리 작업에서 어휘 사슬의 사용(예: 텍스트 유사성, 워드 센스 모호성, 문서 클러스터링)은 문헌에서 널리 연구되어 왔다. 바질레이 등은 어휘 체인을 사용하여 텍스트에서 요약을 만든다. 그들은 원본 텍스트의 세분화, 어휘 체인 구성, 신뢰할 수 있는 체인의 식별, 그리고 중요한 문장의 추출의 4단계에 근거한 기술을 제안한다. Silber와 McCoy도[6] 텍스트 요약에 대해 조사하지만, 어휘사슬을 구성하기 위한 그들의 접근법은 선형적인 시간에 실행된다.
일부 저자들은 어휘 체인의 검색과 평가를 개선하기 위해 워드넷을[7][8] 사용한다. 부다니츠키와 커스트는[9][10] 워드넷과 연계하여 어휘 체인을 사용하여 의미적 거리와 관련성의 여러 측정을 비교한다. 그들의 연구는 지앙과 콘라트의[11] 유사성 측정이 전반적으로 가장 좋은 결과를 나타낸다는 결론을 내리고 있다. Moldovan과 Adrian은[12] 문제 답변 시스템에 대한 주제 관련 단어를 찾기 위해 어휘 체인의 사용을 연구한다. 이는 워드넷의 각 synset에 대한 광택을 고려하여 이루어진다. 그들의 연구 결과에 따르면 어휘 사슬을 통한 주제 관계는 워드넷과 결합했을 때 질문 응답 시스템의 성능을 향상시킨다. 매카시 등은 워드넷을 사용하여 라벨이 부착되지 않은 텍스트에서 가장 우세한 신셋을 분류하고 찾는 방법론을 제시한다.[13] 전통적인 접근방식(예: BOW)과는 달리, 그들은 용어들 사이의 관계를 명시적으로 발생하지 않는 것으로 간주한다. 에르칸과 치체클리는[14] 감독된 머신러닝 관점을 통해 키워드 추출 과제에서 어휘 체인의 효과를 탐구한다. Wei 등에서는 어휘 체인과 워드넷을 결합하여 텍스트에서 의미론적으로 연관된 단어 집합을 추출하여 클러스터링에 사용한다.[15] 이들의 접근방식은 존재론적 계층 구조를 사용하여 워드센스 해체 작업 중 용어 간 유사성에 대한 보다 정확한 평가를 제공한다.
어휘 체인 및 워드 임베딩
어휘체인의 적용가능성은 다양하지만, 보다 구체적으로 단어 임베딩으로 NLP의 최근 진보를 통해 그것들을 탐구하는 작업은 거의 없다. 인에서 어휘 체인은[7] 워드넷에서 발견되는 특정 패턴을 사용하여 구축되며 단어 임베딩 학습에 사용된다.[16] 이들의 결과 벡터는 문서 유사성 과제에서 검증된다. 곤잘레스 외 [17] 신경 기계 번역 모델과 통합된 어휘 체인을 생산하기 위해 단어암호 임베딩들을 사용한다. 마스카렐리는[18] 문서 인코더를 사용하여 통계 기계 번역을 활용하기 위해 어휘 체인을 사용하는 모델을 제안한다. 외부 어휘 데이터베이스를 사용하는 대신에, 그들은 소스 텍스트의 어휘 사슬을 감지하기 위해 단어 임베딩들을 사용한다.
루아스 외 연구진은 어휘 데이터베이스, 어휘 체인 및 단어 임베딩, 즉 플렉시블 어휘 체인 II(FLLC II)와 고정 어휘 체인 II(FXLC II)를 결합한 두 가지 기법을 제안한다.[4] FLLC II와 FXLC II의 주요 목표는 단어들의 의미적 가치에 의해 단어들의 집합을 보다 간결하게 표현하는 것이다. FLLC II에서 어휘 체인은 평가된 각 용어의 의미 내용 및 인접 국가와의 관계에 따라 동적으로 조립된다. 둘 이상의 단어를 연결하는 의미적 관계가 있는 한, 그것들은 독특한 개념으로 결합되어야 한다. 의미적 관계는 워드넷을 통해 얻어지는데, 이는 어떤 어휘 구조가 두 단어(예: 하이퍼니임, 하이포니임, 영어)를 연결하는지를 나타내는 지상 진리를 작동시킨다. 현재 체인과의 의미적 친화력이 없는 단어가 스스로 나타나면 새로운 어휘적 체인이 초기화된다. 반면 FXLC II는 텍스트 세그먼트를 미리 정의된 청크로 나누며, 각 단어의 특정 개수를 가지고 있다. FLLC II와는 달리 FXLC II 기법은 어휘 데이터베이스에 표현된 의미 관련성에 관계없이 일정량의 단어를 동일한 구조로 분류한다. 두 방법 모두, 각각의 형성된 체인은 사전 훈련된 단어 내장 벡터가 같은 체인에 있는 구성 단어의 평균 벡터와 가장 유사한 단어로 표현된다.
참고 항목
참조
- ^ a b c d e f g h MorrisJane; HirstGraeme (1991-03-01). "Lexical cohesion computed by thesaural relations as an indicator of the structure of text". Computational Linguistics.
- ^ a b c Halliday, Michael Alexander Kirkwood (1976). Cohesion in English. Hasan, Ruqaiya. London: Longman. ISBN 0-582-55031-9. OCLC 2323723.
- ^ Carrell, Patricia L. (1982). "Cohesion Is Not Coherence". TESOL Quarterly. 16 (4): 479–488. doi:10.2307/3586466. ISSN 0039-8322. JSTOR 3586466.
- ^ a b Ruas, Terry; Ferreira, Charles Henrique Porto; Grosky, William; de França, Fabrício Olivetti; de Medeiros, Débora Maria Rossi (2020-09-01). "Enhanced word embeddings using multi-semantic representation through lexical chains". Information Sciences. 532: 16–32. arXiv:2101.09023. doi:10.1016/j.ins.2020.04.048. ISSN 0020-0255.
- ^ Barzilay, Regina; McKeown, Kathleen R.; Elhadad, Michael (1999). "Information fusion in the context of multi-document summarization". Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. College Park, Maryland: Association for Computational Linguistics: 550–557. doi:10.3115/1034678.1034760. ISBN 1558606092.
- ^ Silber, Gregory; McCoy, Kathleen (2001). "Efficient text summarization using lexical chains Proceedings of the 5th international conference on Intelligent user interfaces": 252–255. doi:10.1145/325737.325861. S2CID 8403554.
{{cite journal}}
: Cite 저널은 필요로 한다.journal=
(도움말) - ^ a b "WordNet A Lexical Database for English". wordnet.princeton.edu. Retrieved 2020-05-20.
- ^ WordNet : an electronic lexical database. Fellbaum, Christiane. Cambridge, Mass: MIT Press. 1998. ISBN 0-262-06197-X. OCLC 38104682.
{{cite book}}
: CS1 maint : 기타(링크) - ^ Budanitsky, Alexander; Hirst, Graeme (2001). "Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures" (PDF). Proceedings of the Workshop on WordNet and Other Lexical Resources, Second Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-2001). pp. 24–29. Retrieved 2020-05-20.
{{cite web}}
: CS1 maint : 위치 (링크) CS1 maint : url-status (링크) - ^ Budanitsky, Alexander; Hirst, Graeme (2006). "Evaluating WordNet-based Measures of Lexical Semantic Relatedness". Computational Linguistics. 32 (1): 13–47. doi:10.1162/coli.2006.32.1.13. ISSN 0891-2017. S2CID 838777.
- ^ Jiang, Jay J.; Conrath, David W. (1997-09-20). "Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy". arXiv:cmp-lg/9709008.
- ^ Moldovan, Dan; Novischi, Adrian (2002). "Lexical chains for question answering". Proceedings of the 19th International Conference on Computational Linguistics. Taipei, Taiwan: Association for Computational Linguistics. 1: 1–7. doi:10.3115/1072228.1072395.
- ^ McCarthy, Diana; Koeling, Rob; Weeds, Julie; Carroll, John (2004). "Finding predominant word senses in untagged text". Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics - ACL '04. Barcelona, Spain: Association for Computational Linguistics: 279–es. doi:10.3115/1218955.1218991.
- ^ Ercan, Gonenc; Cicekli, Ilyas (2007). "Using lexical chains for keyword extraction". Information Processing & Management. 43 (6): 1705–1714. doi:10.1016/j.ipm.2007.01.015. hdl:11693/23343.
- ^ Wei, Tingting; Lu, Yonghe; Chang, Huiyou; Zhou, Qiang; Bao, Xianyu (2015). "A semantic approach for text clustering using WordNet and lexical chains". Expert Systems with Applications. 42 (4): 2264–2275. doi:10.1016/j.eswa.2014.10.023.
- ^ Linguistic Modeling and Knowledge Processing Department, Institute of Information and Communication Technology, Bulgarian Academy of Sciences; Simov, Kiril; Boytcheva, Svetla; Osenova, Petya (2017-11-10). "Towards Lexical Chains for Knowledge-Graph-basedWord Embeddings" (PDF). RANLP 2017 - Recent Advances in Natural Language Processing Meet Deep Learning. Incoma Ltd. Shoumen, Bulgaria: 679–685. doi:10.26615/978-954-452-049-6_087. ISBN 978-954-452-049-6. S2CID 41952796.
{{cite journal}}
: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Rios Gonzales, Annette; Mascarell, Laura; Sennrich, Rico (2017). "Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings". Proceedings of the Second Conference on Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics: 11–19. doi:10.18653/v1/W17-4702.
- ^ Mascarell, Laura (2017). "Lexical Chains meet Word Embeddings in Document-level Statistical Machine Translation". Proceedings of the Third Workshop on Discourse in Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics: 99–109. doi:10.18653/v1/W17-4813.