단어 삽입
Word embedding시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
자연 언어 처리(도달)에서, 단었던 1가지 이슈 때문이었습니다는 임기 말의 텍스트 분석의 대리를 위해, 실수치의 벡터의 그 단어의 뜻을 암호화하는 형태에서 사용하는 가까운 벡터 공간의 단어 의미와 유사할 것으로 예상된다.[1]워드 embeddings 언어 모델의 집합을 어디서 그 어휘에서 단어나 구절 등 실제 숫자의 요인에 매핑 되어 있지는 특징 학습 기법을 사용하여 얻을 수 있다.
이 매핑을 생성하는 방법에는 뉴럴 네트워크,[2] 단어 공존 [3][4][5]행렬의 차원성 감소,[6] 확률론적 모델, 설명 가능한 지식 기반 [7]방법 및 단어가 [8]나타나는 맥락의 명시적 표현이 포함된다.
기본 입력 표현으로 사용될 때 단어와 구절 삽입은 구문 분석[9] 및 감정 [10]분석과 같은 NLP 작업에서 성능을 향상시키는 것으로 나타났다.
접근법 개발 및 이력
분포적 의미론에서, 관찰된 언어, 단어 임베딩 또는 의미 벡터 공간 모델에서 의미를 이해하기 위한 정량적 방법론적 접근방식은 한동안 [11]지식 표현으로 사용되어 왔다.이러한 모델은 언어 데이터의 대규모 샘플에서 언어 항목 간의 분포 특성을 바탕으로 언어 항목 간의 의미적 유사성을 정량화하고 분류하는 것을 목표로 한다."단어는 그것이 유지하는 회사에 의해 특징지어진다"는 근본적인 생각은 존 루퍼트 [12]퍼스의 1957년 기사에서 제안되었지만, 또한 검색 시스템과 [14]인지 심리학에 대한 동시대의 연구에 뿌리를 두고 있다.
벡터 또는 임베딩으로 표현되는 어휘 항목(단어 또는 복수 단어 용어)이 있는 의미 공간의 개념은 단어, 구 또는 전체 문서 간의 유사성을 측정하기 위해 분포 특성을 포착하고 이를 실제 적용에 사용하는 계산적 과제에 기초한다.의미 공간 모델의 첫 번째 세대는 정보 [15][16][17]검색을 위한 벡터 공간 모델입니다.단어와 가장 단순한 형태로 구현된 분포 데이터에 대한 이러한 벡터 공간 모델은 고차원성의 매우 희박한 벡터 공간을 초래한다.차원성의 저주).특이값 분해와 같은 선형 대수적 방법을 사용하여 차원의 수를 줄인 후 1980년대 후반에 잠재 의미 분석의 도입과 단어 동시 [18][19][20][21]발생 맥락을 수집하기 위한 무작위 색인화 접근으로 이어졌다.2000년 Bengio 등은 일련의 논문에서 "단어에 대한 분산 표현 학습"[22][23]을 통해 문맥에서 단어 표현의 고차원성을 감소시키는 "신경 확률적 언어 모델"을 제공했다.
NeurolIPS(NIPS) 2002에 발표된 연구는 2개 국어(및 다국어) 코퍼스에 커널 CCA 방법을 적용하는 단어와 문서 임베딩의 사용을 도입했으며, 또한 단어 임베딩의 자체 감독 학습의 초기 예를 제공한다.
단어 임베딩은 단어가 공존하는 단어의 벡터로 표현되는 스타일과 단어가 발생하는 언어적 맥락의 벡터로 표현되는 스타일 두 가지가 있다(Lavelli et al., 2004).[25]Roweis와 Saul은 Science에 LLE(Localally Linear Embedding)를 사용하여 고차원 데이터 [26]구조의 표현을 발견하는 방법을 발표했습니다.약 2005년 이후 대부분의 신조어 임베딩 기법은 요슈아 벤지오와 [27][28]동료들에 의해 일부 기초 작업이 이루어졌기 때문에 보다 확률적이고 대수적인 모델 대신 뉴럴 네트워크 아키텍처에 의존한다.
이 접근방식은 벡터의 품질과 모델의 훈련 속도 및 하드웨어 진전에 대한 이론적 작업에 대한 2010년 경의 진전이 이루어진 후 많은 연구 그룹에 의해 채택되어 보다 넓은 매개 변수 공간을 수익성 있게 탐색할 수 있었다.2013년, Tomas Mikolov가 이끄는 Google 팀은 벡터 공간 모델을 이전의 접근 방식보다 더 빠르게 교육할 수 있는 단어 임베딩 툴킷인 word2vec을 만들었습니다.2vec 접근법은 실험에 널리 사용되어 기술로서의 단어 임베딩에 대한 관심을 높이는 데 중요한 역할을 했으며, 전문 연구에서 벗어나 더 넓은 실험으로 나아가 궁극적으로 실용적인 [29]응용을 위한 길을 열었습니다.
제한 사항
전통적으로 단어 임베딩(일반적으로 단어 벡터 공간 모델)의 주요 한계 중 하나는 여러 의미를 가진 단어가 단일 표현(의미적 공간의 단일 벡터)으로 결합된다는 것이다.다시 말해, 일부다처제와 동음이의어가 제대로 처리되지 않는다.예를 들어, "어제 내가 시도한 클럽은 훌륭했다!"라는 문장에서 클럽이라는 용어가 클럽 샌드위치, 야구 클럽, 클럽 하우스, 골프 클럽, 또는 클럽이 가지고 있는 다른 감각과 관련이 있는지는 명확하지 않다.서로 다른 벡터(멀티센스 임베딩)에서 단어당 여러 개의 의미를 수용해야 하는 필요성은 NLP에서 단일 센스 임베딩을 [30][31]멀티센스 임베딩으로 분할하는 여러 기여의 동기가 된다.
멀티센스 임베딩을 생성하는 대부분의 접근법은 단어 센스 표현을 위해 비감독 및 [32]지식 기반 두 가지 주요 범주로 나눌 수 있다.워드2vec Skip Gram(MSSG)[33]은 워드2vec Skip Gram을 기반으로 워드센스 판별과 임베딩을 동시에 실시하여 단어별로 특정 수의 감각을 가정하면서 훈련시간을 향상시킨다.NP-MSSG(Non-Parametric Multi-Sense Skip-Gram)에서는 이 숫자는 각 단어에 따라 다를 수 있습니다.어휘 데이터베이스(예: WordNet, ConceptNet, BabelNet), 단어 임베딩 및 단어 의미 명확화에 대한 사전 지식을 결합하여, Most Fitiate Sense Annotation(MSSA)[34]은 사전 정의된 슬라이딩 창에서 단어의 맥락을 고려한 비감독 및 지식 기반 접근방식을 통해 단어에 라벨을 붙인다.일단 단어가 모호해지면 표준 단어 임베딩 기술로 사용할 수 있기 때문에 멀티센스 임베딩을 제작할 수 있습니다.MSSA 아키텍처는 자기계발적인 방법으로 모호성 해소 및 주석 프로세스를 동시에 수행할 수 있도록 합니다.
멀티센스 임베딩의 사용은 음성 태그 부착, 의미 관계 식별, 의미 관련성, 명명된 개체 인식 및 감정 [35][36]분석과 같은 여러 NLP 작업에서 성능을 향상시키는 것으로 알려져 있다.
최근에는[when?] ELMo, BERT 등 문맥적으로 의미가 있는 임베딩이 개발되고 있습니다.이러한 삽입물은 단어의 문맥을 사용하여 다음을 명확히 한다.LSTM 및 트랜스포머 뉴럴네트워크 아키텍처를 사용하여 이를 수행합니다.
생물학적 배열의 경우:바이오벡터
생물 정보학 애플리케이션을 위한 생물학적 배열(예:[37] DNA, RNA, 단백질)의 n그램에 대한 단어 임베딩은 Asgari와 Mofrad에 의해 제안되었다.일반적으로 단백질(아미노산 배열)에 대한 단백질 벡터(ProtVec)와 유전자 배열에 대한 유전자 벡터(GeneVec)와 함께 생물학적 배열을 참조하기 위해 바이오 벡터(BioVec)로 명명된 이 표현은 프로테오믹스와 유전체학에서 딥러닝의 응용에 널리 사용될 수 있다.Asgari와 Mofrad에[37] 의해 제시된 결과는 바이오벡터가 기초 패턴의 생화학적 및 생물물리학적 해석의 관점에서 생물학적 서열을 특징지을 수 있음을 시사한다.
문장 삽입
아이디어는 전체 문장 또는 심지어 문서(예: 사고 벡터 개념의 형태)를 포함하도록 확장되었다.2015년에 일부 연구자들은 기계 [38]번역의 품질을 향상시키기 위한 수단으로 "건너뛰기 생각 벡터"를 제안했다.
소프트웨어
단어 임베딩을 트레이닝 및 사용하기 위한 소프트웨어에는 Tomas Mikolov의 Word2vec, 스탠포드 대학의 Glove,[39] GN-GloVe,[40] Flair 임베딩,[35] AllenNLP의 ELMo,[41] [42]BERT, FastText, Gensim,[43] Indra[44] 및 Deep4j 등이 있습니다.주성분 분석(PCA)과 T-분산 확률 인접 임베딩(t-SNE)은 모두 단어 벡터 공간의 차원성을 줄이고 단어 임베딩과 클러스터를 [45]시각화하는 데 사용된다.
적용 예
예를 들어,[46] fastText는 Sketch Engine에서 온라인으로 사용할 수 있는 텍스트 말뭉치에 대한 단어 포함을 계산하는 데 사용됩니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0-13-095069-7.
- ^ Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of Words and Phrases and their Compositionality". arXiv:1310.4546 [cs.CL].
- ^ Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL). Vol. 2014. arXiv:1312.5542.
- ^ Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit Matrix Factorization (PDF). NIPS.
- ^ Li, Yitan; Xu, Linli (2015). Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective (PDF). Int'l J. Conf. on Artificial Intelligence (IJCAI).
- ^ Globerson, Amir (2007). "Euclidean Embedding of Co-occurrence Data" (PDF). Journal of Machine Learning Research.
- ^ Qureshi, M. Atif; Greene, Derek (2018-06-04). "EVE: explainable vector based embedding technique using Wikipedia". Journal of Intelligent Information Systems. 53: 137–165. arXiv:1702.06891. doi:10.1007/s10844-018-0511-x. ISSN 0925-9902. S2CID 10656055.
- ^ Levy, Omer; Goldberg, Yoav (2014). Linguistic Regularities in Sparse and Explicit Word Representations (PDF). CoNLL. pp. 171–180.
- ^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing with compositional vector grammars (PDF). Proc. ACL Conf.
- ^ Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris (2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (PDF). EMNLP.
- ^ Sahlgren, Magnus. "A brief history of word embeddings".
- ^ Firth, J.R. (1957). "A synopsis of linguistic theory 1930–1955". Studies in Linguistic Analysis: 1–32. 재인쇄된 위치
- ^ {마지막 저널=Luhn first=H.P. year=title=A New Method of Recording and Searching Information journal=American Documentation pages=14-16 doi=doi:10.1002/asi.5090040104}
- ^ Osgood, C.E.; Suci, G.J.; Tannenbaum, P.H. (1957). The Measurement of Meaning. University of Illinois Press.
- ^ Salton, Gerard (1962). "Some experiments in the generation of word and document associations". Proceeding AFIPS '62 (Fall) Proceedings of the December 4–6, 1962, Fall Joint Computer Conference. AFIPS '62 (Fall): 234–250. doi:10.1145/1461518.1461544. ISBN 9781450378796. S2CID 9937095. Retrieved 18 October 2020.
- ^ Salton, Gerard; Wong, A; Yang, C S (1975). "A Vector Space Model for Automatic Indexing". Communications of the Association for Computing Machinery (CACM). 18 (11): 613–620. doi:10.1145/361219.361220. hdl:1813/6057. S2CID 6473756.
- ^ Dubin, David (2004). "The most influential paper Gerard Salton never wrote". Retrieved 18 October 2020.
- ^ Kanerva, Pentti, Kristoferson, Jan and Holst, Anders(2000):잠재의미분석을 위한 텍스트 샘플의 무작위 색인화, 인지과학회 제22회 연차총회 속행, 페이지 1036.뉴저지 주 마와: 2000년, 얼바움.
- ^ Karlgren, Jussi; Sahlgren, Magnus (2001). Uesaka, Yoshinori; Kanerva, Pentti; Asoh, Hideki (eds.). "From words to understanding". Foundations of Real-World Intelligence. CSLI Publications: 294–308.
- ^ Sahlgren, Magnus (2005) 제7회 용어 및 지식 공학 국제 회의에서 의미 색인 워크숍 방법 및 적용에 대한 소개, 진행, 2005년 8월 16일 덴마크 코펜하겐
- ^ Sahlgren, Magnus, Holst, Anders 및 Penti Kanerva(2008) 인지과학회 제30회 연차총회 회보: 1300–1305.
- ^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Jauvin, Christian (2003). "A Neural Probabilistic Language Model" (PDF). Journal of Machine Learning Research. 3: 1137–1155.
- ^ Bengio, Yoshua; Schwenk, Holger; Senécal, Jean-Sébastien; Morin, Fréderic; Gauvain, Jean-Luc (2006). A Neural Probabilistic Language Model. Studies in Fuzziness and Soft Computing. Vol. 194. pp. 137–186. doi:10.1007/3-540-33486-6_6. ISBN 978-3-540-30609-2.
- ^ Vinkourov, Alexei; Cristianini, Nello; Shawe-Taylor, John (2002). Inferring a semantic representation of text via cross-language correlation analysis (PDF). Advances in neural information processing systems 15.
- ^ Lavelli, Alberto; Sebastiani, Fabrizio; Zanoli, Roberto (2004). Distributional term representations: an experimental comparison. 13th ACM International Conference on Information and Knowledge Management. pp. 615–624. doi:10.1145/1031171.1031284.
- ^ Roweis, Sam T.; Saul, Lawrence K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–6. Bibcode:2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313. doi:10.1126/science.290.5500.2323. PMID 11125150.
- ^ Morin, Fredric; Bengio, Yoshua (2005). "Hierarchical probabilistic neural network language model" (PDF). In Cowell, Robert G.; Ghahramani, Zoubin (eds.). Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics. Proceedings of Machine Learning Research. Vol. R5. pp. 246–252.
- ^ Mnih, Andriy; Hinton, Geoffrey (2009). "A Scalable Hierarchical Distributed Language Model". Advances in Neural Information Processing Systems 21 (NIPS 2008). Curran Associates, Inc. 21: 1081–1088.
- ^ "word2vec". Google Code Archive. Retrieved 23 July 2021.
- ^ Reisinger, Joseph; Mooney, Raymond J. (2010). Multi-Prototype Vector-Space Models of Word Meaning. Vol. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, California: Association for Computational Linguistics. pp. 109–117. ISBN 978-1-932432-65-7. Retrieved October 25, 2019.
- ^ Huang, Eric. (2012). Improving word representations via global context and multiple word prototypes. OCLC 857900050.
- ^ Camacho-Collados, Jose; Pilehvar, Mohammad Taher (2018). "From Word to Sense Embeddings: A Survey on Vector Representations of Meaning". arXiv:1805.04032 [cs.CL].
- ^ Neelakantan, Arvind; Shankar, Jeevan; Passos, Alexandre; McCallum, Andrew (2014). "Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space". Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics: 1059–1069. arXiv:1504.06654. doi:10.3115/v1/d14-1113. S2CID 15251438.
- ^ Ruas, Terry; Grosky, William; Aizawa, Akiko (2019-12-01). "Multi-sense embeddings through a word sense disambiguation process". Expert Systems with Applications. 136: 288–303. arXiv:2101.08700. doi:10.1016/j.eswa.2019.06.026. hdl:2027.42/145475. ISSN 0957-4174. S2CID 52225306.
- ^ a b Akbik, Alan; Blythe, Duncan; Vollgraf, Roland (2018). "Contextual String Embeddings for Sequence Labeling". Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, USA: Association for Computational Linguistics: 1638–1649.
- ^ Li, Jiwei; Jurafsky, Dan (2015). "Do Multi-Sense Embeddings Improve Natural Language Understanding?". Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics: 1722–1732. arXiv:1506.01070. doi:10.18653/v1/d15-1200. S2CID 6222768.
- ^ a b Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). "Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics". PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.
- ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard S.; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015). "skip-thought vectors". arXiv:1506.06726 [cs.CL].
- ^ "GloVe".
- ^ Zhao, Jieyu; et al. (2018) (2018). "Learning Gender-Neutral Word Embeddings". arXiv:1809.01496 [cs.CL].
- ^ "Elmo".
- ^ Pires, Telmo; Schlinger, Eva; Garrette, Dan (2019-06-04). "How multilingual is Multilingual BERT?". arXiv:1906.01502 [cs.CL].
- ^ "Gensim".
- ^ "Indra". GitHub. 2018-10-25.
- ^ Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). "A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes" (PDF). Computing in Cardiology.
- ^ "Embedding Viewer". Embedding Viewer. Lexical Computing. Retrieved 7 Feb 2018.