의미접기
Semantic folding의미접기 이론은 자연어 텍스트의 의미론을 의미론적으로 바탕을 둔 이항 표현으로 인코딩하는 절차를 설명한다.이 접근방식은 신피질에 의해 언어 데이터가 처리되는 방법을 모델링하기 위한 프레임워크를 제공한다.[1]
이론
의미론적 접기 이론은 더글라스 R에서 영감을 끌어낸다. 호프스태터의 인지 핵심으로서의 비유는 뇌가 유추를 식별하고 적용함으로써 세상을 이해한다는 것을 암시한다.[2]따라서 유사성 측정의 적용을 허용하는 형태로 의미 데이터를 신피질에 도입해야 하며, 2차원 지형적 의미 공간을 분포 기준 프레임으로 채택한 희소 이항 벡터를 솔루션으로 제공한다.이 이론은 계층적 시간적 기억(HTM)이라고 알려진 인간 피질의 계산 이론에 기초하여, 언어 의미론의 표현을 위한 보완 이론으로 자리매김하고 있다.
이 접근방식에 의해 주장되는 특정한 강점은 결과적인 이진표현이 복잡한 의미 연산을 가장 기본적인 계산 수준에서 단순하고 효율적으로 수행할 수 있게 한다는 것이다.
2차원 의미공간
신피질의 구조와 유사하게, 시멘틱 폴딩 이론은 2차원 그리드로서 의미 공간의 구현을 상정한다.예를 들어, 경쟁적 학습 원리를 사용하여 유사한 맥락 벡터를 서로 더 가깝게 배치하는 방식으로 이 그리드는 컨텍스트[note 1] 벡터에 의해 채워진다.이 벡터 공간 모델은 정보 검색 문헌에 기술된 잘 알려진 단어 공간 모델과[3] 동등하게 이론에 제시되어 있다.
의미 공간(위에서 설명한 대로 구현됨)이 주어진 경우, 주어진 단어에 대해 단어[note 2] 벡터를 얻을 수 있다.Y다음 알고리즘을 사용하여:
의미 맵에서 각 위치 X에 대해(X는 데카르트 좌표를 나타냄) Y라는 단어가 위치 X의 컨텍스트 벡터에 포함된 경우, Y에 대한 워드 벡터의 해당 위치에 1을 더하고, 그렇지 않으면 Y에 대한 워드 벡터의 해당 위치에 0을 더한다.
이 과정의 결과는 Y라는 단어가 나타나는 모든 맥락을 포함하는 단어 벡터가 될 것이며 따라서 의미공간에서 그 단어의 의미론을 대표할 것이다.결과적인 단어 벡터 역시 희소 분포 표현(SDR) 형식임을 알 수 있다[Schütze, 1993] & [Sahlgreen, 2006].[3][4]연산 의미론과 관련하여 특별히 관심이 있는 워드 SDR의 일부 특성은 다음과 같다.[5]
- 높은 소음 저항:유사한 맥락들이 기초 지도에서 더 가깝게 배치되어 있기 때문에, 워드-SDR은 거짓 또는 이동된 "비트"에 대해 매우 내성이 있다.
- 부울 논리:부울(OR, AND, 독점 OR) 및/또는 산술(SUBTract) 함수를 사용하여 의미 있는 방식으로 워드 SDR을 조작할 수 있다.
- 하위 항목:Word-SDR은 의미 정보의 눈에 띄는 손실 없이 높은 수준으로 하위 샘플링될 수 있다.
- 위상학적 2차원 표현:SDR 표현은 기초 지도의 위상 분포를 유지하므로 유사한 의미를 가진 단어들은 유사한 단어 벡터를 가질 것이다.이는 벡터 원소의 단순한 중복으로부터 유클리드 거리, 해밍 거리, 자카드 거리, 코사인 유사성, 레벤슈테인 거리, 쇠렌센-다이체 지수 등과 같은 거리 측정의 범위에 이르기까지 의미 유사성의 계산에 다양한 측도를 적용할 수 있음을 시사한다.
의미공간
자연 언어 영역의 의미 공간은[note 3][6] 의미를 포착할 수 있는 자연 언어의 표현을 창조하는 것을 목표로 한다.의미적 공간에 대한 최초의 동기는 자연 언어의 두 가지 핵심 도전에서 비롯된다.어휘 불일치(동일한 의미가 여러 가지로 표현될 수 있다는 사실)와 자연어(동일한 용어가 여러 가지 의미를 가질 수 있다는 사실)의 애매함.
자연어 처리(NLP)에 의미공간을 적용하는 것은 키워드 수준에서 운용되는 규칙 기반 또는 모델 기반 접근법의 한계를 극복하는 것을 목적으로 한다.이러한 접근방식의 주요 단점은 그들의 근면성과 규칙 기반 NLP 시스템이나 모델 학습을 위한 기업 교육에 필요한 수작업의 큰 노력이다.[7][8]규칙 기반 및 기계 학습 기반 모델은 키워드 레벨에 고정되어 있으며, 어휘가 규칙에 정의된 어휘나 통계 모델에 사용되는 훈련 자료와 다를 경우 분해된다.
의미론적 공간에 대한 연구는 20년 이상 거슬러 올라간다.1996년에는 의미공간을 만들자는 일반적인 아이디어를 중심으로 많은 관심을 불러일으킨 두 개의 논문이 발표되었는데, 그 중 마이크로소프트와 하이퍼스페이스 아날로그에서 캘리포니아 대학교의[10] 언어까지 잠재된 의미분석이다[9].그러나 이러한 의미 공간을 구성하고 사용하는 데 필요한 대규모 계산 노력에 의해 이들의 채택이 제한되었다.2007년 명시적 의미분석(ESA)[11]에 의해 "고래-돌핀", "아스트론자-운전자"와 같은 동의어 관계에 반대되는 단어 간 연관관계 모델링의 정확성에 관한 돌파구가 달성되었다.ESA는 (각 차원이 위키백과에서 기사를 나타내는) 10만 차원으로 벡터 형태로 단어를 나타내는 소설(비 기계 학습) 기반 접근법이었다.그러나 벡터에 필요한 치수가 많기 때문에 접근방식의 실제 적용은 제한된다.
보다 최근에는 신경 네트워킹 기법이 다른 새로운 접근방식(텐셔너)과 결합하여 발전하면서 새로운 최근의 발전이 다수 발생하였다.구글의 워드2벡과[12] 스탠포드 대학의 글로브[13].
의미 접기란 2D 의미 맵(의미적 우주)에서 각 단어가 1만6000차원(의미적 지문)의 희박한 이진 벡터로 표현되는 의미 공간에 생물학적으로 영감을 받은 새로운 접근방식을 나타낸다.이항 표현은 계산 효율 면에서 유리하며, 매우 많은 수의 가능한 패턴을 저장할 수 있다.[5]
시각화
2차원 그리드를 통한 위상 분포(위 그림 참조)는 단어 또는 텍스트의 의미론적 시각화를 비트맵 유형으로 이어지며, 여기서 각 활성 의미론적 특징을 픽셀(예: 픽셀)로 표시할 수 있다.여기에 표시된 이미지에서 볼 수 있듯이, 이 표현은 두 가지(또는 그 이상의) 언어 항목의 의미론을 직접 시각적으로 비교할 수 있다.
이미지 1은 예상대로 "개"와 "자동차"라는 두 가지 상이한 용어가 분명히 매우 다른 의미론을 가지고 있음을 분명히 보여준다.
이미지 2는 자동차 '자과'의 의미 컨텍스트 중 하나인 '자과'의 의미 컨텍스트 중 하나만 포르쉐(부분적 유사성을 나타냄)의 의미와 겹치는 것을 보여준다."자구아"의 다른 의미 컨텍스트(예: "자구아")는 동물이 명백히 서로 겹치지 않는 컨텍스트를 가지고 있다.의미론적 접기를 이용한 의미론적 유사성의 시각화는 A.G가 실시한 연구 연구에서 생성된 fMRI 영상과 매우 유사하다.Huth 등.[14][15] 여기서 단어들은 의미에 의해 뇌에 그룹화된다고 주장한다.뇌의 작은 부피 부분인 복셀은 의미 정보가 시각적 피질의 경계를 따라 표현되며 각각 후측과 전측면에 표현되는 시각적 및 언어적 범주로 표현된다.[16][17][18]
메모들
참조
- ^ De Sousa Webber, Francisco (2015). "Semantic Folding theory and its Application in Semantic Fingerprinting". Cornell University Library. arXiv:1511.08855. Bibcode:2015arXiv151108855D.
- ^ "The Analogical Mind". MIT Press. Retrieved 2016-04-18.
- ^ a b Sahlgreen, Magnus (2006). "The Word-Space Model".
- ^ Schütze, Hinrich (1993). "Word Space": 895–902. CiteSeerX 10.1.1.41.8856.
{{cite journal}}:Cite 저널은 필요로 한다.journal=(도움말) - ^ a b Subutai Ahmad; Jeff Hawkins (2015). "Properties of Sparse Distributed Representations and their Application to Hierarchical Temporal Memory". arXiv:1503.07469 [q-bio.NC].
- ^ Baroni, Marco; Lenci, Alessandro (2010). "Distributional Memory: A General Framework for Corpus-Based Semantics". Computational Linguistics. 36 (4): 673–721. CiteSeerX 10.1.1.331.3769. doi:10.1162/coli_a_00016. S2CID 5584134.
- ^ Scott C. Deerwester; Susan T. Dumais; Thomas K. Landauer; George W. Furnas; Richard A. Harshen (1990). "Indexing by Latent Semantic Analysis" (PDF). Journal of the American Society for Information Science.
- ^ Xing Wei; W. Bruce Croft (2007). "Investigating retrieval performance with manually-built topic models". Proceeding RIAO '07 Large Scale Semantic Access to Content (Text, Image, Video, and Sound). Riao '07: 333–349.
- ^ "LSA: A Solution to Plato's Problem". lsa.colorado.edu. Retrieved 2016-04-19.
- ^ Lund, Kevin; Burgess, Curt (1996-06-01). "Producing high-dimensional semantic spaces from lexical co-occurrence". Behavior Research Methods, Instruments, & Computers. 28 (2): 203–208. doi:10.3758/BF03204766. ISSN 0743-3808.
- ^ Evgeniy Gabrilovich & Shaul Markovitch (2007). "Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis" (PDF). Proc. 20th Int'l Joint Conf. On Artificial Intelligence (IJCAI). Pp. 1606–1611.
- ^ Tomas Mikolov; Ilya Sutskever; Kai Chen; Greg Corrado; Jeffrey Dean (2013). "Distributed Representations of Words and Phrases and their Compositionality". arXiv:1310.4546 [cs.CL].
- ^ Jeffrey Pennington; Richard Socher; Christopher D. Manning (2014). "GloVe: Global Vectors for Word Representation" (PDF).
- ^ Huth, Alexander (27 April 2016). "Natural speech reveals the semantic maps that tile human cerebral cortex". Nature. 532 (7600): 453–458. Bibcode:2016Natur.532..453H. doi:10.1038/nature17637. PMC 4852309. PMID 27121839.
- ^ "Brain". gallantlab.org. Retrieved 2022-02-16.
- ^ Popham, Sara F.; Huth, Alexander G.; Bilenko, Natalia Y.; Deniz, Fatma; Gao, James S.; Nunez-Elizalde, Anwar O.; Gallant, Jack L. (11 August 2021). "Visual and linguistic semantic representations are aligned at the border of human visual cortex". Nature Neuroscience. 24 (11): 1628–1636. doi:10.1038/s41593-021-00921-6. ISSN 1097-6256.
- ^ Steel, Adam; Billings, Madeleine M.; Silson, Edward H.; Robertson, Caroline E. (2021-05-11). "A network linking scene perception and spatial memory systems in posterior cerebral cortex". Nature Communications. 12 (1): 2632. doi:10.1038/s41467-021-22848-z. ISSN 2041-1723.
- ^ Cepelewicz, Jordana (2022-02-08). "New Map of Meaning in the Brain Changes Ideas About Memory". Quanta Magazine. Retrieved 2022-02-16.