잠재의미분석

Latent semantic analysis

잠재의미분석(LSA)은 문서와 용어에 관련된 개념 집합을 만들어 문서 집합과 그들이 포함하는 용어 사이의 관계를 분석하는 자연어 처리, 특히 분포의 의미론 기술이다.LSA는 의미가 가까운 단어가 유사한 텍스트 조각(분포 가설)에서 발생한다고 가정합니다.문서당 단어 수를 포함하는 매트릭스(행은 고유한 단어를 나타내고 열은 각 문서를 나타냄)를 큰 텍스트 조각으로 구성하며, 단수값 분해(SVD)라고 하는 수학적 기법을 사용하여 열 간의 유사성 구조를 유지하면서 행 수를 줄인다.다음으로 문서는 임의의 2개의 열에 의해 형성된 2개의 벡터(또는 2개의 벡터의 정규화 사이의 점곱) 사이의 각도의 코사인 값을 취함으로써 비교된다.1에 가까운 값은 매우 유사한 문서를 나타내며, 0에 가까운 값은 매우 다른 [1]문서를 나타냅니다.

잠재의미 구조를 이용한 정보 검색 기술은 1988년 스콧 디어웨스터, 수잔 두미스, 조지 퍼나스, 리처드 하스먼, 토마스 랜다우어, 카렌 록바움 및 린 스트리터의해 특허(미국 특허 4,839,853건, 현재 만료됨)되었다.정보 검색에 대한 응용에서는 LSI([2]잠재적 의미 색인)라고 불리기도 합니다.

개요

문서-워드 매트릭스에서의 토픽 검출 프로세스의 애니메이션.모든 열은 문서에 대응하고 모든 행은 단어에 대응합니다.셀은 문서에 단어의 가중치를 저장하고(를 들어 tf-idf), 다크셀은 높은 가중치를 나타낸다.LSA는 유사한 단어를 포함하는 문서와 유사한 문서 집합에서 발생하는 단어를 모두 그룹화합니다.결과 패턴은 잠재 [3]컴포넌트를 검출하는 데 사용됩니다.

발생행렬

LSA는 문서의 용어 발생을 설명하는 문서 용어 행렬을 사용할 수 있습니다. 행이 용어에 대응하고 열이 문서에 대응하는 희소 행렬입니다.매트릭스 요소의 가중치의 전형적인 예는 tf-idf(항 빈도-역 문서 빈도)입니다.행렬 요소의 가중치는 각 문서에 나타나는 용어의 횟수에 비례하며, 여기서 희귀 용어는 상대적 중요성을 반영하기 위해 가중치 부여됩니다.

행렬의 수학적 특성이 항상 사용되는 것은 아니기 때문에 행렬로서 반드시 명시적으로 표현되는 것은 아니지만, 이 행렬은 표준 의미 모델에도 공통적이다.

등급 강등

발생행렬 구성 후 LSA는 용어 문서행렬에 대한 낮은 순위 근사치[4] 구한다.이러한 근사치에는 다양한 이유가 있을 수 있습니다.

  • 원래 용어-문서 행렬은 계산 리소스에 비해 너무 큰 것으로 추정됩니다.이 경우, 대략적인 하위 행렬은 근사치(최소한의 필요악)로 해석됩니다.
  • 원래의 용어-문서 행렬은 노이즈가 많은 것으로 추정됩니다. 예를 들어, 용어의 일화적인 예는 제거되어야 합니다.이러한 관점에서 근사 행렬은 비논리화 행렬(원래보다 더 나은 행렬)로 해석됩니다.
  • 원래 용어-문서 행렬은 "참" 용어-문서 행렬에 비해 지나치게 희박한 것으로 추정됩니다.즉, 원래 매트릭스는 각 문서에 실제로 있는 단어만 나열하지만, 각 문서와 관련된 모든 단어(일반적으로 동의어로 인해 훨씬 더 큰 집합)에 관심이 있을 수 있습니다.

순위 하락의 결과로 일부 차원이 결합되고 두 개 이상의 용어에 의존하게 된다.

{(car), (car), (flower)} --> {(1.3452 * car + 0.2828 * truck), (flower)}

이것은 유사한 의미를 가진 용어와 관련된 차원을 병합할 것으로 예상되기 때문에 동의어를 식별하는 문제를 완화한다.그것은 또한 "올바른" 방향을 가리키는 다의어의 구성 요소가 유사한 의미를 공유하는 단어의 구성 요소에 추가되기 때문에 다의어의 문제를 부분적으로 완화시킨다.반대로, 다른 방향을 가리키는 구성요소는 단순히 상쇄되거나, 최악의 경우 의도한 의미에 대응하는 방향의 구성요소보다 작은 경향이 있다.

파생

X X 행렬로 . 여기서 요소 , j를 들어 빈도)에서 idisplaystyle i 발생을 나타냅니다. X 다음과 같습니다.

이 행렬의 행은 항에 대응하는 벡터이며, 각 문서와의 관계를 나타냅니다.

마찬가지로, 이 행렬의 열은 문서에 대응하는 벡터이며, 각 용어에 대한 관계를 제공합니다.

dot { { { t _ { i}^{두 개의 용어 벡터 사이의 p}}}은 문서 집합에 대한 용어 간의 상관 관계를 제공합니다.매트릭스 XX에는 이러한 도트 제품이 모두 포함되어 있습니다.요소 ,) { , ) ( p ,) { ( p , i )p )} { 되어 있습니다. {\ ( t i{ =}}}}.로 행렬 X(\ X 모든 문서 벡터 간의 점곱을 포함하며, T {d}_}^{}^{}}^{라는 항에 대한 상관 관계를 제공합니다.

선형대수의 이론에 따르면 직교행렬이고,δ는 대각행렬이다이를 특이값 분해(SVD)라고 합니다.

항과 문서 상관관계를 제공하는 행렬 곱은 다음과 같습니다.

T\ \ { } { { T displaydisplay display display display display 、 \ ^ { Tdiagonal diagonal diagonal since diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonaldiagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal { { diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal { diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal diagonal V(\ V T(\ X의 고유벡터여야 합니다.두 제품 모두 0이 아닌 고유값이 0이 아닌 경우 T의 엔트리에 의해 부여되거나 0이 아닌 엔트리에 의해 부여됩니다.ecomposition은 다음과 같습니다.

, {\ __{ 단수값으로 , 1, l{\ },, 단수 벡터 및 왼쪽입니다.UU에서 {t}} 행에 기여하는 유일한 i\i{\ 입니다.이 행 벡터를 t^ i \ \\ {_ { }^ 라고 .{ 마찬가지로 V에서 하는 부분은j j{ j입니다이들은 고유 벡터는 아니지만 모든 고유 벡터에 의존합니다.

{\ U V{\ V에서 k k 최대 특이값과 대응하는 특이 벡터를 선택하면 가장 작은 오차프로베니우스)로 X {\ X 대한 순위 k {\displaystyle k 근사치를 얻을 수 있습니다.이 근사치에는 최소한의 오차가 있습니다.그러나 더 중요한 것은 용어 및 문서 벡터를 "의미적 공간"으로 취급할 수 있다는 것입니다.행 "항" t^ \ \ \ {_ { }^{ 다음 T는) k개의 \k 엔트리를 하여 저차원 공간 치수에 매핑합니다.이러한 새로운 차원은 이해할 수 있는 개념과는 관련이 없습니다.그것들은 고차원 공간의 저차원 근사치이다.마찬가지로 문서 d^ \ \ { _ { }는 이 저차원 공간의 근사치입니다.우리는 이 근사치를 다음과 같이 쓴다.

이제 다음을 수행할 수 있습니다.

  • k j\ _ { } \{{ { } k \ { k } { jq \ textbf qhathathat qhathat j q j j j{ style \ _ k \ { hat 。코사인 유사성).
  • k t^i\ \ _ { } \\{ { } k t p tp t t p t p t {\ t{\ t k \ { cd { }} } } {\ {\ {\ {\ {\ i {\ {\ {\ {\ {\{\ comparing p comparing p comparing comparing i i i 이제 열 벡터가 되었습니다.
  • 문서 및 용어 벡터 표현은 코사인(cosine)과 같은 유사성 측정을 사용하여 k-평균과 같은 기존 클러스터링 알고리즘을 사용하여 군집화할 수 있습니다.
  • 질의를 받으면 이 문서를 작은 문서로 보고 저차원 공간의 문서와 비교합니다.

후자를 수행하려면 먼저 쿼리를 저차원 공간으로 변환해야 합니다.그런 다음 문서에서 사용하는 것과 동일한 변환을 사용해야 합니다.

대각행렬 k _ 역행렬은 행렬 내에서 0이 아닌 각 값을 반전함으로써 구할 수 있습니다.

즉, 쿼리 q가 있는 경우 k- 1 }})= _를 변환한 후 문서 의 저차원 공간과 비교해야 합니다.유사 용어 벡터에 대해서도 동일한 작업을 수행할 수 있습니다.

적용들

새로운 저차원 공간은 일반적으로 다음과 같은 용도로 사용할 수 있습니다.

  • 저차원 공간(데이터 클러스터링, 문서 분류)의 문서를 비교합니다.
  • 번역된 문서의 기본 세트를 분석한 후 언어 간에 유사한 문서를 찾습니다(언어 간 정보 검색).
  • 용어(의어다의어) 사이의 관계를 찾습니다.
  • 용어 조회가 주어지면 저차원 공간으로 변환하여 일치하는 문서를 찾습니다(정보 검색).
  • 예를 들어, 객관식 질문 MCQ [5]답변 모델에서와 같이 의미론적인 방식으로 작은 용어 그룹 간의 최상의 유사성을 찾는다.
  • 머신러닝/텍스트 마이닝 시스템 기능 공간 확대
  • 텍스트 코퍼스의 단어 연관성 분석

동의어와 다의어는 자연어 처리의 근본적인 문제입니다.

  • 동의어는 다른 단어들이 같은 생각을 묘사하는 현상이다.따라서 검색 엔진의 쿼리는 쿼리에 나타난 단어를 포함하지 않는 관련 문서를 검색하지 못할 수 있습니다.예를 들어, "의사"를 검색하면 "의사"라는 단어가 포함된 문서가 반환되지 않을 수 있습니다. 단어의 의미가 동일하더라도 말입니다.
  • 다의어는 같은 단어가 여러 개의 의미를 갖는 현상이다.따라서 검색에서 잘못된 의미의 원하는 단어가 포함된 관련 없는 문서를 검색할 수 있습니다.예를 들어, "나무"라는 단어를 찾는 식물학자와 컴퓨터 과학자는 서로 다른 문서 집합을 원할 것입니다.

상용 어플리케이션

LSA는 [8]특허에 대한 선행 기술 검색을 지원하기 위해 사용되어 왔습니다.

인간의 기억 속에 있는 응용 프로그램

잠재 의미 분석의 사용은 인간의 기억 연구, 특히 자유로운 회상 및 기억 검색 분야에서 널리 사용되어 왔다.(LSA에 의해 측정된) 두 단어의 의미 유사성과 무작위 공통 명사의 연구 목록을 사용하여 자유 회수 작업에서 단어가 차례로 회수될 가능성 사이에는 양의 상관관계가 있다.그들은 또한 이러한 상황에서 유사한 단어 간의 상호응답 시간이 다른 단어 간의 상호응답 시간보다 훨씬 빨랐다고 언급했다.이러한 발견을 의미적 근접 [9]효과라고 한다.

참가자들이 공부한 항목을 떠올리는 실수를 했을 때, 이러한 실수는 더 의미적으로 원하는 항목과 관련이 있고 이전에 공부한 목록에서 발견된 항목인 경향이 있었다.이러한 우선 순위 침입은 이른바 현재 목록의 항목과 [10]리콜 경쟁을 벌이는 것으로 보인다.

WAS(Word Association Spaces)라는 또 다른 모델은 일련의 실험으로부터 자유로운 연관성 데이터를 수집함으로써 기억 연구에서도 사용되며, 여기에는 72,000개 이상의 다른 단어 [11]쌍에 대한 단어 관련성 측정이 포함됩니다.

실행

SVD는 일반적으로 대형 매트릭스 방법(예를 들어 Lanczos 방법)을 사용하여 계산되지만, 대규모 풀랭크 매트릭스를 [12]메모리에 보유할 필요가 없는 뉴럴 네트워크와 같은 접근방식을 통해 증분 계산될 수도 있습니다.고속 증분 저메모리 대용량 매트릭스 SVD 알고리즘이 최근 [13]개발되었습니다.이러한 고속 알고리즘의 MATLAB Python 구현이 가능합니다.Gorrell과 Webb의 확률적 근사(2005)와는 달리 Brand의 알고리즘(2003)은 정확한 해답을 제공한다.최근 몇 년 동안 SVD의 계산 복잡성을 줄이기 위한 진보가 이루어졌습니다. 예를 들어 병렬 고유값 분해를 수행하기 위해 병렬 ARPACK 알고리즘을 사용함으로써 유사한 예측 품질을 [14]제공하면서 SVD 계산 비용을 가속화할 수 있습니다.

제한 사항

LSA의 결점에는 다음과 같은 것이 있습니다.

  • 결과 치수는 해석하기 어려울 수 있습니다.예를 들어,
{(car), (car), (flower)} { {(1.3452 * car + 0.2828 * truck), (flower)}
(1.3452 * 차량 + 0.2828 * 트럭) 구성 요소는 "차량"으로 해석할 수 있습니다.다만, 케이스가 다음과 같은 경우가 발생할 가능성이 매우 높습니다.
{(car), (car), (flower)} { {(1.3452 * car + 0.2828 * bottle), (flower)}
발생합니다.이것은 수학적인 차원에서 정당화될 수 있는 결과로 이어지지만, 자연어에서는 즉각적으로 명확한 의미를 갖지 않습니다.그러나 (1.3452 * 자동차 + 0.2828 * 병) 구성요소는 병과 자동차 모두 투명하고 불투명한 부품을 가지고 있고, 사람이 만든 것이며, 표면에 로고/문구를 포함할 가능성이 높기 때문에 정당화될 수 있다. 따라서 이 두 가지 개념은 여러 가지 면에서 "의미를 공유한다"고 할 수 있다.즉, 해당 언어 내에서 쉽게 할당할 수 있는 단어가 없을 수 있으며, 설명 가능성은 단순한 단어/클래스/개념 할당 태스크가 아닌 분석 태스크가 된다.
  • LSA는 단어의 각 발생이 공간의 단일점으로 표현되기 때문에 동일한 의미를 갖는 것으로 취급되기 때문에 다의어(즉, 단어의 여러 의미)를 부분적으로만 포착할 수 있다.예를 들어, "의장"을 포함하는 문서와 "의장 제조자"를 포함하는 별도의 문서에서 "의장"의 발생은 동일하게 간주된다.그 행동은 벡터 표현이 말뭉치에 있는 모든 단어의 다른 의미들의 평균이 되는 결과를 초래하고,[15] 이것은 비교를 어렵게 만들 수 있다.그러나 말뭉치 전체에 걸쳐 지배적인 의미를 갖는 단어 때문에 종종 효과가 감소한다(즉, 모든 의미가 동등하게 있을 것 같지는 않다).
  • BOW(Back of Words Model)의 제한. 여기서 텍스트는 정렬되지 않은 단어 모음으로 표시됩니다.단어 가방 모델(BOW)의 한계를 해결하기 위해 다중그램 사전을 사용하여 [16]용어 간의 고차 공존뿐만 아니라 직접 및 간접 연관성을 찾을 수 있습니다.
  • LSA의 확률론적 모델은 관측된 데이터와 일치하지 않는다. LSA는 단어와 문서가 공동 가우스 모델(작동 가설)을 형성한다고 가정하는 반면, 포아송 분포는 관측되었다.따라서, 새로운 대안은 다항식 모델에 기초한 확률론적 잠재 의미 분석이며, 이는 표준 [17]LSA보다 더 나은 결과를 제공하는 것으로 보고된다.

대체 방법

시멘틱 해시

시맨틱 해싱에서 문서는 의미적으로 유사한 문서가 가까운 주소에 위치하도록 뉴럴 네트워크를 통해 메모리 주소에 매핑된다.심층 신경 네트워크는 기본적으로 큰 문서 집합에서 얻은 단어 수 벡터의 그래픽 모델을 구축한다.쿼리 문서와 유사한 문서는 쿼리 문서 주소와 몇 비트만 다른 모든 주소에 액세스하는 것만으로 찾을 수 있다.이와 같이 해시 코딩의 효율성을 대략적인 일치로 확장하는 방법은 현재 가장 빠른 방식인 [clarification needed]로컬에 민감한 해시보다 훨씬 빠릅니다.

잠재적인 의미 색인화

잠재의미색인(LSI)은 문자의 비구조화 컬렉션에 포함된 용어와 개념 사이의 관계에서 패턴을 식별하기 위해 특이값 분해(SVD)라고 하는 수학적 기법을 사용하는 색인화 및 검색 방법입니다.LSI는 같은 맥락에서 사용되는 단어가 유사한 의미를 갖는 경향이 있다는 원리에 기초하고 있습니다.LSI의 주요 특징은 유사[19]컨텍스트에서 발생하는 용어 간의 연관성을 확립함으로써 텍스트 본문의 개념적인 내용을 추출할 수 있다는 것입니다.

LSI는 1970년대 초 Jean-Paul Benzécri[20] 의해 개발된 다변량 통계 기법인 대응 분석을 문서의 단어 수에서 작성한 분할표에 적용하는 것이기도 하다.

텍스트 모음에 잠재되어 있는 의미론적으로 관련된 용어를 상호 연관시키는 기능 때문에 "잠재적 의미 색인"이라고 불리는 이 용어는 1980년대 후반 벨코어의 텍스트에 처음 적용되었습니다.잠재의미분석(LSA)이라고도 불리는 이 방법은 텍스트 본문 내의 단어 사용에 내재된 잠재의미구조와 일반적으로 개념검색이라고 불리는 사용자 쿼리에 대한 응답으로 텍스트의 의미를 추출하는 데 어떻게 사용될 수 있는지를 밝혀낸다.LSI를 거친 문서 집합에 대한 쿼리 또는 개념 검색은 검색 조건이 특정 단어 또는 단어를 공유하지 않더라도 검색 기준과 개념적으로 의미가 유사한 결과를 반환합니다.

LSI의 이점

LSI는 Boolean 키워드 쿼리와 [15]벡터 공간 모델의 가장 문제가 많은 제약 조건 중 하나인 리콜을 증가시킴으로써 동의어를 극복하는 데 도움이 됩니다.동의어는 문서 작성자와 정보 검색 시스템 [21]사용자에 의해 사용되는 어휘 불일치의 원인이 되는 경우가 많습니다.그 결과 부울 쿼리 또는 키워드 쿼리에서 관련 없는 결과가 반환되고 관련 정보가 누락되는 경우가 많습니다.

LSI는 자동 문서 분류 수행에도 사용됩니다.실제로 여러 실험에서 LSI와 사람 [22]사이에 텍스트를 처리하고 분류하는 방법에는 많은 상관관계가 있는 것으로 나타났습니다.문서 분류는 카테고리의 [23]개념 내용과의 유사성에 따라 하나 이상의 미리 정의된 카테고리에 문서를 할당하는 것입니다.LSI는 예제 문서를 사용하여 각 카테고리의 개념적 기초를 확립합니다.분류 처리 중에 분류 중인 문서에 포함된 개념을 예제 항목에 포함된 개념과 비교하고, 여기에 포함된 개념과 예제 문서에 포함된 개념 간의 유사성에 따라 문서에 범주(또는 하나 이상의 범주)를 할당합니다.

LSI를 사용하여 문서의 개념적인 내용을 기반으로 한 동적 클러스터링을 수행할 수도 있습니다.클러스터링은 예시 문서를 사용하여 각 클러스터의 개념적 기초를 확립하지 않고 서로 개념적 유사성에 따라 문서를 그룹화하는 방법입니다.이것은 구조화되지 않은 텍스트의 알 수 없는 집합을 처리할 때 매우 유용합니다.

LSI는 엄밀하게 수학적 접근법을 사용하기 때문에 본질적으로 언어와 독립적입니다.이를 통해 LSI는 사전이나 시사우리 등의 보조 구조를 사용하지 않고도 모든 언어로 작성된 정보의 의미적 내용을 도출할 수 있습니다.LSI는 언어 간 개념 검색 및 예제 기반 분류도 수행할 수 있습니다.예를 들어 영어 등 하나의 언어로 쿼리를 작성할 수 있으며 완전히 다른 언어 또는 여러 [citation needed]언어로 구성된 경우에도 개념적으로 유사한 결과가 반환됩니다.

LSI는 워드로만 동작할 수 있습니다.임의의 문자열을 처리할 수도 있습니다.텍스트로 표현할 수 있는 오브젝트는 LSI 벡터 공간에 표시할 수 있습니다.예를 들어, MEDLINE 추상화를 사용한 테스트에서는 LSI가 MEDLINE [24]인용문의 제목과 요약에 포함된 생물학적 정보의 개념적 모델링에 기반하여 효과적으로 유전자를 분류할 수 있는 것으로 나타났습니다.

LSI는 새로운 용어와 변화하는 용어에 자동으로 적응하여 노이즈(철자 오류, 철자 오류, 읽을 수 없는 문자 등)에 매우 강한 것으로 나타났습니다.[25]이것은, 광학 문자 인식(OCR)과 음성 문자 변환으로부터 파생된 텍스트를 사용하는 애플리케이션에 있어서 특히 중요합니다.LSI는 또한 희박하고 모호하며 모순되는 데이터를 효과적으로 처리합니다.

LSI를 유효하게 하기 위해서, 텍스트가 문장 형식일 필요는 없습니다.목록, 자유 양식 노트, 이메일, 웹 기반 콘텐츠 등과 함께 사용할 수 있습니다.텍스트 모음에 여러 용어가 포함되어 있는 경우 LSI를 사용하여 텍스트에 포함된 중요한 용어와 개념 간의 관계 패턴을 식별할 수 있습니다.

LSI는 다수의 개념적 일치 [26][27]문제에 대한 유용한 솔루션임이 입증되었습니다.이 기술은 인과 관계, 목표 지향 및 분류학적 정보를 포함한 핵심 [28]관계 정보를 포착하는 것으로 나타났다.

LSI 타임라인

  • 1960년대 중반 – 요인 분석 기술이 최초로 설명 및 테스트되었습니다(H. Borko 및 M).버닉)
  • 1988년 – LSI 기술에 관한 정석 논문 발표
  • 1989년 – 최초 특허 부여
  • 1992년 – LSI를 사용하여 리뷰어에게 기사를[29] 할당
  • 1994년 – LSI의 다국어 출원에 대한 특허 부여(Landauer 등)
  • 1995 – 에세이 채점에 LSI를 처음 사용(Foltz, et al., Landauer et al.)
  • 1999 – 비구조화 텍스트(SAIC) 분석을 위한 인텔리전스 커뮤니티용 LSI 테크놀로지 최초 구현
  • 2002년 – LSI 기반 제품을 인텔리전스 기반 정부기관(SAIC)에 제공

LSI 수학

LSI는 공통 선형 대수 기법을 사용하여 텍스트 집합의 개념적 상관 관계를 학습합니다.일반적으로 이 과정은 가중치 용어-문서 행렬의 구성, 행렬에 대한 특이값 분해 수행 및 텍스트에 포함된 개념을 식별하기 위해 행렬을 사용하는 것을 포함한다.

용어-문서 행렬

LSI는 먼저 용어 문서 A 구축하여n개의 집합 내에서 용어가 발생하는지 확인합니다.용어 문서 매트릭스에서 각 용어는 행으로 표현되며 각 문서는 열로 표현되며, 각 매트릭스 j {\입니다.처음에는 관련 용어가 지정된 문서 j { {에 나타나는 횟수를 나타냅니다.이 매트릭스는 usuuu입니다.매우 크고 매우 희박합니다.

용어 문서 행렬이 구성되면 로컬 및 전역 가중치 함수를 적용하여 데이터를 조정할 수 있습니다.가중치 함수는 각 셀 A 을 로컬 용어 가중치, 문서 용어의 상대 빈도를 나타내는 및 글로벌 가중치 의 곱으로 변환합니다.전체 문서 모음 내 용어의 활성 빈도.

몇 가지 일반적인 로컬 가중치[30] 함수는 다음 표에 정의되어 있습니다.

바이너리 i { _ { } 그렇지 0 { 0
용어 빈도 j i { l { } = \ { { }, j { \ i }의 i의 발생 횟수
로그.
오거노름

몇 가지 일반적인 전역 가중치 함수는 다음 표에 정의되어 있습니다.

바이너리
보통의
GfIdf i f / i { \ g { \ } _ { } 。서 g f { \ { } _ { i}는 전체 컬렉션에서 발생하는 총 i { \i입니다.ch i i)가 발생합니다
Idf(역방향 문서 빈도)
엔트로피 i + log i n{ g{ i } =+ \ _ { } { \ { } { \ n g { } tf { tf rm tf { f

LSI를 사용한 경험적 연구에 따르면 로그 및 엔트로피 가중치 함수는 실제로 많은 데이터 [31]세트에서 잘 작동한다고 합니다. 다음과 같이 계산됩니다.

순위 감소 특이값 분해

텍스트에 포함된 용어와 개념 사이의 관계 패턴을 결정하기 위해 매트릭스에서 순위 감소된 특이값 분해를 실시한다.SVD는 [32]LSI의 기반이 됩니다.단일 항 빈도 행렬 A를 m by r 용어 개념 벡터 T(\ T r r 특이값 S Sn by r 개념 문서 벡터 행렬 )의 세 가지 다른 행렬로 근사하여 항 및 문서 벡터 공간을 계산합니다. D 다음 관계를 충족합니다.

식 중 A는 텍스트 집합에서 공급되는 m×n 가중치 매트릭스이며, 여기서 m은 고유 용어 수이고, n은 문서 수이다.T는 항 벡터의 m x r 행렬이며, 여기서 r은 A의 등급(독특한 치수 θ min(m,n)의 척도)이다.S는 단수값 감소의 r×r 대각행렬이며, D는 문서 벡터의 n×r 행렬이다.

그런 다음 SVD는 단수값 행렬 S에서 가장 큰 k µ r 대각선 항목만 유지함으로써 순위를 낮추기 위해 잘린다. 여기서 k는 일반적으로 100에서 300의 차원에 있다.이를 통해 항과 문서 벡터 행렬 크기가 각각 m x k n x k효과적으로 감소합니다.이러한 감소와 함께 SVD 연산은 A의 원래 공간의 소음 및 기타 바람직하지 않은 아티팩트를 줄이면서 텍스트에서 가장 중요한 의미 정보를 보존하는 효과가 있다.이 축소 행렬 집합은 종종 다음과 같은 수정된 공식으로 표시됩니다.

A ak A = Tk SkkT D

효율적인 LSI 알고리즘에서는 첫 번째 k개의 특이값과 용어 및 문서 벡터만 계산하고 전체 SVD를 계산한 후 잘라내는 것이 아닙니다.

이 순위 감소는 기본적으로 행렬 A에서 주성분 분석(PCA)을 수행하는 것과 동일하지만 PCA가 평균을 차감한다는 점에 유의하십시오.PCA는 A행렬의 희소성을 잃기 때문에 큰 사전에서는 실행할 수 없습니다.

LSI 벡터 공간 쿼리 및 증강

계산k T행렬k D행렬은 용어 및 문서 벡터 공간을 정의하며, 계산된 단수값k S는 문서 집합에서 파생된 개념 정보를 구체화한다.이러한 공간 내에서 용어 또는 문서의 유사성은 이러한 공간에서 서로 얼마나 가까운지를 나타내는 요소이며, 일반적으로 대응하는 벡터 사이의 각도의 함수로 계산됩니다.

동일한 단계를 사용하여 기존 LSI 인덱스의 문서 공간 내에서 쿼리 및 새 문서의 텍스트를 나타내는 벡터를 찾습니다.A = T ST D 방정식을 등가 D = TT−1 S 방정식으로 간단하게 변환함으로써 A에서 새로운 열을 계산한 후 새로운 −1 T S를 곱함으로써 쿼리 또는 새로운 문서에 대한 새로운 벡터 d를 생성할 수 있다.A의 새 열은 원래 도출된 전역 용어 가중치를 사용하여 계산되며 쿼리 또는 새 문서의 용어에 동일한 국소 가중치 함수를 적용한다.

이와 같이 벡터를 계산하는 데 있어서 새로운 검색 가능 문서를 추가할 때, 원래 인덱스에 대한 SVD 단계 동안 알려지지 않았던 용어가 무시된다는 단점이 있다.이러한 용어는 원래 텍스트 집합에서 파생된 전체 가중치 및 학습 상관관계에 영향을 미치지 않는다.그러나 새 텍스트에 대해 계산된 벡터는 다른 모든 문서 벡터와의 유사성 비교에 여전히 매우 관련이 있다.

이와 같이 LSI 인덱스의 문서 벡터 공간을 새로운 문서로 확대하는 프로세스를 폴딩 인이라고 합니다.폴딩인 프로세스는 새로운 텍스트의 새로운 의미 내용을 설명하지는 않지만, 이러한 방식으로 문서를 많이 추가해도 추가되는 용어와 개념이 LSI 인덱스 내에 잘 표현되어 있는 한 쿼리에 대한 좋은 결과를 제공할 수 있습니다.새로운 문서 세트의 용어와 개념을 LSI 인덱스에 포함할 필요가 있는 경우 용어 문서 매트릭스와 SVD를 재계산하거나 증분 업데이트 방법(예: )이 필요합니다.

LSI 추가 사용

일반적으로 의미 기반에서 텍스트로 작업할 수 있는 능력은 현대 정보 검색 시스템에 필수적이라는 것이 인정된다.그 결과, 확장성과 퍼포먼스에 관한 이전의 과제를 극복하면서 LSI의 사용이 최근 몇 년 사이 크게 확대되고 있습니다.

LSI는 개념 검색 및 자동 문서 [33]분류에 주로 사용되었지만, 다양한 정보 검색 및 텍스트 처리 애플리케이션에 사용되고 있습니다.LSI를 사용하는 다른 방법은 다음과 같습니다.

  • 정보검출[34](eDiscovery, 정부/인텔리전스 커뮤니티, 출판)
  • 문서분류자동화(eDiscovery, 정부/인텔리전스 커뮤니티, 출판)[35]
  • 텍스트 요약[36](eDiscovery, 출판)
  • 관계[37] 발견(정부기관, 인텔리전스 커뮤니티, 소셜 네트워킹)
  • 개인 및 조직의[38] 링크 차트 자동 생성(정부, 인텔리전스 커뮤니티)
  • 검토자와의[39] 기술서류 및 보조금 매칭(정부)
  • 온라인 고객[40] 지원(고객 관리)
  • 문서[41] 작성자 확인(교육)
  • 영상의 자동[42] 키워드 주석
  • 소프트웨어 소스[43] 코드의 이해(소프트웨어 엔지니어링)
  • 스팸[44] 필터링(시스템 관리)
  • 정보 시각화[45]
  • 에세이[46] 채점(교육)
  • 문헌 기반의 검출[47]
  • 주식수익률예측[6]
  • 드림 콘텐츠 분석(심리학)

LSI는 전자 문서 검색(eDiscovery)에 점점 더 많이 사용되어 기업이 소송에 대비할 수 있도록 지원하고 있습니다.eDiscovery에서는 개념적으로 대량의 비정형 텍스트 컬렉션을 클러스터링, 분류 및 검색할 수 있는 기능이 필수적입니다.LSI를 사용한 개념 기반 검색은 2003년 [48]초에 주요 공급자에 의해 eDiscovery 프로세스에 적용되었습니다.

LSI의 과제

LSI의 초기 과제는 확장성과 성능에 초점을 맞췄습니다.LSI는 다른 정보 검색 [49]기술에 비해 상대적으로 높은 계산 성능과 메모리를 필요로 합니다.그러나 최신 고속 프로세서의 구현과 저렴한 메모리의 가용성으로 이러한 고려사항은 대부분 극복되었습니다.매트릭스와 SVD 연산을 통해 완전히 처리된 3000만 개 이상의 문서가 포함된 실제 애플리케이션은 일부 LSI 애플리케이션에서 일반적입니다.오픈 소스 gensim 소프트웨어 [50]패키지에는 LSI의 완전 확장 가능(문서 수 무제한, 온라인 트레이닝) 구현이 포함되어 있습니다.

LSI의 또 다른 과제는 SVD 실행에 사용할 최적의 치수 수를 결정하는 데 어려움이 있다는 것입니다.일반적으로 차원이 작을수록 텍스트 모음에 포함된 개념을 더 폭넓게 비교할 수 있고, 차원이 높을수록 개념의 더 구체적이거나 더 적절한 비교를 할 수 있다.사용할 수 있는 실제 차원 수는 컬렉션의 문서 수에 따라 제한됩니다.연구에 따르면 보통 중간 크기의 문서 모음(수십만 개의 문서 모음)에서 약 300개의 차원이 최상의 결과를 제공하며, 더 큰 문서 모음(수백만 개의 [51]문서 모음)에서는 약 400개의 차원이 최상의 결과를 제공합니다.그러나 최근 연구에 따르면 문서 [52]수집의 크기와 특성에 따라 50-1000 치수가 적합하다고 합니다.최적의 차원성을 결정하기 위해 PCA 또는 인자 분석과 유사하게 유지된 분산의 비율을 확인하는 것은 LSI에 적합하지 않습니다.동의어 검정 또는 누락된 단어의 예측은 올바른 차원을 [53]찾기 위한 두 가지 방법 중 하나입니다.LSI 토픽을 지도 학습 방법의 기능으로 사용하면 예측 오차 측정을 사용하여 이상적인 차원을 찾을 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.
  2. ^ "The Latent Semantic Indexing home page".
  3. ^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  4. ^ Markovsky I. (2012) 하위 순위 근사치:알고리즘, 구현, 어플리케이션, Springer, 2012, ISBN 978-1-4471-2226-5[page needed]
  5. ^ Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "Effect of tuned parameters on an LSA multiple choice questions answering model" (PDF). Behavior Research Methods. 41 (4): 1201–1209. arXiv:0811.0146. doi:10.3758/BRM.41.4.1201. PMID 19897829. S2CID 480826.
  6. ^ a b Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  7. ^ a b Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178–187. arXiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.
  8. ^ Gerry J. Elman (October 2007). "Automated Patent Examination Support - A proposal". Biotechnology Law Report. 26 (5): 435–436. doi:10.1089/blr.2007.9896.
  9. ^ Marc W. Howard; Michael J. Kahana (1999). "Contextual Variability and Serial Position Effects in Free Recall" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  10. ^ Franklin M. Zaromb; et al. (2006). Temporal Associations and Prior-List Intrusions in Free Recall (PDF). Interspeech'2005.
  11. ^ Nelson, Douglas. "The University of South Florida Word Association, Rhyme and Word Fragment Norms". Retrieved May 8, 2011.
  12. ^ Geneviève Gorrell; Brandyn Webb (2005). "Generalized Hebbian Algorithm for Latent Semantic Analysis" (PDF). Interspeech'2005. Archived from the original (PDF) on 2008-12-21.
  13. ^ a b Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition" (PDF). Linear Algebra and Its Applications. 415: 20–30. doi:10.1016/j.laa.2005.07.021.
  14. ^ Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK. Proceedings of 2011 International Conference on Computer Science and Network Technology. pp. 739–741. doi:10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID 15281129.
  15. ^ a b Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexing by latent semantic analysis". Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.108.8490. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
  16. ^ Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27 November 2014). "Empirical study using network of semantically related associations in bridging the knowledge gap". Journal of Translational Medicine. 12 (1): 324. doi:10.1186/s12967-014-0324-9. PMC 4252998. PMID 25428570.
  17. ^ Thomas Hofmann (1999). "Probabilistic Latent Semantic Analysis". Uncertainty in Artificial Intelligence. arXiv:1301.6705.
  18. ^ 살라후트디노프, 루슬란, 제프리 힌튼입니다"Semantic Hashing." RBM 500.3 (2007) : 500.
  19. ^ a b c Derewester, S., et al., 잠재 의미 인덱싱을 통한 정보 검색 개선, 미국 정보 과학 협회 제51회 연차 회의 진행, 1988, 페이지 36-40.
  20. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondences. Paris, France: Dunod.
  21. ^ Furnas, G. W.; Landauer, T. K.; Gomez, L. M.; Dumais, S. T. (1987). "The vocabulary problem in human-system communication". Communications of the ACM. 30 (11): 964–971. CiteSeerX 10.1.1.118.4768. doi:10.1145/32206.32212. S2CID 3002280.
  22. ^ Landauer, T., et al., 특이값 분해에 의한 인간 유사지식 학습: A Progress Report, M. I. J. J. Kearns & S. Solla(Eds.), 신경정보처리시스템 발전, 캠브리지– MIT, 1998년 페이지 45.
  23. ^ Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Inductive learning algorithms and representations for text categorization" (PDF). Proceedings of the seventh international conference on Information and knowledge management - CIKM '98. pp. 148. CiteSeerX 10.1.1.80.8909. doi:10.1145/288627.288651. ISBN 978-1581130614. S2CID 617436.
  24. ^ Homayouni, R.; Heinrich, K.; Wei, L.; Berry, M. W. (2004). "Gene clustering by Latent Semantic Indexing of MEDLINE abstracts". Bioinformatics. 21 (1): 104–115. doi:10.1093/bioinformatics/bth464. PMID 15308538.
  25. ^ Price, R. J.; Zukas, A. E. (2005). "Application of Latent Semantic Indexing to Processing of Noisy Text". Intelligence and Security Informatics. Lecture Notes in Computer Science. Vol. 3495. p. 602. doi:10.1007/11427995_68. ISBN 978-3-540-25999-2.
  26. ^ Ding, C., 잠복적 의미 인덱싱을 위한 유사성 기반 확률 모델, 제22회 정보 검색 연구 개발 국제 ACM SIGIR 회의의 진행, 1999, 페이지 59-65.
  27. ^ Bartell, B., Cotrell, G. 및 Belew, R., 잠재 의미 인덱싱은 다차원[dead link] 스케일링, 프로시딩, ACM SIGIR Conference on R&D in Information Retrieval, 1992, 페이지 161~167의 최적의 특수 케이스이다.
  28. ^ Graesser, A.; Karnavat, A. (2000). "Latent Semantic Analysis Captures Causal, Goal-oriented, and Taxonomic Structures". Proceedings of CogSci 2000: 184–189. CiteSeerX 10.1.1.23.5444.
  29. ^ Dumais, S.; Nielsen, J. (1992). Automating the Assignment of Submitted Manuscripts to Reviewers. Proceedings of the Fifteenth Annual International Conference on Research and Development in Information Retrieval. pp. 233–244. CiteSeerX 10.1.1.16.9793. doi:10.1145/133160.133205. ISBN 978-0897915236. S2CID 15038631.
  30. ^ Berry, M. W. 및 Browne, M., Browne, 검색 엔진에 대하여:수학 모델링 및 텍스트 검색, 산업 및 응용 수학 협회, 필라델피아(2005).
  31. ^ Landauer, T. 등, Lawrence Erlbaum Associates, 2007.
  32. ^ Berry, Michael W., Dumais, Susan T, O'Brien, Gavin W., Using Linear Algebra for Intelligent Information Retrieval, 1994년 12월, SIAM Review 37:4(1995), 페이지 573-595.
  33. ^ Dumais, S., 잠재의미분석, ARIST Review of Information Science and Technology, vol. 38, 2004, 4장.
  34. ^ E-Discovery에서의 검색 및 정보 검색 방법의 사용에 관한 베스트 프랙티스 코멘트, Sedona Conference, 2007, 페이지 189–223.
  35. ^ Poltz, P. W. and Dumais, S. T. Personalized Information Delivery: 정보 필터링 방법 분석, Communications of the ACM, 1992, 34(12), 51-60.
  36. ^ Gong, Y. 및 Liu, X., Creating Generic Text Summary, Proceedings, 제6회 문서 분석 및 인식 국제회의, 2001, 페이지 903–907.
  37. ^ Bradford, R., 대형 텍스트 데이터베이스에서 새로운 정보의 효율적인 발견, 프로시딩, IEEE 정보 및 보안 정보에 관한 국제 회의, 애틀랜타, 조지아, LNCS Vol. 3495, Springer, 2005, 페이지 374-380.
  38. ^ Bradford, R. B. (2006). "Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks". Intelligence and Security Informatics. Lecture Notes in Computer Science. Vol. 3975. pp. 674–675. doi:10.1007/11760146_84. ISBN 978-3-540-34478-0.
  39. ^ D. 야로스키와 R. 플로리안, 회의장에서의 부담 경감: 디지털 페이퍼 라우팅 어시스턴트에 대하여, 1999년 NLP 및 초대형 코퍼레이션에서의 경험적 방법에 관한 SIGDAT 공동 회의의 진행, 1999, 페이지 220-230.
  40. ^ Caron, J. 온라인 고객 지원에 LSA 적용: 시험 연구, 미발표 석사 논문, 2000년 5월
  41. ^ Soboroff, I. 등, N-grams잠재 의미 인덱싱을 이용한 시각화 문서 작성자, 정보 시각화 및 조작의 새로운 패러다임에 관한 워크숍, 1997, 페이지 43-48.
  42. ^ Monay, F. 및 Gatica-Perez, D., 잠복 공간 모델을 사용한 이미지 자동 주석, 제11회 멀티미디어 국제회의의 속행, 2003, 페이지 275~278.
  43. ^ Maletic, J.; Marcus, A. (November 13–15, 2000). Using Latent Semantic Analysis to Identify Similarities in Source Code to Support Program Understanding. Proceedings of 12th IEEE International Conference on Tools with Artificial Intelligence. Vancouver, British Columbia. pp. 46–53. CiteSeerX 10.1.1.36.6652. doi:10.1109/TAI.2000.889845. ISBN 978-0-7695-0909-9. S2CID 10354564.
  44. ^ Gee, K., 스팸을 필터링하기 위한 잠재의식 인덱싱을 사용하여: Proceedings, 2003 Applied Computing on Applied Computing, 플로리다 멜버른, ACM Semposium, 페이지 460-464.
  45. ^ Landauer, T., Laham, D. 및 Derr, Merr, 문단에서 그래프까지: 정보 시각화를 위한 잠재 의미 분석, 국립과학원회보, 101, 2004, 페이지 5214–5219.
  46. ^ Foltz, Peter W., Laham, Darrell 및 Landauer, Thomas K., Automated Essay Scoring: Applications to Educational Technology, Proceedings of EdMedia, 1999.
  47. ^ Gordon, M. 및 Dumais, Using Semantic Indexing for Literature Based Discovery, 미국정보과학회 저널, 49(8), 1998, 페이지 674–685.
  48. ^ The Better Way to Search, 2008, White Paper, Fios, Inc.의 검색 방법이 있어야 합니다.
  49. ^ Karypis, G., Han, E., 문서 분류검색, CIKM-00의 진행, 제9회 ACM 정보 및 지식 관리에 관한 회의 응용 프로그램에 의한 고속 관리 차원 축소 알고리즘.
  50. ^ Radim Řehůřek (2011). "Subspace Tracking for Latent Semantic Analysis". Advances in Information Retrieval. Advances in Information Retrieval - 33rd European Conference on IR Research, ECIR 2011. Lecture Notes in Computer Science. Vol. 6611. pp. 289–300. doi:10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8.
  51. ^ Bradford, R., 대규모 잠재의미적 색인 적용을 위한 필수 차원의 경험적 연구, 제17회 정보 및 지식 관리에 관한 ACM 회의의 진행, 캘리포니아, Napa Valley, 2008, 페이지 153–162.
  52. ^ Landauer, Thomas K. 및 Dumais, Susan T., 잠재의미분석, Scholarpedia, 3(11):4356, 2008.
  53. ^ 란다우어, T. K., 폴츠, P. W. 및 라함, D.(1998).잠재 의미 분석 입문담화 프로세스, 25, 259-284

추가 정보

외부 링크

LSA에 관한 기사

  • LSA의 창시자 중 한 명인 Tom Landauer가 쓴 LSA에 관한 학술 논문인 잠재 의미 분석.

강연 및 데모

실장

LSA는 정보 검색, 자연 언어 처리(NLP), 인지 과학 및 계산 언어학 분야에서의 교차 도메인 애플리케이션으로 인해 다양한 종류의 애플리케이션을 지원하도록 구현되어 있습니다.

  • Sense Clusters(LSA의 정보 검색 지향 perl 구현)
  • S-Space 패키지, LSA의 컴퓨터 언어학 및 인지 과학 지향 Java 구현
  • 의미 벡터는 Lucene 용어 문서 행렬에 랜덤 투영, LSA 및 반사 랜덤 인덱싱을 적용합니다.
  • Infomap Project, LSA의 NLP 지향 C 구현(시맨틱 벡터프로젝트로 대체)
  • Text to Matrix Generator, LSA를 지원하는 텍스트 컬렉션에서 용어 문서 행렬을 생성하기 위한 MATLAB 도구 상자
  • Gensim에는 RAM보다 큰 매트릭스에 대한 Python LSA 구현이 포함되어 있습니다.