벡터 공간 모형

Vector space model

벡터 공간 모델 또는 용어 벡터 모델은 텍스트 문서(및 일반적으로 개체)를 식별자(인덱스 용어 등)의 벡터로 표현하기 위한 대수 모델입니다.정보 필터링, 정보 검색, 색인화 및 관련성 순위에서 사용됩니다.첫 번째 용도는 SMART 정보 검색 시스템입니다.

정의들

문서 및 쿼리는 벡터로 표시됩니다.

차원은 개별 용어에 해당합니다.문서에서 용어가 발생할 경우 벡터 값은 0이 아닙니다.(항) 가중치라고도 하는 이러한 값을 계산하는 몇 가지 다른 방법이 개발되었다.가장 잘 알려진 방식 중 하나는 tf-idf 가중치입니다(다음 예 참조).

용어의 정의는 응용 프로그램에 따라 달라집니다.일반적으로 용어는 단일 단어, 키워드 또는 더 긴 구문입니다.단어를 용어로 선택한 경우, 벡터의 차원은 어휘 내의 단어 수(말뭉치에서 발생하는 구별되는 단어의 수)입니다.

벡터 연산을 사용하여 문서를 쿼리와 비교할 수 있습니다.

적용들

Vector space model.jpg

문서 벡터와 쿼리가 다른 문서를 나타내는 벡터와 동일한 치수의 벡터로 표현되는 원본 쿼리 벡터 간의 각도 편차를 비교함으로써 키워드 검색에서의 문서의 관련성 순위를 산출할 수 있다.

실제로는 각도 자체보다는 벡터 간 각도의 코사인 계산이 더 쉽습니다.

문서(그 그림에서 오른쪽으로 d2)어디 d2⋅ q{\displaystyle \mathbf{{2d_}}\cdot \mathbf{q}}의 교차점(정각 제품 즉)그리고 쿼리의(그 그림에서 q)벡터 벡터 d2 중, ‖ d2‖{\displaystyle\left\ \mathbf{{2d_}}\right\}은 표준이며 ‖q ‖{\displaystyle \lef.t\\ \ 벡터 q의 노름입니다벡터의 노름은 다음과 같이 계산됩니다.

코사인을 사용하여j 문서 d와 쿼리 q 사이의 유사도를 다음과 같이 계산할 수 있습니다.

이 모델에 의해 고려되고 있는 모든 벡터는 음이 아닌 요소이기 때문에 코사인 값이 0이면 쿼리와 문서 벡터가 직교하여 일치하지 않음을 의미한다(즉, 고려되고 있는 문서에는 쿼리어가 존재하지 않는다).자세한 내용은 코사인 유사성을 참조하십시오.

용어 주파수 역문서 주파수 가중치

Salton, Wong 및 Yang이 제안한 고전적인 벡터 공간 모델에서 문서 벡터의 용어별 가중치는 국소 및 전역 매개변수의 산물이다.이 모델은 용어 주파수 역문서 주파수 모델로 알려져 있습니다. d의 무게 벡터는 v [ , d , ,, ..., N, ] {{ { d= [ w { , } , _ { 2, } , , _ { N , d}^ 여기서

그리고.

  • ,d \ \{} , }는 문서 d(로컬파라미터)의 용어 t의 빈도입니다.
  • log " { t d{ frac { D} { \ { ' \ , , t \ d }}는 역문서 빈도(글로벌 파라미터)입니다. D 문서 세트 내의 총 문서 수입니다 \ { ' \ D , , t \ d 용어 t를 포함하는 문서 수입니다.

이점

벡터 공간 모델에는 표준 부울 모델에 비해 다음과 같은 이점이 있습니다.

  1. 선형 대수에 기초한 단순 모형
  2. 2진수가 아닌 용어 가중치
  3. 쿼리와 문서 간의 유사성을 지속적으로 계산할 수 있습니다.
  4. 문서에 관련성에 따라 순위를 매길 수 있습니다.
  5. 부분 일치를 허용합니다.

이러한 장점 대부분은 부울과 용어 빈도 역문서 주파수 접근법 사이의 문서 수집 표현 밀도 차이의 결과이다.Boolean 가중치를 사용하는 경우 모든 문서는 n차원 하이퍼큐브의 정점에 있습니다.따라서 가능한 문서 표현은 2이며 쌍 사이의 최대 유클리드 거리는 n입니다. 문서가 문서 모음에 추가됨에 따라 하이퍼큐브의 정점에 의해 정의된 영역은 더 채워지고 밀도가 높아집니다.부울과 달리 용어 빈도 역문서 빈도 가중치를 사용하여 문서가 추가되면 새 문서 내의 용어의 역문서 빈도는 감소하는 반면 나머지 용어의 역문서 빈도는 증가한다.평균적으로 문서가 추가됨에 따라 문서가 있는 영역이 확장되어 전체 컬렉션 표현의 밀도를 조절합니다.이 동작은 저밀도 영역에서 나타나는 문서 컬렉션이 더 나은 검색 결과를 얻을 수 있다는 Salton과 그의 동료들의 원래 동기를 모델링합니다.

제한 사항

벡터 공간 모델에는 다음과 같은 제한이 있습니다.

  1. 긴 문서는 유사도 값이 낮기 때문에 표시 빈도가 낮다(스칼라 제품이 작고 치수가 크다).
  2. 검색 키워드는 문서 용어와 정확하게 일치해야 합니다. 단어 하위 문자열에 "잘못된 긍정 일치"가 발생할 수 있습니다.
  3. 의미 민감도: 맥락은 비슷하지만 용어가 다른 문서는 연관되지 않으므로 "잘못된 부정 일치"가 발생합니다.
  4. 문서에서 용어가 나타나는 순서가 벡터 공간 표현에서 손실됩니다.
  5. 이론적으로 항이 통계적으로 독립적이라고 가정합니다.
  6. 가중치는 직관적이지만 매우 형식적이지는 않다.

그러나 이러한 어려움의 대부분은 단수값 분해와 같은 수학적 기법 및 WordNet과 같은 어휘 데이터베이스를 포함한 다양한 도구의 통합으로 극복할 수 있습니다.

벡터 공간 모델을 기반으로 확장되는 모델

벡터 공간 모델을 기반으로 확장되는 모델에는 다음이 포함됩니다.

벡터 공간 모델을 구현하는 소프트웨어

다음 소프트웨어 패키지는 벡터 모델을 사용하여 실험하고 이를 기반으로 검색 서비스를 구현하고자 하는 사람들에게 흥미로울 수 있습니다.

무료 오픈 소스 소프트웨어

추가 정보

「 」를 참조해 주세요.

레퍼런스

  1. ^ G. Salton, A. Wong , C. S. Yang, 자동 인덱싱을 위한 벡터 공간 모델, Communications of the ACM, v.18 n.11, 페이지 613–620, 1975년 11월