용어 식별

Term discrimination

용어 식별은 키워드가 정보 검색에 얼마나 유용한지 순위를 매기는 방법입니다.

개요

이는 tf-idf와 유사한 방법이지만 정보 검색에 적합한 키워드와 그렇지 않은 키워드를 찾는 방법을 다루고 있습니다.먼저 벡터 공간 모델을 참조하십시오.

방법에서는 발생 행렬의 밀도가 낮을수록 정보 검색 쿼리가 향상된다는 벡터 공간 밀도 개념을 사용합니다.

최적 색인 용어는 서로 다른 두 문서를 구별하고 두 개의 유사한 문서를 관련시킬 수 있는 용어입니다.한편, 차선의 지수항은 두 개의 다른 문서와 두 개의 유사한 문서를 구별할 수 없다.

식별 값은 지수 항의 밀도가 없는 동일한 행렬의 벡터 공간 밀도 대 발생 행렬의 벡터 공간 밀도의 차이입니다.

 A  })로 하고  Q A A의 밀도로 합니다.그 다음:색인 k { k 식별값은 과 같습니다. D  k  () -Q ( ) {  DV _ { k }  ( ) - ( A _ { }

계산방법

발생 매트릭스: A) 및 키워드:k(\ k가 지정됩니다.

  • 글로벌 문서 중심 찾기: C \ ( the vector vector))))))) )
  • 모든 문서 벡터 })에서 C C까지의 평균 유클리드 거리를 구합니다.
  • 모든 문서 벡터 })에서 C C K K까지의 평균 유클리드 거리를 구합니다.
  • 위의 스텝에서 두 값의 차이는

키워드를 포함하면 정보 검색이 향상되므로 값이 클수록 좋습니다.

정성적 관찰

희박한 키워드는 기억력이 떨어지기 때문에 식별력이 떨어져야 하며, 자주 사용되는 키워드는 정밀도가 떨어지기 때문에 식별력이 떨어져야 한다.

레퍼런스

  • G. 솔튼, A.왕, C.S. Yang(1975), "자동 인덱싱을 위한 벡터 공간 모델", ACM의 통신, vol. 18, nr. 11, 613–620페이지. (벡터 공간 모델이 처음 제시된 기사)
  • Can, F., Ozkarahan, E. A.(1987), "커버 계수 개념을 이용한 용어/문서 식별 값 계산." 미국 정보 과학 협회 저널, vol. 38, nr. 3, 171-183 페이지.