용어 식별
Term discrimination용어 식별은 키워드가 정보 검색에 얼마나 유용한지 순위를 매기는 방법입니다.
개요
이는 tf-idf와 유사한 방법이지만 정보 검색에 적합한 키워드와 그렇지 않은 키워드를 찾는 방법을 다루고 있습니다.먼저 벡터 공간 모델을 참조하십시오.
이 방법에서는 발생 행렬의 밀도가 낮을수록 정보 검색 쿼리가 향상된다는 벡터 공간 밀도 개념을 사용합니다.
최적 색인 용어는 서로 다른 두 문서를 구별하고 두 개의 유사한 문서를 관련시킬 수 있는 용어입니다.한편, 차선의 지수항은 두 개의 다른 문서와 두 개의 유사한 문서를 구별할 수 없다.
식별 값은 지수 항의 밀도가 없는 동일한 행렬의 벡터 공간 밀도 대 발생 행렬의 벡터 공간 밀도의 차이입니다.
A를 })로 하고 Q를 A A의 밀도로 합니다.그 다음:색인 k { k의 식별값은 과 같습니다. D k () -Q ( ) { DV _ { k } ( ) - ( A _ { }
계산방법
발생 매트릭스: A) 및 키워드:k(\ k가 지정됩니다.
- 글로벌 문서 중심 찾기: C \ ( the vector vector))))))) )
- 모든 문서 벡터 })에서 C C까지의 평균 유클리드 거리를 구합니다.
- 모든 문서 벡터 })에서 C C K K까지의 평균 유클리드 거리를 구합니다.
- 위의 스텝에서 두 값의 차이는
키워드를 포함하면 정보 검색이 향상되므로 값이 클수록 좋습니다.
정성적 관찰
희박한 키워드는 기억력이 떨어지기 때문에 식별력이 떨어져야 하며, 자주 사용되는 키워드는 정밀도가 떨어지기 때문에 식별력이 떨어져야 한다.
레퍼런스
- G. 솔튼, A.왕, C.S. Yang(1975), "자동 인덱싱을 위한 벡터 공간 모델", ACM의 통신, vol. 18, nr. 11, 613–620페이지. (벡터 공간 모델이 처음 제시된 기사)
- Can, F., Ozkarahan, E. A.(1987), "커버 계수 개념을 이용한 용어/문서 식별 값 계산." 미국 정보 과학 협회 저널, vol. 38, nr. 3, 171-183 페이지.