어휘 불일치

Vocabulary mismatch

어휘 불일치는 자연어 사용에서 흔히 나타나는 현상이며, 다른 사람들이 같은 사물이나 개념을 다르게 이름 지을 때 발생한다.

퍼나스 외 연구진(1987)은 아마도 단어 불일치 [1]문제를 정량적으로 연구한 첫 번째 사람일 것이다.그 결과, 평균 80%의 사람(같은 분야의 전문가)이 같은 이름을 다르게 짓는 것으로 나타났습니다.보통 같은 것에 기인할 수 있는 수십 개의 가능한 이름이 있습니다.이 연구는 잠재의미적 색인에 대한 연구에 동기를 부여했다.

사용자가 작성한 쿼리와 말뭉치 내의 관련 문서 간의 어휘 불일치는 정보 검색에서 용어 불일치 문제를 일으킨다.Zhao와 Callan(2010)[2]은 아마도 검색 설정에서 단어 불일치 문제를 정량적으로 연구한 최초의 사람일 것이다.이 결과에 따르면 사용자 쿼리와 관련된 문서의 30-40%에 평균 쿼리 용어가 나타나지 않습니다.그들은 또한 이러한 불일치 확률이 기본 확률론적 검색 모델 중 하나인 이진 독립성 모델에서 중심 확률임을 보여주었다.그들은 강력한 키워드 검색 모델에 비해 검색 시 50-80%의 정확도를 잠재적으로 높일 수 있는 새로운 용어 가중치 예측 방법을 개발했다.전문 사용자는 Boolean Conjunative Normal Form 확장을 사용하여 확장되지 않은 키워드 [3]쿼리에 비해 검색 성능을 50~300% 향상시킬 수 있는 것으로 나타났습니다.

불일치를 줄일 수 있는 기술

  • 막힘
  • 키워드 또는 추상만 인덱싱하지 않고 전체 텍스트 인덱싱
  • 다른 문서(또는 다른 소셜 태그 부착)의 인바운드 링크에서 텍스트 색인화
  • 쿼리 확장.전문가가 작성한 수동 연결 정규형[3] 쿼리를 사용한 자오와 캘런의 2012년 연구는 부울 연결 정규형 검색어 확장이 기존 단어 확장 가방보다 훨씬 효과적이라는 것을 보여주었다.로키오 확장.
  • 번역 기반 모델

레퍼런스

  1. ^ Furnas, G., et al, The Vociety Problem in Human-System Communications, 1987, 30(11), 페이지 964-971.
  2. ^ Jhao, L. 및 Callan, J., 용어 필요성 예측, 제19회 정보 및 지식 관리 회의(CIKM 2010)의 속행.토론토, 캐나다, 2010년.
  3. ^ a b Zhao, L. 및 Callan, J., 선택적 쿼리 확장을 위한 자동 용어 불일치 진단, SIGIR 2012.