복합항 처리

Compound-term processing

복합어 처리는 정보 검색에서 복합어를 기반으로 검색 결과를 일치시킵니다.복합항은 두 개 이상의 간단한 항을 결합하여 작성됩니다. 예를 들어, "트리플"은 단일 단어 항이지만 "트리플 심장 바이패스"는 복합 용어입니다.

복합 용어 처리는 오래된 문제에 대한 새로운 접근법입니다.어떻게 하면 사용 편의성을 유지하면서 검색 결과의 관련성을 향상시킬 수 있을까요?이 기술을 사용하면 노인의 심장 3중 우회술에 따른 생존율 탐색은 이 정확한 문구가 문서에 포함되지 않더라도 이 주제에 대한 문서를 찾을 수 있다.이 작업은 복합어 처리를 사용하는 개념 검색을 통해 수행할 수 있습니다.그러면 주요 개념(이 경우 "생존률", "트리플 심장 바이패스" 및 "장년층")이 자동으로 추출되고 이러한 개념을 사용하여 가장 관련성이 높은 문서를 선택합니다.

기술

2003년 8월 Concept Searching Limited는 통계 복합항 [1]처리를 사용하는 아이디어를 도입했습니다.

CLAMOUR는 산업 정보와 통계를 수집 및 배포할 때 더 나은 분류 방법을 찾는 것을 목표로 하는 유럽 공동 프로젝트입니다.CLAMOUR는 통계적 [2]모델링에 기초한 접근 방식이 아닌 언어적 접근 방식을 사용하는 것으로 보인다.

역사

단일 단어 용어의 확률론적 가중치에 대한 기법은 Stephen E. Robertson과 Karen Spérck [3]Jones의 획기적인 출판물에서 최소 1976년으로 거슬러 올라간다.Robertson은 단어 독립의 가정은 정당하지 않으며 수학적인 편리성의 문제로 존재한다고 말했다.H. H. Williams가 "문서에서 단어의 독립성을 가정하는 것은 대개 수학적 [4]편의상의 문제"라고 말한 적어도 1964년으로 거슬러 올라가면서 독립성에 대한 그의 반대는 새로운 생각이 아니다.

2004년 애나 린 패터슨은 구글이 특허권을 취득한 정보검색 시스템 [5]문구 기반 검색 특허를 [6]출원했다.

적응성

통계적 복합항 처리는 패터슨에 의해 설명된 프로세스보다 적응성이 높습니다.그녀의 과정은 일반적인 검색에 대한 광범위한 통계 지식을 후보 문구를 식별하는 데 사용할 수 있는 월드 와이드 웹 검색을 목표로 하고 있습니다.통계 복합 용어 처리는 이러한 선험적 지식을 이용할 수 없는 엔터프라이즈 검색 애플리케이션에 더 적합합니다.

통계 복합 용어 처리는 또한 CLAMOUR 프로젝트에서 채택한 언어적 접근법보다 적응성이 높다. CLAMOUR 프로젝트는 용어(즉, 언어, 성별, 숫자 등)의 구문적 특성 및 그 조합을 고려해야 한다.CLAMOUR는 언어 의존도가 높은 반면 통계적 접근법은 언어에 의존하지 않습니다.

적용들

복합어 처리를 통해 검색 엔진과 같은 정보 검색 응용 프로그램은 매우 애매할 수 있는 단일 단어가 아닌 다중 단어 개념을 기반으로 매칭을 수행할 수 있습니다.

초기 검색 엔진은 사용자가 검색 상자에 입력한 단어를 포함하는 문서를 찾았습니다.이것들은 키워드 검색 엔진이라고 불립니다.부울 검색 엔진은 사용자가 추가 요구 사항을 지정할 수 있도록 함으로써 정교함을 더합니다.예를 들어, "Tiger NEAR Woods AND (골프 OR) NOT 폭스바겐"은 연산자 "NEAR", "AND", "OR" 및 "NOT"를 사용하여 이러한 단어가 특정 요구 사항을 따라야 한다고 지정합니다.구문 검색을 사용하는 것이 더 간단하지만, 결과에 정확한 구문이 나타나야 합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "Lateral Thinking in Information Retrieval" (PDF). Information Management and Technology. 36 PART 4. Archived from the original (PDF) on 2017-11-15. Retrieved 2008-06-20. British Library Direct 카탈로그 항목은 [1]Wayback Machine에서 2012-02-10 아카이브됨
  2. ^ [2] 국가통계 CLAMOUR 프로젝트
  3. ^ Robertson, S. E.; Spärck Jones, K. (1976). "Relevance weighting of search terms". Journal of the American Society for Information Science. 27 (3): 129. doi:10.1002/asi.4630270302.
  4. ^ WILLIAMS, J.H. (1965). "Results of classifying documents with multiple discriminant functions". Statistical Association Methods for Mechanized Documentation, National Bureau of Standards. Washington: 217–224. Archived from the original on 2011-07-17. Retrieved 2015-05-21.
  5. ^ US 20060031195
  6. ^ 구글, 쿠일 특허출원 인수