문서 검색

문서 검색은 자유 텍스트 레코드 집합에 대해 명시된 사용자 쿼리의 일치로 정의된다. 이러한 기록은 주로 신문 기사, 부동산 기록 또는 매뉴얼의 단락과 같은 비정형 텍스트의 모든 유형일 수 있다. 사용자 쿼리는 정보 니즈에 대한 멀티센스 전체 설명에서부터 몇 단어에 이르기까지 다양할 수 있다.

문서 검색은 텍스트 검색 또는 텍스트 검색의 분기로 언급되기도 한다. 텍스트 검색은 정보가 주로 텍스트 형태로 저장되는 정보 검색의 한 분야다. 텍스트 데이터베이스는 개인용 컴퓨터 덕분에 분산화되었다. 문자 검색은 모든 인터넷 검색 엔진의 기본이 되기 때문에 오늘날 연구의 중요한 영역이다.

설명

문서 검색 시스템은 논리 지식 데이터베이스를 유추하여 질문에 답변하는 전문가 시스템과 달리 사용자 질의에 대비하여 텍스트 기록(문서)을 일치시켜 주어진 기준에 맞는 정보를 찾는다. 문서 검색 시스템은 문서의 데이터베이스, 전체 텍스트 색인을 작성하기 위한 분류 알고리즘, 데이터베이스에 접근하기 위한 사용자 인터페이스로 구성된다.

문서 검색 시스템에는 두 가지 주요 태스크가 있다.

사용자 쿼리에 대한 관련 문서 찾기
PageLrank와 같은 알고리즘을 사용하여 일치하는 결과를 평가하고 관련성에 따라 정렬하십시오.

인터넷 검색 엔진은 문서 검색의 고전적인 응용 프로그램이다. 현재 사용 중인 검색 시스템의 대부분은 단순한 부울 시스템에서 통계적 또는 자연적 언어 처리 기법을 사용하는 시스템에 이르기까지 다양하다.

변형

문서 검색 시스템을 위한 인덱싱 스키마타에는 양식 기반(또는 단어 기반)과 콘텐츠 기반 인덱싱의 두 가지 주요 클래스가 있다. 사용 중인 문서 분류 체계(또는 색인 알고리즘)는 문서 검색 시스템의 성격을 결정한다.

양식 기반

양식 기반 문서 검색은 문자열 검색에서 일치하는 하위 문자열과 유사한 텍스트의 정확한 구문 속성을 다룬다. 본문은 일반적으로 구조화되지 않았으며 자연어로는 반드시 필요하지 않으며, 예를 들어 시스템은 분자생물학에서 많은 화학적 표현을 처리하는 데 사용될 수 있다. 접미사 트리 알고리즘은 폼 기반 인덱싱의 예다.

콘텐츠 기반

콘텐츠 기반 접근법은 문서와 그 일부 사이의 의미적 연결, 질의와 문서 간의 의미적 연결을 이용한다. 대부분의 콘텐츠 기반 문서 검색 시스템은 반전 인덱스 알고리즘을 사용한다.

서명파일은 빠르고 더러운 필터(예: 블룸 필터)를 만드는 기법으로, 질의에 일치하는 모든 문서와 그렇지 않은 문서 몇 개를 보관한다. 이 작업을 수행하는 방법은 각 파일에 대해 서명(일반적으로 해시 코드화된 버전)을 생성하는 것이다. 한 가지 방법은 중첩된 코딩이다. 허위 경보를 폐기하기 위한 사후 처리 단계를 수행한다. 대부분의 경우 이 구조는 속도, 크기, 기능 면에서 반전된 파일보다 열악하기 때문에 널리 사용되지 않는다. 그러나 적절한 매개 변수를 사용하면 특정 환경에서 반전된 파일을 능가할 수 있다.

예: PubMed

PubMed^[1] 양식 인터페이스는 단어 가중 알고리즘을 사용하여 문서의 제목, 추상 및 MeSH 용어의 단어 비교를 통해 작동하는 "관련 기사" 검색을 특징으로 한다.^[2]^[3]

참고 항목

참조

^ Kim W, Aronson AR, Wilbur WJ (2001). "Automatic MeSH term assignment and quality assessment". Proc AMIA Symp: 319–23. PMC 2243528. PMID 11825203.
^ Computation of Related Citations. National Center for Biotechnology Information (US). 2019-02-06.
^ Lin J1, Wilbur WJ (Oct 30, 2007). "PubMed related articles: a probabilistic topic-based model for content similarity". BMC Bioinformatics. 8: 423. doi:10.1186/1471-2105-8-423. PMC 2212667. PMID 17971238.

추가 읽기

Faloutsos, Christos; Christodoulakis, Stavros (1984). "Signature files: An access method for documents and its analytical performance evaluation". ACM Transactions on Information Systems. 2 (4): 267–288. doi:10.1145/2275.357411. S2CID 8120705.
Justin Zobel; Alistair Moffat; Kotagiri Ramamohanarao (1998). "Inverted files versus signature files for text indexing" (PDF). ACM Transactions on Database Systems. 23 (4): 453–490. CiteSeerX 10.1.1.54.8753. doi:10.1145/296854.277632. S2CID 7293918.
Ben Carterette; Fazli Can (2005). "Comparing inverted files and signature files for searching a large lexicon" (PDF). Information Processing and Management. 41 (3): 613–633. doi:10.1016/j.ipm.2003.12.003.

외부 링크

버킹햄셔 칠스턴 대학교 정보검색 공식 재단

[1] Kim W, Aronson AR, Wilbur WJ (2001). "Automatic MeSH term assignment and quality assessment". Proc AMIA Symp: 319–23. PMC 2243528. PMID 11825203.

[2] Computation of Related Citations. National Center for Biotechnology Information (US). 2019-02-06.

[3] Lin J1, Wilbur WJ (Oct 30, 2007). "PubMed related articles: a probabilistic topic-based model for content similarity". BMC Bioinformatics. 8: 423. doi:10.1186/1471-2105-8-423. PMC 2212667. PMID 17971238.

[1]

[2]

[3]

Search