개념검색

Concept search

개념 검색(또는 개념 검색)은 전자적으로 저장된 비정형 텍스트(예: 디지털 아카이브, 이메일, 과학 문헌 등)를 검색하여 검색 질의에 제공된 정보와 개념적으로 유사한 정보를 검색하는 데 사용되는 자동화된 정보 검색 방법이다. 즉, 개념 검색 질의에 대응하여 검색한 정보에 표현된 아이디어는 질의의 본문에 포함된 아이디어와 관련이 있다.

개발

개념 검색 기법은 대형 비정형 디지털 텍스트 컬렉션을 다룰 때 고전적인 부울 키워드 검색 기술에 의해 부과되는 제한 때문에 개발되었다. 키워드 검색은 관련 없는 항목(허위 긍정)이 많거나, 동의어다의어 효과 때문에 관련 항목이 너무 많은 항목(허위 부정)을 제외한 결과를 반환하는 경우가 많다. 동의어란 같은 언어로 된 두 개 이상의 단어 중 한 개가 같은 의미를 갖는다는 것을 의미하며, 다의어는 많은 개별 단어들이 둘 이상의 의미를 갖는다는 것을 의미한다.

폴리세미는 인간의 언어를 다루려는 모든 컴퓨터 시스템의 주요 장애물이다. 영어에서 가장 자주 사용되는 용어는 몇 가지 공통의 의미를 가지고 있다. 예를 들어, 화재라는 단어는 연소 활동, 고용 종료, 발사 또는 흥분(불타는 것과 같이)을 의미할 수 있다. 영어에서 200개의 가장 일반적인 용어의 경우, 전형적인 동사는 12개 이상의 공통의 의미, 즉 감각을 가지고 있다. 이 세트의 전형적인 명사는 8가지 이상의 상식을 가지고 있다. 2000년 영어의 가장 다원적인 용어의 경우, 전형적인 동사는 8개 이상의 상식을 가지고 있고, 전형적인 명사는 5개 이상의 상식을 가지고 있다.[1]

다의어와 동의어의 문제 외에도 키워드 검색에서는 실수로 철자가 틀린 단어뿐만 아니라 단어의 줄기(또는 뿌리)에 있는 변화(예: 스트라이크 대 스트라이크)도 제외할 수 있다. 키워드 검색 역시 광학문자인식(OCR) 스캐닝 프로세스에 의해 유입되는 오류가 발생하기 쉬운데, 스캔 과정에서 문서의 텍스트(흔히 노이즈가 많은 텍스트)에 무작위 오류를 도입할 수 있다.

개념 검색은 단순히 키워드 검색 기술처럼 문자열을 일치시키는 것이 아니라 단어의 실제 의미와 그 기본 개념을 도출하도록 돕기 위해 워드센스 모호화(WSD)[2]와 다른 기법을 채택함으로써 이러한 난제를 극복할 수 있다.

접근

일반적으로 정보 검색 연구와 기술은 두 가지 넓은 범주의 의미와 통계로 나눌 수 있다. 의미론적 범주에 속하는 정보 검색 시스템은 인간 사용자가 제공할 자연어 텍스트의 어느 정도의 통사적, 의미적 분석을 실행하려고 시도할 것이다(컴퓨팅 언어학도 참조). 통계 범주에 속하는 시스템은 쿼리와 얼마나 밀접하게 일치하는지에 대한 통계적 측정에 근거한 결과를 찾을 것이다. 그러나 의미론 범주의 시스템도 정보를 찾고 검색하는 데 도움이 되는 통계적 방법에 의존하는 경우가 많다.[3]

정보 검색 시스템에 의미론적 처리 능력을 제공하기 위한 노력은 기본적으로 다음과 같은 세 가지 접근법을 사용했다.

보조 구조물

의미 처리에는 인공지능(AI)과 자연어 처리(NLP)를 기반으로 한 다양한 기법이 적용됐고, 대부분 통제된 어휘온톨로지와 같은 보조 구조의 사용에 의존해왔다. 통제된 어휘(전술과 사우리), 온톨로지는 더 넓은 용어, 더 좁은 용어 및 관련 용어를 질의에 통합할 수 있도록 한다.[4] 통제된 어휘는 부울 키워드 쿼리의 가장 심각한 제약 조건을 극복하는 한 방법이다. 수년에 걸쳐 워드넷의 큰 동의어 집합과 같이 일반적인 관심의 추가적인 보조 구조가 구축되었다.[5] 워드넷 등 보조구조를 기반으로 한 개념 검색은 고전적 정보 검색의 검색 모델과 데이터 구조를 재사용해 효율적으로 구현할 수 있는 것으로 나타났다.[6] 이후 접근방식은 의미론적 구성의 범위를 확장하기 위해 문법을 구현했다. 특정 도메인(도메인 온톨로지) 내의 개념 집합을 나타내고, 용어 간의 관계를 통합할 수 있는 데이터 모델의 생성도 최근 몇 년 동안 시행되고 있다.

수작업으로 조절된 어휘는 정보 검색 및 관련 텍스트 분석 작업의 효율성과 포괄성에 기여하지만 주제를 좁게 정의하고 용어를 표준화했을 때 가장 잘 작동한다. 통제된 어휘는 언어의 빠른 진화에 보조를 맞추기 위해 광범위한 인간의 입력과 감독을 필요로 한다. 또한 새로운 용어와 주제가 지속적으로 도입되어야 하기 때문에, 무제한의 주제를 다루고 수천 개의 고유한 용어를 포함하는 비정형 텍스트의 증가하는 양에 잘 맞지 않는다. 통제된 어휘 또한 특정 시점에서 특정 세계관을 포착하기 쉬우므로 특정 주제 영역의 개념이 변경될 경우 수정이 어렵다.[7]

지역상생통계

이 접근법을 포함하는 정보 검색 시스템은 문서 내의 용어 또는 문장 슬라이딩 창(예: ± 5문장 또는 ± 50문장) 내에서 용어 그룹이 함께 나타나는 횟수(공동발생)를 계산한다. 비슷한 맥락에서 함께 일어나는 단어들이 비슷한 의미를 갖는다는 생각에 바탕을 두고 있다. 용어의 공동 발생을 결정하는 데 사용되는 용어와 문장의 슬라이딩 윈도우가 상대적으로 작다는 점에서 국소적이다.

이 접근법은 간단하지만, 텍스트 집합에 포함된 의미 정보의 일부분만 캡처한다. 가장 기본적인 수준에서, 수많은 실험에서 본문에 포함된 정보의 대략 approximately만이 본질적으로 국부적이라는 것을 보여주었다.[8] 또한, 이 방법은 가장 효과적이기 위해서는 텍스트의 내용에 대한 사전 지식이 필요하며, 이는 대형 비정형 문서 모음에서는 어려울 수 있다.[7]

변환 기법

의미론적 처리에 대한 가장 강력한 접근법 중 일부는 수학 변환 기법의 사용에 기초한다. 매트릭스 분해 기법이 가장 성공적이었다. 널리 사용되는 일부 행렬 분해 기법은 다음과 같다.[9]

매트릭스 분해 기법은 데이터에 기반하여 보조 구조와 관련된 많은 단점을 방지한다. 그것들은 또한 본질적으로 글로벌한 것으로서, 이것은 그들이 지역적 공동 발생 통계에 근거한 기술보다 훨씬 더 강력한 정보 추출과 의미적 정보의 표현을 할 수 있다는 것을 의미한다.[7]

독립 성분 분석은 자동화된 방식으로 희박한 표현을 만들어 내는 기법으로,[10] 반분해와 비음극 매트릭스는 계산 복잡성을 줄이기 위해 표현 정확도를 희생시키는 접근법이다.[7]

단수 값 분해(SVD)는 1980년대 후반 벨 연구소의 텍스트에 처음 적용되었다. 텍스트 집합에 잠재되어 있는 의미적 의미를 찾아내는 능력 때문에 잠재의미적 지수화(LSI)라는 기법의 기초로서 사용되었다. 처음에 SVD는 대규모 데이터셋을 사용하는 데 필요한 자원 요구사항 때문에 채택이 느렸다. 그러나 최근 몇 년 사이 확장성과 성능의 초기 과제를 극복하면서 LSI의 활용이 크게 확대되었다.[11] 심지어 오픈 소스도 제공했다.[12] LSI는 개념 검색과 자동화된 문서 분류에 주로 적용되었지만, 다양한 정보 검색 및 텍스트 처리 애플리케이션에 사용되고 있다.[13]

사용하다

  • eDiscovery – EDD 또는 eDiscovery(Electronic Document Discovery)에 개념 기반 검색 기술이 점점 더 많이 사용되어 기업들이 소송을 준비할 수 있도록 지원하고 있다. eDiscovery에서는 개념적으로 구조화되지 않은 많은 텍스트 컬렉션을 클러스터링, 분류 및 검색하는 기능이 기존의 선형 검토 기법보다 훨씬 더 효율적이다. 개념 기반 검색은 키워드나 부울 검색보다 관련 결과를 낼 가능성이 높은 신뢰도 높고 효율적인 검색 방법으로 받아들여지고 있다.[14]
  • 엔터프라이즈 검색 엔터프라이즈 콘텐츠 관리(ECM) – 개념 검색 기술은 엔터프라이즈 검색에 널리 사용되고 있다. 기업 내 정보의 양이 증가함에 따라, 개념적으로 구조화되지 않은 많은 텍스트 컬렉션을 클러스터링, 분류 및 검색할 수 있는 기능이 필수적이 되었다. 2004년에 Gartner Group은 전문직 종사자들이 정보 검색, 검색 및 관리에 30%의 시간을 할애한다고 추정했다.[15] 조사회사 IDC는 2000명의 직원이 근무하는 법인은 직원들이 정보를 찾고 기존 문서를 복제하는 시간을 줄임으로써 연간 최대 3,000만 달러를 절약할 수 있다고 밝혔다.[15]
  • 컨텐츠 기반 이미지 검색(CBIR) – 컨텐츠 기반 접근법은 대규모 비주얼 기업에서 디지털화된 이미지와 비디오의 의미적 검색을 위해 사용되고 있다. 의미적 문제를 해결하기 위한 가장 초기 콘텐츠 기반 이미지 검색 시스템 중 하나는 ImageScape 검색 엔진이었다. 이 시스템에서 사용자는 키프레임을 사용하는 1,000만 개 이상의 영상과 비디오를 포함하는 WWW 지수에서 공간적으로 배치된 아이콘을 사용하여 하늘, 나무, 물 등 복수의 시각적 객체에 대해 직접 질의를 할 수 있다. 시스템은 정보이론을 사용하여 분류의 불확실성을 최소화하기 위한 최선의 특징을 결정했다.[16] CBIR과 관련하여 의미적 차이가 종종 언급된다. 의미격차는 시각 데이터에서 추출할 수 있는 정보와 주어진 상황에서 동일한 데이터가 사용자에게 갖는 해석 사이의 차이를 말한다.[17] 멀티미디어 정보 검색[18] 관한 ACM SIGMM 워크샵은 CBIR 연구에 전념하고 있다.
  • 멀티미디어 출판 – 개념 검색은 멀티미디어 및 출판 산업에서 다양한 비정형 소스에서 나오는 뉴스, 기술 정보 및 주제 전문 지식을 사용자에게 제공하기 위해 사용된다. 멀티미디어 정보 검색(MIR)을 위한 콘텐츠 기반 방법은 텍스트 주석이 없거나 불완전할 때 특히 중요해졌다.[16]
  • 디지털 라이브러리 아카이브 – 디지털 라이브러리와 디지털 아카이브의 이미지, 비디오, 음악 및 텍스트 항목은 개념 검색 기법의 사용을 통해 대규모 사용자 그룹(특히 웹에서)이 접근할 수 있도록 하고 있다. 예를 들어 EBSCO Publishing에서 개발한 비즈니스 정보 모니터링 및 알림 제품인 EDB(Envisive Daily Brief)는 개념 검색 기술을 사용하여 기업 최종 사용자에게 광범위한 비즈니스 컨텐츠를 포함하는 디지털 라이브러리에 대한 액세스를 제공한다. 비슷한 방식으로, 음악 게놈 프로젝트는 개념 검색을 통해 개별 음악 라이브러리나 가상 라디오 방송국을 자발적으로 만드는 판도라를 탄생시켰다.
  • 게놈정보검색(GIR) – 게놈정보검색(GIR)은 게놈문학 데이터베이스에 적용된 개념 검색 기법을 활용해 과학문학의 모호성을 극복한다.
  • 인사담당자 및 채용 – 많은 인사담당자 및 채용기관에서 개념검색 기술을 채택하여 느슨하게 관련되는 키워드 결과보다 정확하고 관련성이 높은 이력서 검색결과를 도출하고 있다.

효과적인 검색

개념 검색의 효율성은 검색 중인 데이터 집합과 쿼리 처리 및 결과 표시에 사용되는 검색 엔진을 포함한 다양한 요소에 따라 달라질 수 있다. 그러나 대부분의 개념 검색 엔진은 특정 종류의 쿼리에 가장 잘 작동한다.

  • 효과적인 질의는 의도된 개념을 적절히 전달하기에 충분한 텍스트로 구성된다. 효과적인 질의는 전체 문장, 단락 또는 심지어 전체 문서를 포함할 수 있다. 단 몇 단어로 구성된 질의는 가장 관련성이 높은 결과를 반환할 가능성이 높지 않다.
  • 효과적인 쿼리는 검색의 대상이 아닌 쿼리에 개념을 포함하지 않는다. 너무 많은 관련 없는 개념을 쿼리에 포함시키는 것은 결과 항목의 관련성에 부정적인 영향을 미칠 수 있다. 예를 들어 1967년 여름 한여름에 비가 오는미시시피강에서 보트에 대한 검색보다 미시시피강에서 보트에 대한 정보를 검색하는 것이 관련 결과를 반환할 가능성이 더 높을 것이다.
  • 효과적인 질의는 검색 중인 문서와 유사한 전체 텍스트, 자연어 스타일로 표현된다. 예를 들어, 과학 입문 교재의 발췌문으로 구성된 질의서를 사용하는 것은 검색되는 데이터 집합이 고급 대학 수준의 과학 텍스트로 구성되어 있다면 개념 검색에 효과적이지 않을 것이다. 쿼리가 수행되고 있는 항목의 전체적인 개념, 스타일 및 언어를 더 잘 나타내는 실질적인 질의는 일반적으로 더 효과적이다.

모든 검색 전략과 마찬가지로 경험 많은 검색자들은 일반적으로 개념적으로 관련되는 결과를 얻기 위해 초기 시드 쿼리부터 시작하여 다중 검색을 통해 자신의 쿼리를 세분화하며, 점차 관련성이 높은 결과를 위해 추가 쿼리를 작성 및/또는 세분화하는 데 사용할 수 있다. 검색 엔진에 따라 결과 문서에서 찾은 쿼리 개념을 사용하면 문서를 선택하고 유사한 찾기 기능을 수행하는 것만큼 쉽게 사용할 수 있다. 결과 관련성을 개선하기 위해 용어와 개념을 추가하여 쿼리를 변경하는 것을 쿼리 확장이라고 한다.[19] 워드넷과 같은 온톨로지의 사용은 개념적으로 관련된 단어로 쿼리를 확장하기 위해 연구되었다.[20]

관련성 피드백

목적적합성 피드백은 사용자들이 질의에 대해 반환된 결과가 정보 요구를 충족하는지 여부를 판단하는 데 도움을 주는 기능이다. 즉, 관련성은 질의가 아닌 정보 필요성에 비례하여 평가된다. 문서가 질의에 있는 모든 단어를 포함하기 때문이 아니라, 명시된 정보의 필요성을 다루는 경우에 목적적합하다.[21] 최종 결과 집합을 개선하기 위해 사용자를 검색 프로세스에 참여시키는 방식이다.[21] 사용자는 초기 결과에 따라 쿼리를 세분화하여 최종 결과의 품질을 개선할 수 있다.

일반적으로 개념 검색 관련성은 쿼리에 표현된 개념과 쿼리에 대해 반환된 결과에 포함된 개념 사이의 유사도를 가리킨다. 결과의 개념들이 질의에 포함된 개념들과 더 유사할수록, 결과들은 더 관련이 있다고 간주된다. 결과는 대개 관련성별로 순위를 매기고 정렬하여 가장 관련성이 높은 결과가 결과 목록의 맨 위에 있고 관련성이 가장 낮은 결과가 맨 아래에 있도록 한다.

목적적합성 피드백은 결과의 목적적합성을 개선하는 데 매우 효과적인 것으로 나타났다.[21] 개념 검색은 중요한 결과 항목이 누락될 위험을 감소시킨다. 왜냐하면 쿼리에 사용된 동일한 단어를 포함하는지 여부에 관계없이 쿼리의 개념과 관련된 모든 항목이 반환되기 때문이다.[15]

순위는 현대적인 정보 검색 시스템의 일부분일 것이다. 그러나 검색엔진이 단순히 독립형 시스템이 아닌 복잡한 정보관리 프로세스의 통합 구성요소가 되는 것과 함께 본문에 반영된 이기종 데이터, 규모, 비전통적 담화 유형의 문제들은 질의에 대한 새로운 종류의 시스템 대응이 요구될 것이다. 예를 들어, 순위 목록의 문제점 중 하나는 결과 항목 중 일부에 존재하는 관계를 공개하지 않을 수 있다는 것이다.[22]

개념 검색 엔진 평가 지침

  1. 결과 항목은 결과 항목에 의해 사용되는 용어가 질의에 사용된 용어와 다르더라도 질의문에 포함된 개념으로 표현되는 정보 필요성과 관련이 있어야 한다.
  2. 결과 항목은 관련성별로 분류하고 순위를 매겨야 한다.
  3. 관련 결과 항목을 신속하게 찾아 표시해야 한다. 복잡한 질의라도 관련 결과를 상당히 신속하게 반환해야 한다.
  4. 쿼리 길이는 고정되지 않아야 한다. 즉, 쿼리는 필요하다고 간주되는 만큼 길 수 있다. 문장, 단락 또는 전체 문서를 질의로 제출할 수 있다.
  5. 개념 질의는 특별하거나 복잡한 구문을 요구해서는 안 된다. 질의에 포함된 개념은 특별한 규칙을 사용하지 않고도 명확하고 눈에 띄게 표현할 수 있다.
  6. 개념, 키워드, 메타데이터를 사용한 결합 질의가 허용되어야 한다.[23]
  7. 결과 항목의 관련 부분은 단순히 항목을 선택하고 검색 엔진에 유사한 항목을 찾도록 지시함으로써 쿼리 텍스트로 사용할 수 있어야 한다.
  8. 쿼리 준비 인덱스는 비교적 빨리 생성되어야 한다.
  9. 검색 엔진은 연합 검색을 수행할 수 있어야 한다. 연합 검색을 사용하면 여러 데이터 소스에서 정보를 동시에 검색하는 데 개념 쿼리를 사용할 수 있으며, 이 쿼리는 병합, 정렬 및 결과에 표시된다.
  10. 개념 검색은 조회 텍스트 또는 검색 중인 데이터 세트의 텍스트에서 철자가 틀린 단어, 인쇄 오류 또는 OCR 검색 오류의 영향을 받지 않아야 한다.

컨퍼런스 및 포럼

정형화된 검색엔진 평가는 여러 해 동안 지속되어 왔다. 예를 들어, 텍스트 검색 방법론의 대규모 평가에 필요한 인프라를 제공함으로써 정보 검색 커뮤니티 내의 연구를 지원하기 위해 1992년부터 TREC(Text Retrieval Conference)가 시작되었다. 오늘날 상용 검색 엔진의 대부분은 TREC에서 처음 개발된 기술을 포함하고 있다.[24]

1997년, TREC의 일본 상대 연구원이 발족하여 IR 시스템용 정보 수집 연구소(National Institute of Informatics Test Collection for IR 시스템s, NTCIR)라고 불렸다. NTCIR은 정보 검색, 질문 답변, 자동 요약 등의 연구를 위한 일련의 평가 워크샵을 실시한다. 다국어 정보 접근에 관한 연구를 돕기 위해 2001년에 CLEF(Cross Language Evaluation Forum)라고 불리는 유럽의 일련의 워크샵이 시작되었다. 2002년에는 컨텐츠 지향 XML 검색 시스템의 평가를 위한 XML 검색 평가 이니셔티브(INEx)가 설립되었다.

정밀도와 리콜은 정보 검색 시스템을 평가하기 위한 전통적인 성과 조치의 두 가지였다. 정밀도는 검색된 결과 문서의 일부로서 사용자의 정보 필요성과 관련이 있다. 리콜은 결과 문서로 반환되는 전체 수집에서 관련 문서의 일부로 정의된다.[21]

검색 엔진 테스트 및 평가에 사용되는 워크샵과 공개 가능한 테스트 컬렉션이 정보를 관리하고 검색하는 방법에 대한 실질적인 통찰력을 제공했지만, 현장에서는 수많은 정보 제공자가 현재 정보를 찾고 관리하고 사용하는 과정에서 사람과 조직이 직면하고 있는 과제의 표면만 긁어냈다.이온을 사용할 수 있다.[22] 오늘날 사람들이 이용할 수 있는 정보 도구를 어떻게 사용하는지에 대한 과학적인 자료는 실험적인 연구 방법론들이 빠른 변화의 속도를 따라가지 못했기 때문에 여전히 불완전하다. 문맥화된 검색, 개인정보 관리, 정보 통합, 업무 지원 등 많은 과제를 여전히 해결해야 한다.[22]

참고 항목

참조

  1. ^ 브래드포드, R. B. 워드 센스 디스컴비게이션, 컨텐츠 분석 회사, LLC, 미국 특허 7415462, 2008.
  2. ^ R. Navigli, Word Sense Disambigation: A Survey, ACM Computing Survey, 41(2), 2009.
  3. ^ Greengrass, E, Information Research: A Survey, 2000.
  4. ^ Dubois, C, The Use of Thisauri in Online Resecovery, Journal of Information Science, 8(2), 1984년 3월, 페이지 63-66.
  5. ^ Miller, G, Special 이슈, WordNet: 온라인 어휘 데이터베이스, Intl. Lexicography, 3(4), 1990.
  6. ^ 파우스토 지운치글리아, 울라디미르 하르케비치, 일리야 자이레우. Concept Search 2014-02-10년 유럽 시맨틱 웹 컨퍼런스의 웨이백 머신에서 보관.
  7. ^ a b c d 브래드포드, R.B. 왜 LSI? 잠재 의미론적 인덱싱 및 정보 검색, 백서, 컨텐츠 분석 회사, LLC, 2008.
  8. ^ 랜다워, T, 그리고 두마이스, 플라톤의 문제에 대한 해결책: 지식의 습득, 유도 및 표현, 심리학적 검토, 104(2), 페이지 211-240의 잠재 의미 분석 이론.
  9. ^ 스킬리콘, D, 복잡한 데이터셋 이해: 매트릭스 분해를 통한 데이터 마이닝, CRC 출판, 2007.
  10. ^ Honkela, T, Hyvarinen, A. 및 Vayrynen, J. WordICA - 독립 성분 분석에 의한 단어의 언어 표현 출현. 자연어 공학, 16(3):277-308, 2010
  11. ^ Řehůřek, Radim (2011). "Scalability of Semantic Analysis in Natural Language Processing" (PDF). Retrieved 27 January 2015.
  12. ^ 겐심 오픈 소스 소프트웨어
  13. ^ Dumais, S, 잠재 의미 분석, ARIST Review of Information Science and Technology, vol. 38, 4장 2004.
  14. ^ 치안 판사 존 M. 워싱턴 D.C. 장애권리협의회 대 워싱턴 메트로폴리탄 교통국 재판소의 파시올라 판사는 조지 L. 폴 & 제이슨 R. 바론을 인용, "정보 인플레이션: "법제도는 적응할 수 있을까?" 13 리치. J.L. & Tech. 10 (2007.
  15. ^ a b c 라플란체, R, 델가도, J, 터크, M, 컨셉 검색 기술은 키워드를 넘어 정보 전망, 2004년 7월.
  16. ^ a b Lew, M. S, Sebe, N, Jeraba, C, Jain, R, 컨텐츠 기반 멀티미디어 정보 검색: State of the Art and Challenges, ACM Transactions on Multimedia Computing, Communications and Applications, 2006년 2월.
  17. ^ Datta R, Joshi, D, Li J, Wang, J. Z, 이미지 검색: 새로운 시대의 아이디어, 영향 경향, ACM 컴퓨팅 조사, 2008년 4월 제40권 제2호.
  18. ^ "Archived copy". www.liacs.nl. Archived from the original on 7 March 2014. Retrieved 12 January 2022.{{cite web}}: CS1 maint: 타이틀로 보관된 사본(링크)
  19. ^ 로버트슨, S. E., 스파르크 존스, K, 단순하고 입증된 텍스트 검색 접근, 기술 보고서, 캠브리지 대학 컴퓨터 실험실, 1994년 12월.
  20. ^ Navigli, R, Velardi, P. Wayback Machine보관온톨로지 기반 쿼리 확장 전략 분석 2012-04-26. 2003년 9월 22일부터 26일까지 크로아티아 Cavtat-Dubrovnik, 페이지 42~49, 제14회 기계 학습 관련 유럽 컨퍼런스(ECML 2003)에서 열린 적응 텍스트 추출채굴 워크숍(ATEM 2003)의 프로시저
  21. ^ a b c d 매닝, C. D., Raghavan P, Schütze H, Cambridge University Press, 2008.
  22. ^ a b c Callan, J., Allan, J., Clarke, C. L. A., Dumais, S., Evans, D., A., Sanderson, M., Zhai, C., Meeting of the MINDS: An Information Retrieval Research Agenda, ACM, SIGIR Forum, Vol. 41 No. 2, December 2007.
  23. ^ Rehurek, R, A 반전된 전체 텍스트 색인을 기반으로 한 벡터 유사성 검색을 위한 복합 시스템인 ScaleText Search Engine, Pending U.S. 특허 15726803, 2017.
  24. ^ Croft, B, Metzler, D, Strohman, T, Search Engines, Information Research in Practice, Addison Wesley, 2009.

외부 링크