쿼리 확장

Query expansion

질의확장(QE)은 정보검색업무, 특히 질의 이해의 맥락에서, 정보검색업무의 검색성과를 향상시키기 위해 주어진 질의를 개편하는 과정이다.[1]검색 엔진의 맥락에서 쿼리 확장에는 사용자의 입력(검색 쿼리 영역에 어떤 단어를 입력했는지, 때로는 다른 유형의 데이터를 입력했는지)을 평가하고 추가 문서에 맞게 검색 쿼리를 확장하는 작업이 포함된다.쿼리 확장에는 다음과 같은 기술이 포함된다.

질의 확장은 컴퓨터 과학 분야, 특히 자연 언어 처리정보 검색 분야에서 연구된 방법론이다.

정밀도 및 회수 트레이드오프

검색 엔진은 사용자 검색 결과의 품질을 높이기 위해 쿼리 확장을 호출한다.사용자가 항상 최상의 용어를 사용하여 검색 질의를 작성하는 것은 아니라고 가정한다.이 경우에 가장 좋은 이유는 데이터베이스에 사용자가 입력한 용어가 없기 때문일 수 있다.

사용자가 입력한 용어에 대한 대체 단어 형태도 일치하여 전체 리콜이 증가하므로 사용자가 입력한 용어에 일치하는 문서가 많아진다.이것은 정밀도를 떨어뜨리는 데 드는 비용이다.사용자가 입력한 용어의 동의어를 검색하기 위해 검색 질의를 확대함으로써, 정밀도를 희생시켜 리콜도 증가시킨다.이는 리콜 요인이 분모의 일부라는 점에서 더 큰 리콜이 암묵적으로 정밀도 저하를 초래한다는 점에서 정밀도 계산 방식의 방정식의 특성 때문이다.또한 많은 사용자들이 정밀도와 상관없이 더 많은 결과를 검색하는 것을 원하지 않는다는 점에서, 더 큰 리콜이 전체 검색 결과 품질에 부정적인 영향을 미친다는 추론도 있다.

이와 관련하여 질의 확대의 목적은 리콜을 증가시킴으로써 정밀도가 (수학적으로 동일시되는 감소보다는) 잠재적으로 증가될 수 있고 (더 높은 품질의) 결과 집합 페이지에 포함되거나 최소한 동등하게 관련될 수 있다.사용자가 원하는 질의에 보다 목적적합할 가능성이 있는 결과 집합에 포함되지 않는 페이지는 포함되며, 관련성과 관계없이 질의 확장이 없을 것이다.동시에 현재 상용 검색엔진 중 상당수가 워드빈도(tf-idf)를 사용해 순위를 보조하고 있다.[citation needed]사용자가 입력한 단어와 동의어, 대체 형태론적 형태의 발생 순위를 모두 매김으로써 밀도가 높은 문서(고주파수 및 근접도)는 검색 결과에서 더 높은 곳으로 이동하기 쉬우며, 더 큰 리콜에도 불구하고 검색 결과의 상위권에 근접해 검색 결과의 품질이 더 높은 것으로 이어진다.

확장 방법 쿼리

질의 확장에 대한 자동적인 방법은 마론과 쿤스에 의해 1960년에 제안되었다.[2]현대의 질의 확장 방법은 문서 수집 분석(글로벌 또는 로컬)을 암시하거나 사전 또는 온톨로지 기반이다.[4]용어 간의 관계를 검색하기 위해 문서 수집의 글로벌 분석을 적용한다.현지 분석은 로키오가 도입한 관련성 피드백을 말한다.[5]Rocchio는 검색된 문서 중 일부를 수동으로 판단하고 이 피드백 정보를 사용하여 쿼리를 확장할 것을 제안했다.사용자의 판단력을 수집하는 것이 어려울 수 있기 때문에, 처음 검색된 상위 문서만 관련성이 있는 것으로 간주된다.이것을 의사-유연성 피드백(PRF)이라고 한다.[6]의사 관련 피드백은 평균적으로 효율적이지만 일부 질의,[7] 특히 상위 검색 문서가 관련이 없을 수 있기 때문에 어려운 질의에 대한 결과를 손상시킬 수 있다.유사 관련 문서는 많은 질의 용어와 함께 발생하는 확장 후보 용어를 찾는 데 사용된다.[8]이 아이디어는 유사 관련 문서에서 용어를 쿼리할 거리를 고려하는 위치 관련성 및 근접 관련성 모델에서 관련 언어 모델 형식주의 내에서 더욱 발전되었다.질의 확장의 또 다른 방향은 단어 임베딩의 적용이다.[11]

질의 확장의 대안은 질의 텍스트가 아닌 검색 중인 문서의 텍스트를 수정하는 문서 확장이다.[12]

참고 항목

소프트웨어 라이브러리

  • QueryTermAnalyzer 오픈 소스, C#.기계 학습 기반 쿼리 용어 무게 및 쿼리 확장에 대한 동의어 분석기.
  • LucQE - 오픈 소스, Java.Apache Lucene을 사용하여 쿼리 확장을 수행할 수 있는 몇 가지 구현과 함께 프레임워크 제공
  • Xapian은 쿼리 확장 지원을 포함하는 오픈 소스 검색 라이브러리임
  • ReQue 오픈 소스, Python.감독되는 쿼리 확장 방법을 교육 및 평가하기 위한 구성 가능한 소프트웨어 프레임워크 및 골드 표준 데이터셋 모음입니다.[13][14]

참조

인용구

  1. ^ Vectomova, Olga; Wang, Ying (2006). "A study of the effect of term proximity on query expansion". Journal of Information Science. 32 (4): 324–333. CiteSeerX 10.1.1.552.5987. doi:10.1177/0165551506065787. S2CID 7265523.
  2. ^ 마론, M. E.와 쿤스, J. L. 1960.관련성, 확률적 인덱싱 및 정보 검색.ACM 7, 3, 216–244 저널.
  3. ^ C. 카르피네토와 G. 로마노.정보 검색의 자동 질의 확대에 대한 조사.ACM Computing Survey, 44(1:50, 2012년 1월.
  4. ^ J. 보갈, A. 맥팔레인, P.스미스. 온톨로지 기반의 질의 확장에 대한 검토.inf. 프로세스.관리, 43(4):866-886, 2007년 7월.
  5. ^ J. 로키오.정보 검색의 관련성 피드백.SMART Research System에서 1971 페이지 313-323.
  6. ^ C. 버클리.SMART: TREC 3을 사용한 자동 쿼리 확장.제3차 텍스트 RETrieval Conference (TREC-3)의 Procedures of the third Text RETrieval Conference (TRENIST 특별 간행물, 페이지 69-80.국립표준기술연구소, 1995.
  7. ^ G. 아마티, C. 카르피네토, G. 로마노.쿼리 난이도, 견고성 및 쿼리 확장의 선택적 적용.정보 검색의 진보, 페이지 127-137, 2004.
  8. ^ J. 쉬와 W. B. 크로프트.로컬 및 전역 문서 분석을 사용하여 확장 쿼리정보 검색에 관한 연구 및 개발에 관한 제19차 연례 ACM SIGIR 회의의 절차서 4-11페이지.ACM, 1996년
  9. ^ Y. Lv와 C.Zhai. 의사 관련성 피드백을 위한 위치 관련 모델.정보 검색에 관한 연구 및 개발에 관한 제33회 국제 ACM SIGIR 회의의 절차 579-586페이지.ACM, 2010.
  10. ^ L. 에르마코바, J. 모테, E.니키티나 2016년쿼리 확장을 위한 근접 관련 모델.제31회 ACM 연례 응용 컴퓨팅 심포지엄의 진행 (SAC '16)에서.ACM, 뉴욕, 뉴욕, 미국, 1054-1059DOI: https://doi.org/10.1145/2851613.2851696
  11. ^ S. 쿠지, A.Shtok, O. Kurland 2016.Word 임베딩으로 확장 쿼리제25회 ACM 국제정보지식경영회의(CIKM '16)의 절차서.ACM, 뉴욕, 뉴욕, 미국, 1929-1932.DOI: https://doi.org/10.1145/2983323.2983876
  12. ^ Lin, Jimmy; Nogueira, Rodrigo; Yates, Andrew (2020-10-13). "Pretrained Transformers for Text Ranking: BERT and Beyond". arXiv:2010.06467 [cs.IR].
  13. ^ Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: 질의 개선을 위한 구성 가능한 워크플로우 및 데이터 집합 모음입니다.CIKM 2020: 3165-3172
  14. ^ 호세인 파니, 마흐타브 타마네, 파트타인 자링칼람, 자밀 삼우, 사마드 페이다르, 에브라힘 바게리, 질의 정교화 방법 및 골드 표준 데이터 세트 생성의 확장 가능한 툴킷.정보 검색의 진전: 제43차 유럽 IR 연구 회의 (ECIR'21), 2021.

원천

  • D. 애벌리, D. 커비, S. 레날스, T.Robinson, The THEL 방송 뉴스 검색 시스템.Proc. ESCA ETRW 워크샵 음성 오디오, (Cambridge), 페이지 14–19, 1999.쿼리 확장 섹션 - 간결하고 수학적 개요
  • R. 네비글리, P. 벨라르디.온톨로지 기반의 질의확장 전략 분석적응형 텍스트 추출 및 마이닝 워크숍(ATEM 2003), 제14차 유럽 기계 학습 컨퍼런스(ECML 2003), Cavtat-Dubrovnik, 2003년 9월 22-26일, 페이지 42–49 - 참조 온톨로지로서 WordNet에 의존하는 쿼리 확장 방법 분석.
  • Y. 치우와 H.P.Frei. 개념 기반 쿼리 확장.SIGIR-93, 제16회 ACM 국제 정보 검색 연구 개발 회의, SIGIR 포럼, ACM Press, 1993년 6월 - 질의 확장 방법에 대한 학술 문서
  • 에프티미스 N. 에프티미아디스쿼리 확장.인: 마사 E.Williams (edd.), ARIST(Anternational Review of Information Systems and Technology), v31, 페이지 121–187, 1996 - 기술 수준이 낮은 시청자를 위한 소개.