관련성 피드백

Relevance feedback

관련성 피드백은 일부 정보 검색 시스템의 특징이다.관련성 피드백의 이면에 있는 아이디어는 주어진 질의에서 처음에 반환된 결과를 취하여 사용자 피드백을 수집하고, 그 결과가 새로운 질의 수행에 관련성이 있는지에 대한 정보를 이용하는 것이다.우리는 세 가지 유형의 피드백을 유용하게 구분할 수 있다: 명시적 피드백, 암묵적 피드백, 맹목적인 피드백 또는 "의사" 피드백.null

명시적 피드백

질의에 대해 검색된 문서의 관련성을 나타내는 명시적 피드백을 관련 평가자들로부터 얻는다.이러한 유형의 피드백은 평가자(또는 시스템의 다른 사용자)가 제공된 피드백을 목적적합성 판단으로 해석한다는 것을 알고 있는 경우에만 명시적으로 정의된다.null

사용자는 2진수 또는 등급 관련 시스템을 사용하여 관련성을 명시적으로 표시할 수 있다.이진 관련성 피드백은 문서가 주어진 질의와 관련이 있거나 관련이 없음을 나타낸다.등급화된 관련성 피드백은 숫자, 문자 또는 설명(예: "관련되지 않음", "일부 관련성", "관련성" 또는 "매우 관련성")을 사용하여 질의에 대한 문서의 관련성을 나타낸다.등급화된 관련성은 평가자가 작성한 문서의 기본 순서(즉, 평가자가 (대개 하향식) 관련성의 순서로 결과 집합 문서를 배치하는 형식일 수 있다.구글이 자사 검색 웹사이트에 구현한 서치위키 기능이 그 예일 것이다.null

관련 피드백 정보는 잘 알려진 로키오 알고리즘과 같이 검색 성능을 향상시키기 위해 원래의 질의와 함께 보간될 필요가 있다.null

명시적 관련성 피드백을 바탕으로 순위 알고리즘의 유용성을 측정하기 위해 2005년경에 인기를 끌게 된 성능 지표NDCG이다.그 밖에 k에서의 정밀도평균 평균 정밀도가 포함된다.null

암시적 피드백

사용자가 어떤 문서를 하고 선택하지 않는지, 문서를 보는 데 걸린 시간 또는 페이지 검색 또는 스크롤 작업과 같은 사용자 행동에서 암묵적 피드백을 유추한다.[1]검색 과정에서 암묵적 피드백에 사용할 수 있는 신호와 이에 대응해 제공할 정보의 종류가 많다.[2][3]null

명시적 목적적합성 피드백과 암묵적 목적적합성 피드백의 주요 차이점은 다음과 같다.[4]

  1. 사용자는 IR 시스템의 이익에 대한 목적적합성을 평가하지 않고 자신의 요구만을 충족시키고 있다.
  2. 사용자는 자신의 행동(상호 문서)이 관련성 피드백으로 사용될 것임을 반드시 알 수 없다.

그 예로는 드웰 타임(dwell time)이 있는데, 이는 사용자가 검색 결과에서 링크된 페이지를 보는 데 소비하는 시간을 나타내는 척도다.검색결과가 사용자의 질의 의도를 얼마나 잘 충족시켰는지를 보여주는 지표로, 검색결과 개선을 위한 피드백 메커니즘으로 활용되고 있다.null

블라인드 피드백

블라인드 관련성 피드백이라고도 하는 의사 관련성 피드백은 자동 국소 분석을 위한 방법을 제공한다.관련 피드백의 수동 부분을 자동화하여 사용자가 연장된 상호 작용 없이 검색 성능을 향상시킨다.방법은 대부분의 관련 문서의 초기 집합을 찾기 위해 정상적인 검색을 수행하고, 최상위 "k" 등급의 문서가 관련성이 있다고 가정하며, 마지막으로 이 가정 하에서 이전과 같이 관련성 피드백을 수행하는 것이다.절차는 다음과 같다.

  1. 초기 쿼리에 의해 반환된 결과를 관련 결과로 간주한다(대부분의 실험에서 k가 10에서 50 사이인 상위 k만 해당).
  2. 예: tf-idf 가중치를 사용하여 이 문서에서 상위 20-30개(표시 번호) 용어를 선택하십시오.
  3. 쿼리 확장을 수행하고 쿼리에 이 용어를 추가한 다음 반환된 문서와 이 쿼리를 일치시키고 마지막으로 가장 관련성이 높은 문서를 반환하십시오.

(Buckley et al.195)에 발표된 코넬 SMART 시스템의 결과와 같은 일부 실험은 TREC 4 실험의 맥락에서 유사-관련성 피드백을 이용한 검색 시스템 성능의 향상을 보여준다.null

이 자동 기술은 대부분 효과가 있다.글로벌 분석보다 효과가 좋은 경향이 있다는 증거가 나왔다.[5]질의 확장을 통해 초기 라운드에서 누락된 일부 관련 문서를 검색하여 전체 성능을 개선할 수 있다.분명히 이 방법의 효과는 선택된 확장 용어의 품질에 크게 의존한다.TREC 특별 작업에서[citation needed] 성능을 향상시키는 것으로 밝혀졌다.그러나 그것은 자동 과정의 위험이 없는 것은 아니다.예를 들어, 질의가 구리광산에 관한 것이고 상위 몇 개의 문서가 칠레의 광산에 관한 것이라면, 칠레에 관한 문서의 방향으로 질의가 표류하는 경우가 있을 수 있다.또한, 원래의 질의에 추가된 단어가 질의 주제와 무관한 경우, 특히 웹 문서가 여러 개의 다른 주제를 다루는 웹 검색에서 검색의 품질이 저하될 가능성이 높다.유사-유연성 피드백에서 확장단어의 품질을 개선하기 위해 유사-유연성 피드백에 대한 위치 관련 피드백을 제안하여 피드백 문서에서 단어 위치를 기준으로 질의 주제에 초점을 맞춘 단어를 선택하였다.[6]구체적으로, 위치 관련성 모델은 질의어에 가까운 단어가 질의 주제와 관련될 가능성이 더 높다는 직관에 기초하여 질의어에 더 가깝게 발생하는 단어에 가중치를 부여한다.null

블라인드 피드백은 관련 피드백의 수동 부분을 자동화하고 평가자가 필요하지 않다는 장점을 가지고 있다.null

관련 정보 사용

관련 정보는 관련 문서의 내용을 사용하여 원래 질의에 있는 용어의 가중치를 조정하거나, 해당 내용을 사용하여 질의에 단어를 추가함으로써 활용된다.관련성 피드백은 종종 Rocchio 알고리즘을 사용하여 구현된다.null

참조

  1. ^ "Archived copy" (PDF). www.scils.rutgers.edu. Archived from the original (PDF) on 16 March 2004. Retrieved 12 January 2022.{{cite web}}: CS1 maint: 타이틀로 보관된 사본(링크)
  2. ^ Jansen, B. J.와 McNeese, M. D. 2005.IR 시스템에서 자동화된 지원을 통한 상호작용의 효과패턴 평가.미국정보과학기술학회지. 56(14) 1480-1503
  3. ^ 켈리, 다이앤, 제이미 티반."사용자의 선호도를 유추하기 위한 피드백: 참고 문헌"ACM SIGIR 포럼.제37권2번 ACM, 2003.
  4. ^ "Archived copy" (PDF). haystack.lcs.mit.edu. Archived from the original (PDF) on 11 June 2007. Retrieved 12 January 2022.{{cite web}}: CS1 maint: 타이틀로 보관된 사본(링크)
  5. ^ Jinxi Shu와 W. Bruce Croft, 1996년 제 19회 정보 검색 연구 개발 국제 ACM SIGIR 회의의 Processions에서 지역 및 글로벌 문서 분석을 이용한 쿼리 확장.
  6. ^ 2010년 제33회 정보 검색 연구 및 개발에 관한 국제 ACM SIGIR 회의(Proceedings of International ACM SIGIR Conference of Information Research, SIGIR)에서 유사성 피드백위한 위치 관련 모델인 위안화 Lv와 청샹 자이.

추가 읽기