관련성(정보 검색)
Relevance (information retrieval)정보 과학과 정보 검색에서 관련성은 검색된 문서나 문서 세트가 사용자의 정보 요구를 얼마나 잘 충족시키는지 나타낸다.관련성에는 적시성, 권한 또는 결과의 새로움과 같은 우려가 포함될 수 있다.
역사
관련 정보를 찾는 문제에 대한 우려는 적어도 17세기 과학저널의 첫 발행으로 거슬러 올라간다.[citation needed]
관련성에 대한 공식적인 연구는 20세기 이후에 어떤 것이 도서측정학이라고 불릴지에 대한 연구와 함께 시작되었다.1930년대와 1940년대에 S. C. 브래드포드는 주제(cf, 브래드포드의 법칙)와 관련된 기사를 특징짓기 위해 "관련"이라는 용어를 사용했다.1950년대에 최초의 정보 검색 시스템이 등장했고, 연구자들은 관련 없는 기사의 검색이 중요한 관심사라고 언급했다.1958년, B. C. 비커리는 국제 과학 정보 회의의 연설에서 관련성의 개념을 분명히 했다.[1]
1958년부터 정보과학자들은 관련성의 정의를 탐구하고 토론해왔다.토론의 특별한 초점은 "주제와의 관련성" 또는 "주제적 관련성"과 "사용자 관련성"[1]의 구별이었다.
평가하기
정보검색계는 1960년대 초의 크랜필드 실험에서 시작해 오늘날까지 정보검색 연구의 주요 평가 틀로 이어지는 TREC 평가에서 정점을 찍는 등, 주제적 관련성을 측정하기 위한 시험집과 벤치마크 과제의 활용을 강조해 왔다.[2]
정보 검색 시스템이 위상적으로 관련된 결과를 얼마나 잘 검색했는지를 평가하기 위해서는, 검색된 결과의 관련성을 정량화해야 한다.Cranfield-style 평가에서, 이것은 일반적으로 검색된 각 결과에 관련성 수준, 즉 관련성 평가라고 알려진 프로세스를 할당하는 것을 포함한다.관련성 수준은 이진수(결과가 관련성이 있거나 관련이 없음을 나타냄) 또는 등급(결과가 결과의 주제와 정보의 필요성 사이에 서로 다른 정도의 일치도를 가지고 있음)일 수 있다.검색된 결과에 관련성 수준이 할당되면 정보 검색 성과 측정치를 사용하여 검색 시스템의 출력 품질을 평가할 수 있다.
이러한 주제적 관련성에만 초점을 맞춘 것과는 대조적으로 정보과학계는 사용자 관련성을 고려하는 사용자 연구를 강조해 왔다.[3]이러한 연구는 종종 인간과 컴퓨터의 상호작용 측면에 초점을 맞춘다(인간과 컴퓨터 정보 검색 참조).
클러스터링 및 관련성
1979년 C. J. 반 리즈베르겐이 제안한 군집 가설은 서로 유사한 두 개의 문서가 동일한 정보 필요성에 관련될 가능성이 높다고 주장한다.내재된 유사성 공간과 관련하여, 군집 가설을 전역 또는 로컬로 해석할 수 있다.[4]글로벌 해석은 문서간 유사성에서 도출된 몇 가지 고정된 기본 주제 집합이 존재한다고 가정한다.이러한 글로벌 클러스터 또는 그 대리인은 두 문서의 관련성을 연관시키는 데 사용될 수 있다(예: 동일한 클러스터에 있는 두 문서는 모두 동일한 요청에 관련되어야 한다).이러한 정신의 방법에는 다음이 포함된다.
- 클러스터 기반 정보 검색[5][6]
- 잠재 의미 분석 또는 언어 모델링 등가물과 같은 클러스터 기반 문서 확장.[7]클러스터는 격리되거나 조합되어 있을 때 가능한 관련 문서 세트를 성공적으로 모델링하는 것이 중요하다.
엘렌 보오르헤스에 의해 가장 두드러지게 진전된 두 번째 해석은 문서들 사이의 지역적 관계에 초점을 맞추고 있다.[8]국지적 해석은 집합에 있는 군집의 수나 크기를 모형화할 필요가 없으며 다중 척도로 목적적합성을 허용한다.이러한 정신의 방법에는 다음이 포함된다.
현지 방법은 정확하고 적절한 문서 유사성 측정이 필요하다.
문제 및 대안
가장 관련성이 높은 문서는 반드시 검색 결과의 첫 페이지에 표시하는데 가장 유용한 문서는 아니다.예를 들어, 두 개의 중복된 문서는 개별적으로 상당히 관련성이 있는 것으로 간주될 수 있지만, 그 중 하나만 표시하는 것이 유용하다.이러한 단점을 극복하기 위해 "최대 한계 관련성"(MMR)이라는 방안이 제시되었다.그것은 각 문서의 관련성을 이전 결과를 얼마나 많은 새로운 정보를 제공하느냐의 관점에서만 고려한다.[13]
어떤 경우에는 질의가 모호한 해석이나 다양한 잠재적 반응을 가질 수 있다.결과 집합의 효용성을 평가할 때 결과의 다양성을 제공하는 것이 고려사항이 될 수 있다.[14]
참고 항목
참조
- ^ a b Mizzaro, Stefano (1997). "Relevance: The whole history" (PDF). Journal of the American Society for Information Science. 48 (9): 810–832. doi:10.1002/(SICI)1097-4571(199709)48:9<810::AID-ASI6>3.0.CO;2-U.
- ^ Sanderson, P. Clough, M. (2013-06-15). "Evaluating the performance of information retrieval systems using test collections". informationr.net. Retrieved 2020-05-28.
- ^ Yunjie, Xu (2006). "Relevance judgment: What do information users consider beyond topicality?". Journal of the American Society for Information Science and Technology. 57 (7): 961–973. doi:10.1002/asi.20361.
- ^ F. Diaz, 자기 상관 및 쿼리 기반 검색 점수의 정규화.박사학위 논문, MA, Amherst, MA, 2008년 2월 3장.
- ^ Croft, W.Bruce (1980). "A model of cluster searching based on classification". Information Systems. 5 (3): 189–195. doi:10.1016/0306-4379(80)90010-1.
- ^ a b Griffiths, Alan; Luckhurst, H. Claire; Willett, Peter (1986). "Using interdocument similarity information in document retrieval systems" (PDF). Journal of the American Society for Information Science. 37: 3–11. doi:10.1002/(SICI)1097-4571(198601)37:1<3::AID-ASI1>3.0.CO;2-O.
- ^ X. 류와 W. B. 크로프트, SIGIR '04: 정보 검색에 관한 연구 및 개발에 관한 제27차 연례 국제 회의의 진행 (뉴욕, 뉴욕, 미국), 페이지 186–193, ACM Press, 2004.
- ^ a b E. M. Voorhees, "클러스터 가설 재방문" SIGIR '85: 정보 검색에 관한 연구 및 개발에 관한 제8차 연례 ACM SIGIR 회의의 진행, (뉴욕, 뉴욕, 미국), 188–196, ACM Press, 1985.
- ^ S. Preece, 정보 검색을 위한 확산 활성화 네트워크 모델.1981년 일리노이 대학교 어바나 샴페인 박사 논문.
- ^ T. 진, T.Y. 류, X.D.장, Z.Chen, W.-Y. Ma, SIGIR '05: 정보 검색 연구 개발에 관한 제28차 연례 ACM SIGIR 회의의 진행 (뉴욕, 뉴욕, 미국), 408–415, ACM Press, 2005.
- ^ A. 싱할과 F.Pereira, "음성 검색을 위한 문서 확장" SIGIR '99: 정보 검색에 관한 연구 및 개발에 관한 제22회 ACM SIGIR 연례 국제 회의의 진행, (뉴욕, 뉴욕, 미국), 34–41, ACM Press, 1999.
- ^ Qin, Tao; Liu, Tie-Yan; Zhang, Xu-Dong; Chen, Zheng; Ma, Wei-Ying (2005). "A study of relevance propagation for web search" (PDF). Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. p. 408. doi:10.1145/1076034.1076105. ISBN 1595930345.
- ^ Carbonell, Jaime; Goldstein, Jade (1998). "The use of MMR, diversity-based reranking for reordering documents and producing summaries". Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. pp. 335–336. CiteSeerX 10.1.1.50.2490. doi:10.1145/290941.291025. ISBN 978-1581130157.
- ^ "Diversity in Document Retrieval (DDR) 2012".
추가 읽기
- Hjørland, Birger (2010). "The foundation of the concept of relevance" (PDF). Journal of the American Society for Information Science and Technology. 61 (2): 217–237. doi:10.1002/asi.21261.
- 관련성 : 의사소통과 인식.Dairdre Wilson에 의해.2부.옥스퍼드; 캠브리지, MA: 블랙웰 출판사, 2001.ISBN 978-0-631-19878-9
- Saracevic, Tefko (1975). "RELEVANCE: A review of and a framework for the thinking on the notion in information science" (PDF). Journal of the American Society for Information Science. 26 (6): 321–343. doi:10.1002/asi.4630260604.
- Saracevic, Tefko (2007). "Relevance: A review of the literature and a framework for thinking on the notion in information science. Part II: Nature and manifestations of relevance" (PDF). Journal of the American Society for Information Science and Technology. 58 (13): 1915–1933. doi:10.1002/asi.20682.
- Saracevic, Tefko (2007). "Relevance: A review of the literature and a framework for thinking on the notion in information science. Part III: Behavior and effects of relevance" (PDF). Journal of the American Society for Information Science and Technology. 58 (13): 2126–2144. doi:10.1002/asi.20681.
- 사라셰비치, T. (2007)정보 과학에서의 관련성.Tennessee 대학교 정보 과학 학교에서 매년 열리는 Thomson Scientific Lazerow 기념 강연 초대.2007년 9월 19일 (영상)
- 정보 검색 소개: 평가.Stanford(PDF로 표시