평가조치(정보검색)

Evaluation measures (information retrieval)

정보검색시스템대한 평가방안은 검색결과가 사용자의 질의 의도를 얼마나 잘 만족시켰는지를 평가하는 데 사용된다. 이러한 지표는 종종 종류로 나뉘는데, 온라인 지표는 사용자의 검색 시스템과의 상호작용을 보는 반면, 오프라인 지표는 관련성을 측정하는 것이다. 즉, 각 결과의 가능성 또는 검색 엔진 결과 페이지(SERP) 전체가 사용자의 정보 요구를 충족시킬 수 있는 가능성을 측정한다.

표기법

아래 공식에 사용된 수학 기호는 다음을 의미한다.

  • - 교차로 - 이 경우 X와 Y 세트 모두에서 문서 지정
  • X - 카디널리티 - 이 경우, 집합 X에 있는 문서 수
  • - 통합
  • - 합계
  • - 대칭 차이

온라인 메트릭

온라인 메트릭스는 일반적으로 검색 로그에서 생성된다. 측정 기준은 종종 A/B 테스트의 성공 여부를 결정하는 데 사용된다.

세션 포기율

세션 포기율은 클릭이 발생하지 않는 검색 세션의 비율이다.

클릭율

클릭율(Ctrl-Through Rate, Ctrl)은 페이지, 이메일 또는 광고를 보는 총 사용자 수에 대한 특정 링크를 클릭하는 사용자의 비율이다. 그것은 이메일 캠페인의 효과뿐만 아니라 특정 웹사이트에 대한 온라인 광고 캠페인의 성공을 측정하는 데 일반적으로 사용된다.[1]

세션 성공률

세션 성공률은 성공을 이끄는 사용자 세션의 비율을 측정한다. "성공"을 정의하는 것은 종종 상황에 따라 다르지만, 검색의 경우 성공적인 결과는 종종 2차 사용자 상호작용과 함께 1차 요인으로 드웰 시간을 사용하여 측정된다. 예를 들어, 결과 URL을 복사하는 사용자는 코드 조각에서 복사/붙여넣기와 같이 성공적인 결과로 간주된다.

영결과율

ZRR(Zero result rate)은 검색 엔진 결과 페이지(SERP)가 0으로 반환된 비율이다. 메트릭은 리콜 문제를 나타내거나 검색 중인 정보가 인덱스에 없는 경우.

오프라인 메트릭

오프라인 지표는 일반적으로 판사들이 검색 결과의 품질을 평가하는 관련성 판단 세션에서 만들어진다. 이진수(관련/관련되지 않음)와 다중 수준(예: 0부터 5까지의 관련성) 척도를 모두 사용하여 질의 응답으로 반환된 각 문서의 점수를 매길 수 있다. 실제로 질의가 잘못될 수 있고, 관련성의 다른 그늘이 있을 수 있다. 예를 들어, "mars"라는 질의에는 모호함이 있다: 판사는 사용자가 화성, 화성 초콜릿 바 또는 가수 Bruno Mars를 찾고 있는지 알지 못한다.

정밀도

정밀도는 검색된 문서의 일부로서 사용자의 정보 필요성과 관련이 있다.

이항분류에서 정밀도는 양의 예측값과 유사하다. 정밀도는 검색된 모든 문서를 고려한다. 또한 정밀도@k를 사용하여 시스템에서 반환한 최상위 결과만 고려하여 평가할 수 있다.

정보 검색 분야에서 "정밀"의 의미와 사용은 과학과 통계학의 다른 분야 내에서의 정확성과 정밀성의 정의와 다르다는 점에 유의한다.

리콜

리콜은 성공적으로 검색된 쿼리와 관련된 문서의 일부분이다.

이항분류에서 리콜은 흔히 민감도(sensitivity)라고 불린다. 따라서 질의에 의해 관련 문서가 검색될 확률로 볼 수 있다.

어떤 질의에 응하여 모든 문서를 반납함으로써 100% 리콜을 달성하는 것은 사소한 일이다. 따라서 회수만으로는 충분하지 않지만, 예를 들어 정밀도를 계산하여 관련 없는 문서의 수를 측정할 필요가 있다.

빠짐

사용 가능한 모든 관련 없는 문서 중 검색되는 관련 없는 문서의 비율:

2진수 분류에서 탈락은 특수성과 밀접한 관련이 있으며(- 스타일과 같다 관련되지 않은 문서가 쿼리에 의해 검색될 확률로 볼 수 있다.

어떤 질의에 응답하여 0의 문서를 반환함으로써 0%의 하락을 달성하는 것은 사소한 일이다.

F-점수 / F-측정

정밀도와 회수율의 가중 조화 평균, 전통적인 F-측정 또는 균형 F-점수는 다음과 같다.

이것은 과 정밀도가 고르게 가중되기 F 1} 측정치라고도 한다.

음이 아닌 실제 에 대한 일반적인 공식은 다음과 같다.

그 밖에 일반적으로 사용되는 두 가지 F 측정치는 정밀도보다 두 배 더 무게가 되는 2{\ 스타일 . 회수보다 정밀도가 두 배 더 높은 .5 스타일 이다.

F 측정은 Van Rijsbergen(1979)에 의해 도출되어 을(를) 정밀하게 리콜해야 할 중요도의 배만큼 부착한 사용자에 대해 검색의 효과를 측정한다." 리즈베르겐의 효과 측정 = 1- P+ - R 에 근거한다 이들의 관계는 다음과 같다.

= - 여기서 = + {

F 측정은 정밀도와 회수율과 비교했을 때 더 나은 단일 측정 기준이 될 수 있다. 정밀도와 회수율 모두 결합했을 때 서로 보완할 수 있는 서로 다른 정보를 제공한다. 둘 중 하나가 다른 한 쪽보다 뛰어나면 F-measurement가 이를 반영한다.[citation needed]

평균정밀도

정밀도 및 리콜은 시스템에서 반환한 전체 문서 목록을 기반으로 하는 단일 값 측정 기준이다. 서열화된 문서의 순서를 반환하는 시스템의 경우, 반환된 문서가 제시되는 순서도 고려하는 것이 바람직하다. 문서 순서의 모든 위치에서 정밀도와 리콜을 계산함으로써, 정밀도 ( 을(를 r {\ r}의 함수로 플로팅하여 정밀도 곡선을 그릴 수 있다 평균 정밀도는 ( 평균값을 계산한다.= ~ = 1 [2]

그것은 정밀-리콜 곡선 아래의 영역이다. 이 통합은 실제로 문서 순서의 모든 위치에 걸쳐 유한한 합으로 대체된다.

여기서 (는) 검색된 문서의 수, (는) 검색된 문서의 수, ) 목록에서 컷오프 의 정밀도, k 은 항목 k에서 회수 변경이다. to k k[2]

이 유한금액은 다음과 같다.

여기서 ( k) {\ 은 순위 에 있는 항목이 관련 문서인 경우 1을 나타내는 지표 함수 그렇지 않으면 0이다.[3] 평균은 모든 관련 문서를 초과하며 검색되지 않은 관련 문서는 0의 정밀 점수를 얻는다.

일부 저자는 곡선에서 "위글"의 영향을 줄이기 위해 ( 함수를 보간하기로 선택한다.[4][5] 예를 들어, 2010년까지[6] PASCAL Visual Object Classions 챌린지(컴퓨터 비전 개체 감지 벤치마크)는 균등하게 간격을 두고 일련의 리콜 수준에 대한 정밀도를 평균하여 평균 정밀도를 계산했다.[4][5]

여기서 ( ) 은(는) 보다 큰 모든 리콜에 대해 최대 정밀도를 취하는 보간 정밀도다

r

대안은 기본 결정 값에 대한 특정 모수 분포를 가정하여 분석 ( 함수를 도출하는 것이다. 예를 들어, 이항 정밀도-호출 곡선은 두 등급의 결정 값이 가우스 분포를 따르도록 가정하여 얻을 수 있다.[7]

k에서의 정밀도

현대적(웹 스케일) 정보 검색의 경우, 많은 쿼리들이 수천 개의 관련 문서를 가지고 있고, 그 모든 문서를 읽는 데 관심을 갖는 사용자는 거의 없을 것이기 때문에, 리콜은 더 이상 의미 있는 메트릭스가 아니다. k 문서의 정밀도(P@k)는 여전히 유용한 지표(예: P@10 또는 "10의 정밀도"는 검색된 상위 10개 문서 중 관련 결과의 수에 해당함)이지만 상위 k 중 관련 문서의 위치는 고려하지 않는다.[8] 또 다른 단점은 k보다 관련 결과가 적은 질의에서는 완벽한 시스템이라도 1점 미만이 된다는 것이다.[9] 관련성 여부를 판단하려면 상위 k개 결과만 검사하면 되기 때문에 수작업으로 채점이 용이하다.

R-정밀

R-정밀은 질의와 관련된 모든 문서를 알아야 한다. 관련 문서 수 {\ 계산을 위한 컷오프(cut off)로 사용되며, 이는 쿼리마다 다르다. 예를 들어 말뭉치(R=15)에 "빨간색"과 관련된 문서가 15개 있는 경우, "빨간색"에 대한 R-정밀은 반환된 상위 15개 문서를 보고 관련 r 이() 관련성 부분으로 전환되는 를 계산한다. r /R = / r[10]

R-정밀은 R-th 위치에서 회수하는 것과 같다.[9]

경험적으로, 이 측정치는 종종 평균 정밀도와 높은 상관관계를 가진다.[9]

평균 평균 정밀도

쿼리 집합에 대한 평균 평균 정밀도(MAP)는 각 쿼리의 평균 정밀도 점수의 평균이다.

여기서 Q는 쿼리 수입니다.

할인누적차익

용어와 파생어
혼돈의 행렬에서.
조건 양극(P)
데이터의 실제 양성 사례 수
조건 음수(N)
데이터의 실제 음성 사례 수

참 양성(TP)
상태 또는 특성이 있음을 정확하게 나타내는 테스트 결과
참 음수(TN)
조건이나 특성이 없음을 정확하게 나타내는 시험 결과
거짓 양성(FP)
특정 조건 또는 속성이 있음을 잘못 나타내는 검사 결과
거짓 음성(FN)
특정 조건 또는 속성이 없음을 잘못 나타내는 검사 결과

감도, 회수, 적중률 또는 참 양성률(TPR)
특수성, 선택성 또는 실제 음률(TNR)
정밀도 또는 양의 예측 값(PPV)
음의 예측 값(NPV)
잘못된 비율 또는 잘못된 음수 비율(FNR)
탈락 또는 거짓 양성률(FPR)
FDR(False Discovery Rate)
거짓 누락률(FOR)
양의 우도비(LR+)
음우도비(LR-)
유병 임계값(PT)
위협 점수(TS) 또는 중요 성공 지수(CSI)

유병률
정확도(ACC)
균형적 정확도(BA)
F1 점수
정밀도감도조화 평균:
phi 계수φ 또는 r) 또는 Matthews 상관 계수(MCC)
폴크스-말라우스 지수(FM)
정보 제공 또는 북메이커 정보 제공(BM)
표시(MK) 또는 델타P(Δp)
진단 오즈비(DOR)

출처: 포셋(2006년),[11] 피리오네이와 엘디라비(2020년),[12] 파워스(2011년),[13] 팅(2011년),[14] CAWCR,[15] D. 치코&G. 쥬먼(2020년, 2021년),[16][17] 타르왓(2018년) 등이다.[18]

DCG는 결과 집합에서 문서의 유용성 또는 이득에 대한 평가를 위해 결과 목록의 위치를 기준으로 문서의 단계별 관련성 척도를 사용한다. DCG의 전제는 검색 결과 목록에서 낮은 것으로 보이는 관련성이 높은 문서는 등급화된 관련성이 결과의 위치에 비례하여 로그적으로 감소함에 따라 불이익을 받아야 한다는 것이다.

특정 순위 위치 에서 누적된 DCG는 다음과 같이 정의된다.

결과 집합은 서로 다른 쿼리 또는 시스템 간에 크기가 다를 수 있으므로, 성능을 비교하기 위해 DCG의 정규화된 버전은 이상적인 DCG를 사용한다. 이를 위해 결과 목록의 문서를 관련성별로 정렬하여 p 위치( p 에서 이상적인 DCG를 생성하여 점수를 정규화한다.

모든 쿼리에 대한 nDCG 값의 평균을 구하여 순위 알고리즘의 평균 성능을 측정할 수 있다. 완벽한 순위 알고리즘에서 G 1.0의 nDCG를 생성하는 I D {\와 동일하다는 점에 유의하십시오 모든 nDCG 계산은 0.0~1.0 구간에서 상대 값이 되며 교차 쿼리가 비교 가능하다.

기타조치

시각화

정보 검색 성능의 시각화에는 다음이 포함된다.

비메트릭스

상위 쿼리 목록

상위 쿼리는 정해진 시간에 걸쳐 가장 일반적인 쿼리를 언급하고 있다. 상위 쿼리 목록은 사용자가 입력한 쿼리 스타일을 파악하는 데 도움이 된다.

비관련성 메트릭

시간당 쿼리 수

검색 시스템에 대해 얼마나 많은 쿼리(월/일/시/분/초)가 수행되는지 측정하면 검색 시스템의 활용률이 추적된다. 이는 진단에 사용되어 쿼리의 예기치 않은 스파이크를 나타내거나 쿼리 지연 시간과 같은 다른 메트릭과 비교할 때 기준선으로 사용할 수 있다. 예를 들어 쿼리 트래픽의 스파이크를 쿼리 지연 시간의 스파이크를 설명하기 위해 사용할 수 있다.

참고 항목

참조

  1. ^ 미국 마케팅 협회 사전 [1] 2012-11-02 검색됨. MASB(Marketing Accountability Standards Board)마케팅 프로젝트에서 진행 중인 공통 언어의 일부로 이 정의를 지지한다.
  2. ^ a b Zhu, Mu (2004). "Recall, Precision and Average Precision" (PDF). Archived from the original (PDF) on 2011-05-04. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  3. ^ Turpin, Andrew; Scholer, Falk (2006). User performance versus precision measures for simple search tasks. Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Seattle, WA, August 06–11, 2006). New York, NY: ACM. pp. 11–18. CiteSeerX 10.1.1.533.4100. doi:10.1145/1148170.1148176. ISBN 978-1-59593-369-0. S2CID 9810253.
  4. ^ a b Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John; Zisserman, Andrew (June 2010). "The PASCAL Visual Object Classes (VOC) Challenge" (PDF). International Journal of Computer Vision. 88 (2): 303–338. doi:10.1007/s11263-009-0275-4. hdl:20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6. S2CID 4246903. Archived from the original (PDF) on 2011-11-20. Retrieved 2011-08-29.
  5. ^ a b Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introduction to Information Retrieval. Cambridge University Press.
  6. ^ "The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Development Kit". host.robots.ox.ac.uk. Retrieved 2019-03-23.
  7. ^ K.H. Brodersen, C.S. 옹, K.E. Stephan, J.M. Buhmann(2010) 정밀-리콜 곡선에 대한 이항 가정 2012년 12월 8일 웨이백 기계보관. 제20차 패턴인식 국제회의 진행, 4263-4266.
  8. ^ Kalervo, J~irvelin (2017). "IR evaluation methods for retrieving highly relevant documents" (PDF). ACM SIGIR Forum. 51, 2: 243–250.
  9. ^ a b c Christopher D. Manning; Prabhakar Raghavan & Hinrich Schütze (2009). "Chapter 8: Evaluation in information retrieval" (PDF). Retrieved 2015-06-14. 정보 검색 소개 일부 [2]
  10. ^ a b c d e http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf
  11. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  12. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  13. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  14. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  15. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  16. ^ Chicco D.; Jurman G. (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  17. ^ Chicco D.; Toetsch N.; Jurman G. (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  18. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  19. ^ C. Lioma; J. G. Simonsen; B. Larsen (2017). "Evaluation Measures for Relevance and Credibility in Ranked Lists" (PDF). 정보검색 이론에 관한 ACM SIGIR 국제회의의 진행, 91-98.