정확성 역설

Accuracy paradox

정확도 역설예측 분석에서 분류할 때 정확도예측 모델에 대한 좋은 척도가 아니라는 역설적인 발견이다.단순한 모델은 정확도는 높지만 너무 조잡해서 유용하지 않을 수 있기 때문이다.예를 들어, 범주 A의 발생률이 우세한 경우, 99%의 사례에서 발견되는 경우, 모든 사례가 범주 A라고 예측하는 것은 99%의 정확도를 가질 것이다.이런 경우에는 정밀도와 리콜이 더 나은 조치다.[1][2]근본적인 문제는 양극단과 음극계급 사이에 계급 불균형이 존재한다는 것이다.[3]이러한 등급에 대한 사전 확률은 오류 분석에서 설명해야 한다.정밀도와 리콜이 도움이 되지만, 정밀도 역시 시험 세트의 불균형한 등급 전수에 의해 편향될 수 있다.

예측된
계급
실급
테러리스트 아니다
테러범
합계
테러리스트 10 0 10
테러리스트가 아니다. 990 999000 999990
합계 1000 999000 1000000

예를 들어, 백만 명의 사람들이 사는 도시에는 10명의 테러리스트가 있다.프로파일링 시스템은 위의 혼란 매트릭스를 초래한다.비록 정확성은 떨어지지만10 + 999000/1000000 ≈ 99.9%, 긍정 예측 1000개 중 990개가 부정확하다.10/10 + 990 = 1%의 정밀도를 보면 저조한 성적을 알 수 있다.등급이 너무 불균형하기 때문에 F1 점수 = 2 × 0.01 × 1/0.01 + 1 2 2% (리콜은 10 + 0/10 = 1)가 더 나은 측정 기준이다.

참조

  1. ^ Abma, B. J. M. (10 September 2009), Evaluation of requirements management tools with support for traceability-based change impact analysis (PDF), University of Twente, pp. 86–87
  2. ^ Valverde-Albacete; Carillo-de-Albornoz; Peláez-Moreno (2013), "A Proposal for New Evaluation Metrics and Result Vizualization Technique for Sentiment Analysis Tasks", Information Access Evaluation. Multilinguality, Multimodality, and Visualization, Springer, ISBN 9783642408021
  3. ^ Afonja, Tejumade (2017-12-08). "Accuracy Paradox". Towards Data Science. Retrieved 2019-03-15.