채점규칙

Scoring rule
일반적인 채점 함수의 다양한 예측에 따른 예상 점수 시각화.점선 검정색 선: 예측자의 참된 믿음, 빨간색: 선형, 주황색: 구형, 보라색: 2차, 녹색: 로그.

결정 이론에서 점수 함수 또는 점수 규칙에서는 확률적 예측정확성을 측정한다.예측이 상호 배타적인 결과나 등급 집합에 확률을 할당해야 하는 과제에 적용된다.가능한 결과의 집합은 본질적으로 이항 또는 범주형일 수 있으며, 이 결과 집합에 할당된 확률은 1(각 개별 확률이 0 - 1 범위에 있는 경우)로 합해야 한다.점수는 확률론적 예측 집합의 "교정"을 나타내는 척도 또는 "비용 함수" 또는 "손실 함수"로 생각할 수 있다.

적절한 채점 규칙에 비례하여 비용이 부과되는 경우, 최소 예상 비용은 실제 확률 집합을 보고하는 것과 일치한다.예측자 또는 알고리즘이 정제되고 보정된 확률(정확한 확률)을 산출하기 위해 평균 점수를 최소화하려고 시도하는 기상학, 재무 및 패턴 분류에 적절한 점수 규칙이 사용된다.

정의

: → X G: 샘플 공간 정의된 두 개의 랜덤 변수(: 이다.V및 f : 해당 밀도(매스) 함수로, 서 Y 예측 대상 변수, G 예측 스키마에서 생성된 랜덤 변수다. y Y = y{\displaystyle }이(가 실현된 값이라고 가정하십시오. 규칙은 S: X\\\displaystyle X\time 예: ( ) 사이의 거리를 계산하는 함수다

오리엔테이션

만약 두개의 다른 확률적 예측( 같은 G{\displaystyle G}G∗{\displaystyle G^{*}}), S(G, y)>에 S(G∗, y){\displaystyle S(G,y)> S(G, y){S(G,y)\displaystyle}긍정적으로, 방향을 맞춘다.S(G^{*},y)}은 G{G\displaystyle}은 좀 더 확률론적 예상보다 의미한다. G

기대점수

예상 점수는 목표 변수의 가능한 모든 값에 대한 점수 규칙의 예상 값이다.예를 들어, 연속 랜덤 변수의 경우

예상손실

예상 점수 손실은 목표 변수에 대한 예상 점수와 예측값 간의 차이다.

예의

포지티브 오리엔테이션을 가정할 때 예상 점수 손실의 값이 가능한 모든 예측에 대해 플러스 값이면 점수 규칙은 엄격히 적절한 것으로 간주된다.다시 말해, 예측 체계가 엄격히 적절한 점수 규칙에 근거하여 목표 변수를 예측으로 제시하는 경우 가장 높은 점수를 받아야 하며, 그 반대의 경우, 즉 엄격하게 적절한 점수 규칙에 근거하여 예측 체계가 예측으로 제시되는 경우에만 가장 높은 점수를 받아야 한다.

비확률적 예측 정확도 측정

확률론적 예측 문헌에는 점수 규칙이 도입되지만, 그 정의는 평균 절대 오차나 평균 제곱 오차 같은 비확률론적 척도를 일부 특정 점수 규칙으로 고려할 정도로 일반적이다. 채점 규칙의 주요 특징은 (, y )S은(는) G 예: ( G) 의 기대값 함수일 뿐이다.

채점 규칙의 적용 예

로그 규칙

확률론적 예측의 한 예는 기상학에서 기상이 예측되며, 기상 예보관은 다음 날 비가 올 확률을 제공한다.장기간에 걸쳐 25% 확률로 인용된 횟수를 주목할 수 있으며, 이를 비가 내린 실제 비율과 비교할 수 있다.만약 실제 퍼센트가 명시된 확률과 실질적으로 다르다면, 우리는 예측자가 제대로 보정되지 않았다고 말한다.제대로 교정되지 않은 예보관은 보너스 제도로 더 잘하도록 장려할 수 있다.적절한 채점 규칙을 중심으로 설계된 보너스 시스템은 예측자가 자신의 개인적 신념과 동일한 확률을 보고하도록 유도할 것이다.[1]

'비'나 '비가 오지 않는다'에 확률을 할당하는 것과 같은 단순한 이항 결정의 경우 이외에도 '비', '눈' 또는 '깨어진다'와 같은 여러 등급에 대해 채점 규칙을 사용할 수 있다.

오른쪽 이미지는 실제로 발생한 이벤트에 대해 보고된 확률 함수로서 점수 규칙인 로그 점수 규칙의 예를 보여준다.이 규칙을 사용하는 한 가지 방법은 예측자 또는 알고리즘이 할당하는 확률에 기반한 비용으로, 실제로 어떤 사건이 발생하는지 확인하는 것이다.

적절한 점수 매기기 규칙

사건 1이 0.8의 확률로 발생할 것으로 예상되는 경우 로그 규칙의 기대 값

확률론적 예측 변수 또는 알고리즘은 확률 벡터 를) 반환하며, 각 결과에 대한 확률은 다음과 같다. 매기기 함수의 한 가지 용도는 i 이벤트가 발생할 경우 ( r, ) 의 보상을 제공하는 것일 수 있다.적절한 채점 규칙을 사용할 경우, 실제 확률 분포를 보고하여 가장 높은 기대 보상을 얻는다.적절한 채점 규칙을 사용하는 것은 예측자가 정직하게 예상된 보상을 최대화하도록 장려한다.[2]채점규칙이 적절하다고 말하는 것은 채점규칙이 분기점이라고 말하는 것과 같다.


엄격한 채점 규칙

점수 매기기 규칙은 실제 확률만으로 고유하게 최적화(기대)된 경우 엄격히 적절하다.즉, 적절한 채점 규칙이 엄격하게 적절하지 않은 경우, 실제 확률을 예측하여 최적화되지만 다른 일부 예측 확률과 동일한 최적 값을 얻을 수 있다.이 경우에 최적화된 것은 2차, 구면 및 로그 규칙의 최대화에 해당하지만 Brier Score의 최소화에 해당된다.이것은 로그 규칙에 대한 오른쪽 영상에서 볼 수 있다.여기서 사건 1은 확률 0.8로 발생할 것으로 예상되며, 기대 점수(또는 보상)는 보고된 확률의 함수로 나타난다.기대 보상을 최대화하는 방법은 보고된 다른 모든 확률이 더 낮은 기대 점수를 산출하기 때문에 실제 확률 0.8을 보고하는 것이다.이 재산은 로그 점수가 엄격히 적절하기 때문에 보유한다.

엄격한 채점 규칙의 예

엄격한 채점 규칙의 매개 변수화된 전체 패밀리를 포함하여 채점 규칙은 무한하다.아래에 제시된 것들은 단순히 인기 있는 예일 뿐이다.

로그 점수 규칙

로그 점수 매기기 규칙은 엄격히 적절한 로컬 점수 매기기 규칙이다.이것은 또한 베이시안 추론에서 득점 기준으로 흔히 사용되는 놀라움의 부정적인 측면이기도 하다. 목표는 예상된 놀라움을 최소화하는 것이다. 채점규칙은 정보이론에서 기초가 튼튼하다.

여기서 점수는 실제 결과에 대한 확률 추정치의 로그로 계산된다.즉, 정확하게 사실로 입증된 80%의 예측은 ln(0.8) = -0.22의 점수를 받게 된다.이와 같은 예측은 또한 반대의 경우에 20%의 확률을 할당하므로 예측이 거짓으로 판명될 경우 20%: ln(0.2) = -1.6에 근거한 점수를 받게 된다.예측자의 목표는 점수를 극대화하고 가능한 한 점수가 커지도록 하는 것이며, -0.22는 실제로 -1.6보다 크다.

예측의 진실이나 거짓을 각각 값 1 또는 0을 가진 변수 x로, 표현된 확률을 p로 처리하면 로그 점수 규칙을 x ln(p) + (1 - x) ln(1 - p)로 작성할 수 있다.엄격히 적절한 채점 규칙은 선형 변환에서 엄격히 적절하므로 모든 로그 기준을 사용할 수 있다는 점에 유의하십시오.즉,

> 모든 b > 1 displaystyle b>1}.

Brier/Quadratic 점수 규칙

2차 채점 규칙은 엄격히 적절한 채점 규칙이다.

여기서 정답을 지정하는 확률이고 클래스 수입니다.

1950년 글렌 W. 브리어가 제안했던 브리어 점수는 2차 점수 규칙에서 나온 어핀 변환으로 얻을 수 있다.[3]

= j th 이벤트가 올바르고 = 0 C {\(가 클래스 수입니다.

이 두 규칙의 중요한 차이점은 예측자가 2차 점수를 최대화하기 위해 노력하되 브리어 점수를 최소화해야 한다는 것이다.이는 그들 사이의 선형 변환에 부정적인 기호가 있기 때문이다.

히바린 득점 규칙

(밀도 p의) Hybarinen 채점 함수는 다음과[4] 같이 정의된다.

그것은 매개변수 추론을 계산적으로 단순화하고 베이지안 모델 비교를 임의의 vague priors와 다루는데 사용될 수 있다.[4][5]기존의 정보이론을 넘어 새로운 정보이론적 수량을 도입하는 데도 사용되었다.[6]

구면 채점 규칙

구면 채점 규칙도 엄격히 적절한 채점 규칙이다.

연속 순위 확률 점수

연속 순위 확률 점수(CRPS)[7]는 기상학에서 많이 사용되는 엄격히 적절한 점수 규칙이다.로 정의된다.

여기서 F는 예측 이고 R 관측치 입니다.

적절한 채점 규칙의 해석

모든 적절한 채점 규칙은 확률론적 예측을 사용하는 단순한 2대체 의사결정 문제 집합에서 손실에 대한 가중 합계(부정 가중 기능과 통합됨)와 동일하며, 각 그러한 결정 문제는 거짓 긍정적이고 잘못된 부정 결정에 대한 관련 비용 매개변수의 특정한 조합을 갖는다.엄격히 적절한 채점 규칙은 가능한 모든 결정 임계값에 대해 0이 아닌 가중치를 갖는 것에 해당한다.주어진 적절한 채점 규칙은 결정 임계값을 초과하는 특정 확률 분포와 관련하여 예상 손실과 동일하므로, 점수 규칙의 선택은 예를 들어 예측 확률을 궁극적으로 채택할 의사결정 문제의 확률 분포에 대한 가정에 해당한다.결정 임계값이 0과 1 사이의 어느 곳에나 있을 수 있는 균일한 확률에 해당하는 2차 손실(또는 Brier) 점수 규칙.예측 확률이 0.5의 적절한 쪽에 있는지 여부에 따라 0이거나 1인 1임시 점수 규칙인 분류 정확도 점수(백분율 정확하게 분류됨)는 적절한 점수 규칙이지만, 실제 확률을 예측함으로써 최적화되기 때문에 엄격하게 적절한 점수 규칙이 아니다.그러나 0.5의 같은 쪽에 있는 모든 확률을 실제 확률로 예측함으로써.[8][9][10][11][12][13]

엄격한 채점 규칙의 비교

아래 왼쪽에 보이는 것은 이항분류 문제에 대한 로그, 2차, 구면 채점 규칙을 그래픽으로 비교한 것이다.x축은 실제로 발생한 사건에 대해 보고된 확률을 나타낸다.

각 점수는 규모와 위치가 다르다는 점에 유의해야 한다.그러나 평가점수는 부속변환 하에서 적정하게 유지되기 때문에 그 정도 차이는 관련이 없다.따라서 다른 점수를 비교하기 위해서는 공통 척도로 옮겨야 한다.모든 점수가 점(0.5,0)과 (1,1)을 교차하는 오른쪽 그림에 정상화의 합리적인 선택이 표시된다.이를 통해 균일한 분포에 대해 0(각각 0.5의 확률 2개)을 산출할 수 있으며, 이는 종종 기준선 분포인 것을 보고하는 비용이나 보상이 반영되지 않는다.또한 아래의 모든 정규화된 점수는 실제 등급에 1의 확률이 할당될 때 1을 산출한다.

로그(파란색), 구면(녹색), 2차(빨간색)를 표시하는 참 클래스에 대한 이항 분류 점수
로그(파란색), 구면(녹색), 2차(빨간색)를 표시하는 트루 클래스에 대한 2진수 분류의 정규화된 점수

특성.

아핀 변환

아핀 변환 후 바이너리든 멀티클라스든 엄격히 적절한 채점 규칙은 엄격히 적절한 채점 규칙으로 남아 있다.[1]즉, 만일 S{S(\mathbf{r},i)\displaystyle}은 순전히 적절한 채점 규칙 다음 b≠ 0{\displaystyle b\neq 0}과+bS(r, 나는){\displaystyle a+bS(\mathbf{r},i)}(r, 나는)은 또한 전적으로 적절한 채점 규칙, 그래도 b<>;그 점수를 받은 지내의 0{\displaystyle b<0} 다음 최적화 감각이 있다.sw 르최대화와 최소화의 중간을 가리킨다.

지역성

특정 사건의 확률에 대한 추정치가 해당 사건의 확률에만 의존하는 경우 적절한 점수 규칙은 국부적이라고 한다.이 진술은 대부분의 설명에서 모호하지만, 대부분의 경우 "특정 사건에서" 채점 문제의 최적 해결책은 해당 사건의 확률을 변경하지 않는 관측치 분포의 모든 변화에 불변하는 것으로 생각할 수 있다.발생하지 않은 이벤트에 할당된 확률은 결정되므로 변동할 유연성이 없기 때문에 모든 2진점수는 국부적이다.

로그 점수 규칙의 부속 기능은 2진수가 아닌 유한 집합에서 엄격히 적절한 로컬 점수 규칙이다.

분해

적절한 채점 S S}의 기대값은 불확실성, 신뢰성분해능이라는 세 가지 구성요소의 합으로 분해될 수 있으며,[14][15] 이는 확률론적 예측의 서로 다른 속성의 특성을 나타낸다.

만약 점수가 적절하고 부정적인 방향(예: 브리어 스코어)이라면, 세 용어 모두 긍정적이다.불확실성 구성요소는 평균 사건 빈도를 지속적으로 예측하는 예측의 예상 점수와 동일하다.신뢰성 구성요소는 예측 확률이 사건 빈도와 일치하지 않는 잘못 보정된 예측에 불이익을 준다.

개별 구성요소에 대한 방정식은 특정 채점 규칙에 따라 달라진다.브리어 스코어의 경우 다음과 같이 주어진다.

where is the average probability of occurrence of the binary event , and is the conditional event probability, given , i.e.

참고 항목

참조

  1. ^ a b Bickel, E.J. (2007). "Some Comparisons among Quadratic, Spherical, and Logarithmic Scoring Rules" (PDF). Decision Analysis. 4 (2): 49–65. doi:10.1287/deca.1070.0089.
  2. ^ Gneiting, Tilmann; Raftery, Adrian E. (2007). "Strictly Proper Scoring Rules, Prediction, and Estimation". Journal of the American Statistical Association. 102 (447): 359–378. doi:10.1198/016214506000001437. S2CID 1878582.
  3. ^ Brier, G.W. (1950). "Verification of forecasts expressed in terms of probability" (PDF). Monthly Weather Review. 78 (1): 1–3. Bibcode:1950MWRv...78....1B. doi:10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2.
  4. ^ a b Hyvärinen, Aapo (2005). "Estimation of Non-Normalized Statistical Models by Score Matching". Journal of Machine Learning Research. 6 (24): 695–709. ISSN 1533-7928.
  5. ^ Shao, Stephane; Jacob, Pierre E.; Ding, Jie; Tarokh, Vahid (2019-10-02). "Bayesian Model Comparison with the Hyvärinen Score: Computation and Consistency". Journal of the American Statistical Association. 114 (528): 1826–1837. arXiv:1711.00136. doi:10.1080/01621459.2018.1518237. ISSN 0162-1459. S2CID 52264864.
  6. ^ Ding, Jie; Calderbank, Robert; Tarokh, Vahid (2019). "Gradient Information for Representation and Modeling". Advances in Neural Information Processing Systems. 32: 2396–2405.
  7. ^ Zamo, Michaël; Naveau, Philippe (2018-02-01). "Estimation of the Continuous Ranked Probability Score with Limited Information and Applications to Ensemble Weather Forecasts". Mathematical Geosciences. 50 (2): 209–234. doi:10.1007/s11004-017-9709-7. ISSN 1874-8953.
  8. ^ 레너드 J. 새비지개인적 확률과 기대의 도출.미국 통계청의 J.연관, 66(336):783–801, 1971.
  9. ^ 셰르비시, 마크 J. (1989년)."확률 평가자 비교를 위한 일반 방법", 통계 17(4) 1856–1879, https://projecteuclid.org/euclid.aos/1176347398
  10. ^ Rosen, David B. (1996). "How good were those probability predictions? The expected recommendation loss (ERL) scoring rule". In Heidbreder, G. (ed.). Maximum Entropy and Bayesian Methods (Proceedings of the Thirteenth International Workshop, August 1993). Kluwer, Dordrecht, The Netherlands. CiteSeerX 10.1.1.52.1557.
  11. ^ 롤스턴, M. S. & Smith, L. A. (2002)정보이론을 이용한 확률론적 예측 평가.월간 날씨 리뷰, 130, 1653–1660.부록 "기술 점수 및 비용 손실"을 참조하십시오.[1]
  12. ^ "이항 등급 확률 추정 및 분류를 위한 손실 함수:구조와 응용 프로그램", Andreas Buja , Werner Stuetzle , 이선(2005) http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.184.5203
  13. ^ 에르난데스-오랄로, 호세, 플라크, 베드로, 그리고 페리, 세자르(2012년)."성능 메트릭스에 대한 통합 뷰:임계값 선택을 예상 분류 손실로 변환." 기계 학습 연구 저널 13 2813–2869. http://www.jmlr.org/papers/volume13/hernandez-orallo12a/hernandez-orallo12a.pdf
  14. ^ Murphy, A.H. (1973). "A new vector partition of the probability score". Journal of Applied Meteorology. 12 (4): 595–600. Bibcode:1973JApMe..12..595M. doi:10.1175/1520-0450(1973)012<0595:ANVPOT>2.0.CO;2.
  15. ^ Bröcker, J. (2009). "Reliability, sufficiency, and the decomposition of proper scores" (PDF). Quarterly Journal of the Royal Meteorological Society. 135 (643): 1512–1519. arXiv:0806.0813. Bibcode:2009QJRMS.135.1512B. doi:10.1002/qj.456. S2CID 15880012.

외부 링크