브리어 점수
Brier score브리어 스코어는 확률론적 예측의 정확성을 측정하는 엄격히 적절한 점수 함수 또는 엄격하게 적절한 점수 규칙이다. 일차원 예측의 경우 예측 확률에 적용되는 평균 제곱 오차와 엄격히 동일하다.
Brier 점수는 예측이 상호 배타적인 이산 결과 또는 등급 집합에 확률을 할당해야 하는 과제에 적용된다. 가능한 결과의 집합은 본질적으로 이항 또는 범주형일 수 있으며, 이 결과 집합에 할당된 확률은 1(각 개별 확률이 0 - 1 범위에 있는 경우)로 합해야 한다. 그것은 1950년에 글렌 W. 브리어가 제안한 것이다.[1]
브리어 점수는 비용 함수로 생각할 수 있다. 더 정확히 말하자면, 항목에서 N 예측 집합에서 Brier 점수는 다음 사이의 평균 제곱 차이를 측정한다.
- 항목 i의 가능한 결과에 할당된 예측 확률
- 결과
따라서 브리어 점수가 예측 집합에 대해 낮을수록 예측값이 더 잘 보정된다. Brier 점수는 가장 일반적인 공식에서 0과 1 사이의 값을 취하는데, 이는 예측 확률(0과 1 사이여야 함) 사이의 가능한 가장 큰 차이와 실제 결과(0 또는 1의 값만 차지할 수 있음)의 제곱이기 때문이다. 브리어 점수의 원래(1950년) 공식에서는 0에서 2까지 범위가 2배다.
브리어 점수는 참 또는 거짓으로 구성될 수 있는 이항 및 범주형 결과에 적합하지만 3개 이상의 값을 가질 수 있는 순서형 변수에 적합하지 않다.
정의
브리어 점수의 가장 일반적인 공식은
여기서 는 예측된 확률이고, 는 발생하지 t t ( N N}에서 이벤트의 실제 결과를 예측한 수입니다.캐스팅 사례 사실상, 그것은 예측의 평균 제곱 오차다. 이 공식은 대부분 이항 사건(예: "비" 또는 "비가 오지 않음")에 사용된다. 위의 방정식은 바이너리 이벤트에 대해서만 적절한 점수 매김 규칙이며, 다중 카테고리 예측을 평가하려면 아래 브리어가 제공한 원래 정의를 사용해야 한다.
예
사람이 날에 비가 내릴을 예측하고 있다고 가정하자 그 후 브리어 점수는 다음과 같이 계산한다.
- 만약 예측이 100%( P} = 1)이고 비가 온다면 브리어 스코어는 0으로 달성 가능한 최고의 점수다.
- 만약 일기예보가 100%이고 비가 오지 않는다면, 브리어 스코어는 1로, 달성 가능한 최악의 점수다.
- 만약 예측이 70%({\} = 0.70)이고 비가 온다면 브리어 스코어는 (0.70-1) 2= 0.09이다.
- 반대로 예측이 70%( = 0.70)이고 비가 내리지 않으면 브리어 스코어는 (0.70-0)2 = 0.49이다.
- 마찬가지로 예측이 30%( = 0.30)이고 비가 오면 브리어 스코어는 (0.30-1) 2= 0.49이다.
- 예측이 50%( = 0.50)일 경우, 비가 오는지 여부와 상관없이 브리어 점수는 (0.50-1) 2= (0.50-0)2 = 0.25이다.
Brier의 원래 정의
위의 공식은 가장 널리 사용되고 있지만, Brier의[1] 원래 정의는 적절한 점수 규칙으로 남아 있을 뿐 아니라 다범주 예측에도 적용 가능한 반면, 바이너리 형식(위의 예에서 사용된 것)은 바이너리 이벤트에만 적합하다. 바이너리 예측의 경우, 브리어의 "확률 점수"의 원래 공식은 브리어 점수로 알려진 점수의 두 배 값을 가진다.
여기서 은 이벤트가 포함될 수 있는 가능한 클래스의 수이며, {\은 모든 클래스의 전체 인스턴스 수입니다. 는 클래스 에 대한 이다 i 클래스의 {\ 일 경우 1 1)이다. 비/비가 내리지 않는 경우 = 콜드/정상/온도의 경우 =
분해
Brier 점수의 분해는 이항 분류기의 행동에 대한 더 깊은 통찰력을 제공한다.
3성분 분해
Brier 점수는 다음과 같은 세 가지 첨가 성분으로 분해될 수 있다. 불확실성, 신뢰성, 해상도. (머피 1973년)[2]
이러한 각 구성 요소는 이벤트가 발생할 수 있는 가능한 클래스 수에 따라 추가로 분해될 수 있다. 등호 남용:
With being the total number of forecasts issued, the number of unique forecasts issued, the observed climatological base rate for the event to 발생, 확률 범주와 ' 관측 빈도수, { {k 대담한 표기법은 veglandaldoldollineerglctors, 이것은 점수의 원래 정의를 나타내고, 이벤트가 떨어질 수 있는 클래스의 수에 따라 그것을 분해하는 또 다른 방법이다. 예를 들어, 비가 올 확률은 70%이고 비가 오지 않을 확률은 각각 f=( 0. 0) = (과o= (, 0 = 로 표시된다. 이러한 벡터의 제곱과 곱셈과 같은 연산은 구성요소에 현명한 것으로 이해된다. 브리어 스코어는 오른쪽의 결과 벡터의 합이다.
불확실성
불확실성 용어는 사건 결과에 내재된 불확실성을 측정한다. 이진 이벤트의 경우, 각 결과가 시간의 50%씩 발생할 때 최대값이며, 결과가 항상 발생하거나 발생하지 않을 경우 최소값(0)이다.
신뢰성.
신뢰성 항은 예측이 실제 확률에 얼마나 가까운지를 측정한다. 영어와 비교했을 때 신뢰성은 반대 방향으로 정의된다. 신뢰성이 0이면 예측은 완벽하게 신뢰할 수 있다. 예를 들어 비가 올 확률이 80%로 예보된 예보 인스턴스를 모두 묶으면, 그런 예보가 발령된 후 5번 중 4번 비가 내렸을 때만 완벽한 신뢰성을 얻는다.
해상도
분해능 항은 다른 예측치를 주어진 조건부 확률이 기후 평균과 얼마나 다른지 측정한다. 이 학기가 높을수록 좋다. 최악의 경우, 기후 확률을 항상 예측할 때 분해능은 0이다. 최상의 경우 조건부 확률이 0이고 1일 때 분해능은 불확실성과 동일하다.
2성분 분해
대체(및 관련) 분해는 세 개의 항 대신 두 개의 항을 생성한다.
첫 번째 항은 교정(및 교정 척도로 사용할 수 있으며, 통계 교정 참조)으로 알려져 있으며 신뢰성과 동일하다. 두 번째 용어는 정교함이라고 알려져 있으며, 분해능과 불확실성의 집합체로서 ROC Curve 아래의 영역과 관련이 있다.
Brier Score와 CAL + REF 분해는 각 작동 조건에 대해 예상되는 손실이 표시되는 소위 Brier Curve를 통해 그래픽으로 나타낼 수 있다.[3] 이것은 Brier Score를 클래스 비대칭의 균일한 분포 하에 통합된 성과의 척도로 만든다.[4]
BSS(Brier 스킬 점수)
주어진 기본 점수에 대한 스킬 점수는 오프셋이며 (부정적으로) 기본 점수의 스케일 변형으로, 스킬 점수 값이 0이면 예측에 대한 점수가 기준선 또는 기준 또는 기본 예측의 점수만큼만 좋으며, 스킬 점수 값은 1(100%)이면 가능한 최고의 점수를 나타낸다.. 스킬 점수 값이 0보다 작다는 것은 성능이 기준선 또는 기준 예측보다 훨씬 더 나쁘다는 것을 의미한다. 기본 점수가 Brier 점수(BS)일 때 BSS는 다음과 같이 계산된다.
여기서 는 우리가 개선하고자 하는 기준 또는 기준선 예측의 브리어 점수다. 참조 예측은 원칙적으로 기존의 모든 모델에 의해 제공될 수 있지만, 기본적으로 데이터 집합의 각 인스턴스에서 발생하는 해당 클래스의 일정 예측 확률처럼 점수가 매겨지는 데이터 집합에서 특정 클래스의 전체 비율이나 빈도를 예측하는 순발력 모델을 사용할 수 있다. 이 기준선 모델은 개선하고자 하는 "기술 없음" 모델을 나타낼 것이다. 스킬 점수는 기상 예측 문헌에서 비롯되며, 여기서 순진한 기본 기준 예측을 "표본 내 기후학" 예측이라고 하며, 여기서 기후학은 장기 또는 전체 기상 예측의 평균을 의미하며, 표본 내 평균은 현재 점수화되고 있는 데이터 집합에서 계산된 것이다.[5][6] 이 기본 사례에서 2진수(2등급) 분류의 경우 (이 조의 첫 번째 방정식의 표기법 사용, 정의 섹션 상단에) 기준 브리어 점수는 다음과 같이 주어진다.
여기서 s 은(는) 단순히 평균 실제 결과일 뿐이다. 즉, 데이터 집합에서 실제 등급 1의 전체 비율은 다음과 같다.
브라이어 점수는 0이 가장 좋은 점수인 경우 낮은 점수가 더 좋다(손실함수). 하지만 브라이어 스킬 점수가 높으면 1점(100%)이 가장 좋은 점수를 받을 수 있어 더 좋다.
BSS는 단순히 기준 모델에 비해 BS가 개선된 백분율이기 때문에 Brier 기술 점수는 Brier 점수보다 더 해석할 수 있으며, BSS는 Brier 점수 자체를 보면 분명하지 않을 수 있는 기준 모델보다 훨씬 더 나쁜 행동을 하고 있다는 것을 의미한다. 그러나 100%에 가까운 BSS는 모든 확률 예측이 거의 0 또는 1(물론 정확했음)이 필요하기 때문에 일반적으로 예상해서는 안 된다.
브리어 점수는 엄격히 적절한 점수 규칙이고, BSS는 단지 그것에 대한 친숙한 변형이기 때문에, BSS 또한 엄격하게 적절한 점수 규칙이다.
회귀 분석의 결정 계수( R가 평균 제곱 오차(MSE)와 같으므로 분류(확률 추정) BSS는 BS에 있다는 것을 알 수 있을 것이다.
단점
브리어 점수는 매우 희귀한 사건(또는 매우 빈번한 사건)에 적합하지 않게 된다. 왜냐하면 그것은 희귀 사건에 중요한 예측의 작은 변화를 충분히 구별하지 못하기 때문이다.[7] Wilks(2010)는 "[Q]uite 대형 표본 크기, 즉 n > 1000은 상대적으로 희귀한 사건의 높은 스킬 예측에 필요한 반면, 일반 이벤트의 낮은 스킬 예측에는 상당히 작은 샘플 크기만 필요한 것으로 나타났다.[8]
참고 항목
추가 판독값
- Brier, Glenn W (1950). "Verification of forecasts expressed in terms of probability". Monthly Weather Review. 78 (1): 1–3.
- J. 스콧 암스트롱, 예측의 원리.
- AMS 기상 용어집
- 브리어 점수 구성: 미니 튜토리얼
메모들
- ^ a b Brier (1950). "Verification of Forecasts Expressed in Terms of Probability" (PDF). Monthly Weather Review. 78: 1–3. doi:10.1175/1520-0493(1950)078<0001:vofeit>2.0.co;2. Archived from the original (PDF) on 2017-10-23.
- ^ Murphy, A. H. (1973). "A new vector partition of the probability score". Journal of Applied Meteorology. 12 (4): 595–600. doi:10.1175/1520-0450(1973)012<0595:ANVPOT>2.0.CO;2.
- ^ Hernandez-Orallo, J.; Flach, P.A.; Ferri, C. (2011). "Brier curves: a new cost-based visualisation of classifier performance" (PDF). Proceedings of the 28th International Conference on Machine Learning (ICML-11). pp. 585–592.
- ^ Hernandez-Orallo, J.; Flach, P.A.; Ferri, C. (2012). "A unified view of performance metrics: translating threshold choice into expected classification loss" (PDF). Journal of Machine Learning Research. 13: 2813–2869.
- ^ Brier 점수의 편향 보정 분해(Notes and Communications). C. A. T. Ferro와 T. E. Fricker, 138권, 668권, 2012년 10월 A부, 1954-1960페이지 [1]
- ^ "수치적 기상 예측: MOGREPS 단거리 앙상블 예측 시스템: 검증 보고서: MOGREPS 시험 성과: 2006년 1월 - 2007년 3월 예측 연구 기술 보고서 503호." Neill Bowler, Marie Dando, Sarah Beare & Ken Mylne[2]
- ^ Riccardo Benedetti (2010-01-01). "Scoring Rules for Forecast Verification". Monthly Weather Review. 138 (1): 203–211. doi:10.1175/2009MWR2945.1.
- ^ Wilks, D. S. (2010). "Sampling distributions of the Brier score and Brier skill score under serial dependence". Quarterly Journal of the Royal Meteorological Society. 136 (1): 2109–2118. doi:10.1002/qj.709.