평균 제곱 오차

Mean squared error

통계에서 추정기의 평균 제곱 오차(MSE)[1] 또는 평균 제곱 편차(MSD)는 오차 제곱평균, 즉 추정된 값과 실제 값 사이의 평균 제곱 차이를 측정합니다.MSE는 오차 [2]손실 제곱예상 값에 해당하는 위험 함수입니다.MSE가 거의 항상 양수(0이 아님)인 것은 랜덤성 때문이거나 추정기가 더 [3]정확한 추정치를 산출할 수 있는 정보를 고려하지 않기 때문입니다.기계 학습, 특히 경험적 위험 최소화에서 MSE는 경험적 위험(관측된 데이터 세트에 대한 평균 손실)을 진정한 MSE의 추정치(실제 위험: 실제 모집단 분포에 대한 평균 손실)로 참조할 수 있다.

MSE는 추정기의 품질에 대한 측정값입니다.값은 유클리드 거리의 제곱에서 도출되므로 오차가 0에 가까워질수록 항상 감소하는 양의 값입니다.

MSE는 오차의 두 번째 순간(원점 부근)이므로 추정기의 분산(한 데이터 표본에서 다른 데이터 표본으로 추정치가 얼마나 넓게 퍼져 있는지)과 해당 치우침(평균 추정치가 실제 [citation needed]값에서 얼마나 떨어져 있는지)을 모두 통합합니다.치우치지 않은 추정치의 경우 MSE는 추정치의 분산입니다.분산과 마찬가지로 MSE의 측정 단위는 추정 수량의 제곱과 동일합니다.표준 편차와 유사하게 MSE의 제곱근을 구하면 추정되는 수량과 동일한 단위를 갖는 평균 제곱근 오차 또는 평균 제곱근(RMSE 또는 RMSD)이 생성됩니다. 편향되지 않은 추정기의 경우 RMSE는 분산의 제곱근이며 표준 오차라고 합니다.

정의 및 기본 속성

MSE는 예측 변수의 품질(, 임의 입력을 임의 변수의 값 표본에 매핑하는 함수) 또는 추정기의 품질(즉, 데이터가 샘플링되는 모집단의 매개 변수 추정치에 데이터 표본매핑하는 수학 함수)을 평가한다.MSE의 정의는 예측 변수를 설명하는 것인지 추정 변수를 설명하는 것인지에 따라 달라집니다.

예측 변수

모든 변수에 대한n개의 샘플에서n개의 \n개의 벡터가 되고Y(\ Y 예측되는 변수의 관측값의 이고Y {Y가 예측값(예: 최소 제곱 값)인 경우.t) 예측 변수의 표본 내 MSE는 다음과 같이 계산됩니다.

즉, MSE는오류의 제곱( - i^ ) \ 평균 i n= 1 \ _ { i=} { { right } 입니다.ent)

행렬 표기법에서,

서 e})는(- {이고 en × n1) 열 벡터입니다.

MSE는 모델을 추정하는 데 사용되지 않은 q개의 데이터 에 대해서도 계산할 수 있다. 이는 이러한 목적으로 보류되었거나 이러한 데이터가 새로 수집되었기 때문이다.통계학 학습으로 알려진 이 프로세스에서 MSE는 종종 테스트 [4]MSE라고 불리며 다음과 같이 계산됩니다.

추정기

알 수 없는 추정치 MSE는 다음과 같이 정의됩니다[1].

이 정의는 알 수 없는 모수에 따라 다르지만 MSE는 우선 추정기의 속성입니다.MSE는 알려지지 않은 모수의 함수일 수 있으며, 이 경우 이러한 모수의 추정치에 기초한 MSE의 추정치는 데이터의 함수(따라서 랜덤 변수)가 된다. {style {\(가) 샘플 통계량으로서 도출되어 모집단 모수를 추정하는 데 사용되는 경우, 기대치는 샘플 통계량의 표본 분포에 관한 것이다.

MSE는 추정기의 분산과 추정기의 편중 제곱의 합으로 기록될 수 있으며, MSE를 계산하는 유용한 방법을 제공하고 편향되지 않은 추정기의 경우 MSE와 분산이 [5]동등하다는 것을 암시한다.

분산 및 편향 관계 증명

그 대신에,

랜덤 X(\X 2) δ (+ (}) =\ {X) {에 대해 더 짧은 증명을 얻을 수 있다. 우리는

그러나 실제 모델링 사례에서 MSE는 모델 분산, 모델 편향 및 축소 불가능한 불확실성의 추가라고 설명할 수 있다(편향-분산 트레이드오프 참조).이 관계에 따르면 추정기의 MSE는 추정기 분산 및 바이어스 정보를 포함하는 효율성 비교에 단순하게 사용될 수 있다.이것을 MSE 기준이라고 부릅니다.

퇴행중

회귀 분석에서 그림은 전체 데이터의 전체 추세를 볼 수 있는 보다 자연스러운 방법입니다.각 점에서 예측 회귀 모형까지의 거리의 평균을 계산하여 평균 제곱 오차로 표시할 수 있습니다.제곱은 음의 부호가 있는 복잡성을 줄이기 위해 매우 중요합니다.MSE를 최소화하기 위해 모형이 더 정확할 수 있으며, 이는 모형이 실제 데이터에 더 가깝다는 것을 의미합니다.이 방법을 사용한 선형 회귀 분석의 한 예는 최소 제곱법입니다. 이 방법은 이변량 데이터 [6]집합에 대한 선형 회귀 모델의 적합성을 평가하지만, 이 방법의 한계는 데이터의 알려진 분포와 관련이 있습니다.

평균 제곱 오차라는 용어는 오차 분산의 편견이 없는 추정치, 즉 잔차 제곱합자유도로 나눈 값을 가리키는 데 사용되기도 합니다.알려진 계산된 양에 대한 이 정의는 다른 분모를 사용한다는 점에서 예측 변수의 계산된 MSE에 대한 위의 정의와 다르다.분모는 동일한 데이터에서 추정된 모형 모수의 수에 의해 감소된 표본 크기이며, (p 회귀 변수경우) 또는 절편이 사용되는 경우 (n-p-1)입니다(자세한 [7]내용은 통계량의 오차잔차를 참조하십시오).MSE(이 문서에서 정의)는 오차 분산의 편견이 없는 추정치는 아니지만 예측 변수의 일관성을 고려할 때 일관성이 있다.

회귀 분석에서 "평균 제곱 오차" 또는 "표본 외 평균 제곱 오차"라고도 하는 "평균 제곱 오차"는 특정 표본 공간에 대해 추정된 모형에 의해 생성된 표본 외 검정 공간에 대한 실제 값으로부터의 예측 편차 제곱의 평균 값을 나타낼 수도 있습니다.또한 이 값은 알려진 계산된 수량이며 표본 및 표본 외 검정 공간에 따라 달라집니다.

의미하다

모집단 1, { X_에서 n(\ n 랜덤 샘플이 있다고 가정합니다.샘플 유닛이 치환으로 선택되었다고 가정합니다. n개의 \n개의 유닛이 한 번에 하나씩 선택되며 이전에 선택한 유닛은 모든 \n개의 추첨에 대해 선택 대상이 됩니다.μ 일반적인 추정치는 샘플 평균입니다.

이 값은 실제 μ {\따라서 편향되지 않음)와 같으며 평균 제곱 오차는 다음과 같습니다.

서 § 2 ^{ 모집단 분산입니다.

가우스 분포의 경우, 이것은 균일한 분포를 위한 최선의 비바이어스 추정기(즉, 모든 비바이어스 추정기 중 MSE가 가장 낮은 추정기)이다.

분산

분산에 대한 일반적인 추정 변수는 수정된 표본 분산입니다.

이것은 치우침이 없습니다(예상값은 \}).따라서 치우침이 없는 샘플 분산이라고도 하며 MSE는[8]

4({ _ 분포 또는 모집단의 네 번째 중심 모멘트이고 2 4 / 4 - 4- ({2 _ 과도한 첨도이다.

그러나 S - 하는 2 \\ ^ 2에는 다른 추정치를 사용할 수 있으며 적절한 선택을 하면 항상 낮은 평균 제곱 오차를 얻을 수 있습니다.정의하면

계산은 다음과 같습니다.

이것은, 다음의 경우에 최소한으로 억제됩니다.

가우스 분포의 경우, 여기서 2 {\ _}=합계를 a + {\ a}로 나눌 때 MSE가 최소화됨을 의미합니다.최소 초과 첨도는 2 -({}=-[a]이며, 이는 p = 1/2(코인 플립)인 베르누이 분포에 의해 달성되며 MSE는 a + a}{n 최소화됩니다.} 따라서 첨도에 관계없이 편향되지 않은 추정기를 약간 축소하여 (MSE가 낮다는 의미에서) "더 나은" 추정치를 얻을 수 있습니다 이것은 수축 추정기의 단순한 예입니다. 즉, 추정기를 0으로 향해 "축소"합니다(편향되지 않은 추정기를 축소).

또한 보정된 표본 분산이 가우스 분포에 대한 최선의 편파 추정기(편향되지 않은 추정기 중 최소 평균 제곱 오차)인 반면, 분포가 가우스 분포가 아닌 경우, 편파되지 않은 추정기 중에서도 편파의 가장 좋은 편파 추정기는 S - 2가 수 있다 { S_

가우스 분포

다음 표는 가우스 [9]사례에 대한 모집단의 참 매개변수인 μ 및 δ의2 여러 추정치를 제공합니다.

참값 추정기 평균 제곱 오차
{\} = 편향되지 않은 모집단 X = = (i ) { { { X} =1 n } = 1 n {} } ={ = 1 n } i
^ { \ \ theta = 모집단 의 편향되지 않은 - = 1 x ( - X ) { displaystyle{ n-1 { }{ \_ { }(}
{\} = 모집단 편향 추정치, Sn n i= (X - ) { n } { } \ _ i=1 n } { n } { n } \ X - {
{ { n + = + 1 i= i - ) 2 = { n + 1 } { } { n + 1 } { 1 } { n + 1 } { n (

해석

MSE가 0인 것은 {{\(가) {\ \(를) 정확하게 예측하는 것이 이상적이지만 일반적으로 가능하지 않습니다.

MSE 값은 비교 목적으로 사용할 수 있다.MSE를 사용하여 두 개 이상의 통계 모델을 비교할 수 있다. MSE가 주어진 일련의 관측치를 얼마나 잘 설명하는지 측정하기 위한 척도이다.모든 비편향 추정기 중에서 분산이 가장 작은 비편향 추정기(통계 모형에서 추정)는 최상의 비편향 추정기 또는 MVUE(Minimum-Variance Unbiased Estimator)입니다.

분산 분석선형 회귀 분석 기법 모두 분석의 일부로 MSE를 추정하고 추정된 MSE를 사용하여 연구 중인 요인 또는 예측 변수의 통계적 유의성을 결정합니다.실험 설계의 목표는 관측치를 분석할 때 MSE가 추정된 처리 효과 중 하나 이상의 크기에 상대적인 0에 가깝도록 실험을 구성하는 것입니다.

일원 분산 분석에서 MSE는 오차 제곱합과 자유도를 나눗셈하여 계산할 수 있습니다.또한 f-값은 평균 제곱 처리와 MSE의 비율입니다.

MSE는 또한 주어진 관측치 집합에 대한 모형에 포함할 후보 집합의 예측 변수 수에 대한 결정의 일부로 여러 단계적 회귀 기법에 사용됩니다.

적용들

  • MSE 최소화는 추정치를 선택하는 데 있어 중요한 기준입니다. 즉, 최소 평균-제곱 오차를 참조하십시오.치우침이 없는 추정치 중에서 MSE를 최소화하는 것은 분산을 최소화하는 것과 같으며, 이를 수행하는 추정치는 최소 분산 치우침이 없는 추정치입니다.그러나 치우친 추정치는 MSE가 낮을 수 있습니다. 추정치 편향을 참조하십시오.
  • 통계 모델링에서 MSE는 실제 관측치와 모델에 의해 예측된 관측치 사이의 차이를 나타낼 수 있다.이러한 맥락에서, 모형이 데이터에 적합한 정도와 모형의 예측 능력을 크게 손상시키지 않고 일부 설명 변수를 제거할 수 있는지 여부를 결정하는 데 사용됩니다.
  • 예측예측에서 Brier 점수는 MSE에 기초한 예측 스킬의 척도입니다.

손실 함수

제곱 오차 손실은 통계에서[citation needed] 가장 널리 사용되는 손실 함수 중 하나이지만, 널리 사용되는 것은 애플리케이션의 실제 손실을 고려하는 것보다 수학적 편의성에서 비롯된다.평균 제곱 오차의 사용을 도입한 칼 프리드리히 가우스는 오차의 임의성을 알고 있었고 이러한 [3]근거에 대한 이의 제기에 동의했다.평균 제곱 오차의 수학적 편익은 선형 회귀의 성능을 분석하는 데 사용하는 데 있어 특히 명백하다. 이는 데이터 집합의 변동을 모델에 의해 설명되는 변동과 무작위성에 의해 설명되는 변동으로 분할할 수 있기 때문이다.

비판

의사결정 이론가인 제임스 버거에 의해 평균 제곱 오차의 사용은 의심의 여지 없이 비판되어 왔다.평균 제곱 오차는 특정 효용 함수인 2차 효용 함수의 기대값에 대한 음수이며, 주어진 상황에서 사용하기에는 적절한 효용 함수가 아닐 수 있습니다.그러나,[10] 평균 제곱 오차가 애플리케이션에서 자연적으로 발생하는 손실 함수에 대한 좋은 근사치로 작용할 수 있는 시나리오가 있습니다.

분산과 마찬가지로 평균 제곱 오차도 [11]특이치의 가중치가 높다는 단점이 있습니다.이는 각 항의 제곱에 의한 결과로, 큰 오차는 작은 오차에 비해 가중치가 더 높습니다.많은 애플리케이션에서 바람직하지 않은 이 특성은 연구자들이 평균 절대 오차 또는 중위수에 기초한 것과 같은 대안을 사용하도록 만들었다.

「 」를 참조해 주세요.

메모들

  1. ^ 이것은 다음과 같이 젠슨의 부등식으로 증명될 수 있다.번째 중심 모멘트는 분산 제곱의 상한이므로 비율에 대한 최소값은 1이므로, 를 들어 p=1/2인 베르누이족에 의해 초과 첨도에 대한 최소값은 -2이다.

레퍼런스

  1. ^ a b "Mean Squared Error (MSE)". www.probabilitycourse.com. Retrieved 2020-09-12.
  2. ^ Bickel, Peter J.; Doksum, Kjell A. (2015). Mathematical Statistics: Basic Ideas and Selected Topics. Vol. I (Second ed.). p. 20. If we use quadratic loss, our risk function is called the mean squared error (MSE) ...
  3. ^ a b Lehmann, E. L.; Casella, George (1998). Theory of Point Estimation (2nd ed.). New York: Springer. ISBN 978-0-387-98502-2. MR 1639875.
  4. ^ Gareth, James; Witten, Daniela; Hastie, Trevor; Tibshirani, Rob (2021). An Introduction to Statistical Learning: with Applications in R. Springer. ISBN 978-1071614174.
  5. ^ Wackerly, Dennis; Mendenhall, William; Scheaffer, Richard L. (2008). Mathematical Statistics with Applications (7 ed.). Belmont, CA, USA: Thomson Higher Education. ISBN 978-0-495-38508-0.
  6. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 유지보수: 기타 (링크)
  7. ^ 강철, R.G.D. 및 토리, J.H., 생물과학에 대한 특별 참조 통계의 원칙과 절차. McGrow Hill, 1960, 288페이지.
  8. ^ Mood, A.; Graybill, F.; Boes, D. (1974). Introduction to the Theory of Statistics (3rd ed.). McGraw-Hill. p. 229.
  9. ^ DeGroot, Morris H. (1980). Probability and Statistics (2nd ed.). Addison-Wesley.
  10. ^ Berger, James O. (1985). "2.4.2 Certain Standard Loss Functions". Statistical Decision Theory and Bayesian Analysis (2nd ed.). New York: Springer-Verlag. p. 60. ISBN 978-0-387-96098-2. MR 0804611.
  11. ^ Bermejo, Sergio; Cabestany, Joan (2001). "Oriented principal component analysis for large margin classifiers". Neural Networks. 14 (10): 1447–1461. doi:10.1016/S0893-6080(01)00106-X. PMID 11771723.