오차 및 잔차

Errors and residuals

통계최적화에서 오류잔차는 "이론적 값"에서 통계 표본 요소의 관측된 값의 편차에 대한 두 가지 밀접하고 쉽게 혼동되는 측정값이다. 관측값의 오차(또는 교란)는 관심수량의 (관측할 수 없는) 참값(예: 모집단 평균)에서 관측값의 편차가 되며, 관측값의 잔차는 관측값과 관심수량의 추정값(예: 표본평균)의 차이다. 이 구분은 회귀 분석에서 가장 중요한데, 여기서 개념을 회귀 오류회귀 잔차라고 부르기도 하고, 학생화 잔차의 개념으로 이어지는 경우도 있다.

소개

일변량 분포에서 일련의 관측치가 있으며 해당 분포의 평균( 소위 위치 모형)을 추정하려고 한다고 가정합시다. 이 경우 오차는 모집단 평균에서 관측치의 편차가 되는 반면 잔차는 표본 평균에서 관측치의 편차가 된다.

통계 오차(또는 교란)는 관측치가 예상값과 다른 양을 말하며, 후자는 통계단위를 무작위로 선택한 전체 모집단에 기초한다. 예를 들어 21세 남성 인구의 평균 키가 1.75m이고 무작위로 선택한 남성 1명의 키가 1.80m라면 '오류'는 0.05m, 무작위로 선택한 남성의 키가 1.70m라면 '오류'는 -0.05m이다. 전체 모집단의 평균인 기대값은 일반적으로 관측할 수 없으므로 통계적 오류도 관측할 수 없다.

반면에 잔차(또는 적합 편차)는 관측할 수 없는 통계 오차의 관측 가능한 추정치다. 남성의 키에 대한 이전의 예를 생각해 보고, 우리가 무작위로 n명의 사람들을 표본으로 추출했다고 가정해보자. 표본 평균모집단 평균의 좋은 추정자 역할을 할 수 있다. 그리고 다음이 있다.

  • 표본에서 각 사람의 키와 관측할 수 없는 모집단 평균의 차이는 통계적 오류인 반면
  • 표본 내 각 남성의 키와 관측 가능한 표본 평균의 차이는 잔차다.

표본 평균의 정의 때문에 랜덤 표본 내의 잔차 합계는 반드시 0이므로 잔차는 반드시 독립적이지 않다. 반면에 통계적 오류는 독립적이며, 무작위 표본 내에서의 그들의 합은 거의 확실히 0이 아니다.

z-점수(또는 "표준 점수")에서 통계적 오류(특히 정규 분포의 경우)를 표준화할 수 있으며, t-통계학적 또는 보다 일반적으로 학생화된 잔차에서 잔차를 표준화할 수 있다.

일변량 분포에서

평균 μ와 표준 편차 σ을 가진 정규 분포 모집단을 가정하고, 독립적으로 개인을 선택한다면, 우리는 다음과 같은 결과를 얻을 수 있다.

표본 평균

다음과 같은 랜덤 변수 분포:

통계적 오류는 다음과 같다.

기대값이 0인 반면 [1]잔차는 0인 경우

통계적2 오류의 제곱합은 자유도n인 카이 제곱 분포를 가진다.

그러나 모집단 평균을 알 수 없기 때문에 이 양을 관측할 수 없다. 반면에 잔차의 제곱합은 관측할 수 있다. σ에2 의한 이 합계의 몫은 자유도가 n - 1인 카이 제곱 분포를 가진다.

nn - 1 자유도 사이의 이러한 차이는 평균을 알 수 없는 분산과 분산을 가진 모집단의 표본 분산 추정에 대한 베셀의 보정을 초래한다. 모집단 평균을 알면 수정할 필요가 없다.

비고

잔차와 표본 평균의 제곱합이 바수의 정리 등을 이용하여 서로 독립되어 있음을 보여줄 수 있다는 점이 주목할 만하다. 그 사실과 위에 제시된 정규 분포와 카이-제곱 분포는 t-통계학적 분포와 관련된 계산의 기초를 형성한다.

where represents the errors, represents the sample standard deviation for a sample of size n, and unknown σ, and the denominator term accounts for the standard deviation of the 에 따른 오류:[2]

분자와 분모의 확률분포는 관측할 수 없는 모집단 표준편차 σ의 값에 따라 별도로 달라지지만, σ은 분자와 분모 모두에 나타나 취소한다. 그것은 우리가 we을 알지 못하더라도, 이 지수의 확률 분포를 알고 있다는 것을 의미하기 때문에 다행이다: 그것은 자유도가 n - 1인 학생의 t-분포를 가지고 있다. 따라서 이 지수를 사용하여 μ에 대한 신뢰 구간을 찾을 수 있다. 이 t-통계량은 "회귀선에서 벗어난 표준 오차 수"[3]로 해석할 수 있다.

퇴행

회귀 분석에서 오류잔차의 구분이 미묘하고 중요하며, 학생화 잔차의 개념으로 이어진다. 독립 변수를 종속 변수(예: 선)와 연관시키는 관측할 수 없는 함수의 경우, 이 함수에서 종속 변수 관측치의 편차는 관측할 수 없는 오류다. 일부 데이터에 대해 회귀 분석을 실행하는 경우 적합함수에서 종속 변수 관측치의 편차가 잔차가 된다. 선형 모형을 적용할 수 있는 경우 독립 변수에 대해 표시된 잔차의 산점도는 잔차에 대한 추세가 없는 0에 대해 랜덤해야 한다.[2] 데이터에 추세가 나타나면 회귀 모형이 부정확할 가능성이 높다. 예를 들어, 실제 함수는 2차 이상의 다항식일 수 있다. 만약 그들이 무작위적이거나 유행이 없다면, 그러나 "팬아웃"- 그들은 이단성이라고 불리는 현상을 보인다. 모든 잔차가 동일하거나 부채꼴로 제거되지 않으면 균일성을 나타낸다.

그러나 평균 제곱 오차(MSE)라는 표현식에서 말단적 차이가 발생한다. 회귀 분석의 평균 제곱 오차는 계산된 잔차의 제곱합에서 계산된 숫자로 관측할 수 없는 오차가 아니다. 제곱합을 관측치 수인 n으로 나눈 경우 결과는 잔차 제곱의 평균이 된다. 관측되지 않은 오차의 분산을 편향된 추정치이므로, 편향은 잔차 제곱의 합을 n이 아닌 df = n - p - 1로 나누어서 제거된다. 여기서 df자유도(n - 추정 중인 모수(절편 제외) p의 수를 뺀 값이다. 이것은 관측되지 않은 오차의 분산에 대한 편향되지 않은 추정치를 형성하며, 평균 제곱 오차라고 불린다.[4]

분산 분석에서 사용된 것과 같은 기법을 사용하여 선형 회귀의 분산을 분석할 때(분산 분석은 회귀의 한 유형이기 때문에 동일), 잔차의 제곱합(오차의 제곱합이라고 함)을 자유도(자유도가 n -와 같은 경우)로 나누는 또 다른 방법 p - 1, 여기서 p는 모형에서 추정된 모수의 수입니다(회귀 방정식의 각 변수에 대해 1개, 절편 포함 안 함). 모형의 제곱합에서 모수의 수인 자유도를 뺀 값을 나누어서 모형의 평균 제곱을 계산할 수도 있다. 그런 다음 모형의 평균 제곱을 오차의 평균 제곱으로 나누어 F 값을 계산할 수 있으며, 그런 다음 유의성(이 때문에 평균 제곱이 시작됨)을 결정할 수 있다.[5]

그러나 회귀 분석 과정의 동작 때문에 오차 자체가 동일하게 분포되어 있더라도 (입력 변수의) 서로 다른 데이터 지점에서 잔차의 분포가 달라질 수 있다. 구체적으로 오차가 동일하게 분포하는 선형 회귀 분석에서 영역 중간 입력 잔차의 변동성은 영역 끝의 잔차 변동성보다 높을 것이다.[6] 즉, 선형 퇴행이 중간보다 엔드포인트에 더 적합하다. 이는 회귀 계수에 대한 다양한 데이터 점의 영향 함수에도 반영된다. 엔드포인트가 더 많은 영향을 미친다.

따라서 다른 입력에서 잔차를 비교하려면 잔차의 기대 변동성에 따라 잔차를 조정해야 하는데, 이를 학생화라고 한다. 이는 특이치를 탐지하는 경우 특히 중요한데, 문제의 사례가 데이터 집합의 다른 사례와 다소 다른 경우다. 예를 들어 도메인 중간에는 큰 잔차가 예상되지만 도메인 끝에는 특이치로 간주된다.

통계에서 "오류"라는 단어의 기타 사용

위의 절에서 논의한 바와 같이 "오류"라는 용어를 사용하는 것은 가상의 관찰되지 않은 값에서 값의 편차를 의미하기 때문이다. 통계에서도 최소한 두 가지 다른 용도가 발생하며, 두 가지 모두 관측 가능한 예측 오류를 가리킨다.

평균 제곱 오차(MSE)는 추정자에 의해 예측된 값이 추정된 수량(일반적으로 모형이 추정된 샘플 외부)과 다른 양을 의미한다. RMSE(root 평균 제곱 오차)는 MSE의 제곱근이다. 오차 제곱합(SSE)은 MSE에 표본 크기를 곱한 것이다.

잔차 제곱합(SSR)은 추정에 사용되는 표본 내에서 예측 값에서 실제 값의 편차 제곱의 합이다. 이는 최소 제곱 추정치의 기초로서, SSR이 최소(즉, 파생상품이 0)가 되도록 회귀 계수를 선택한다.

마찬가지로 절대오차의 합(SAE)은 잔차의 절대값의 합으로, 회귀에 대한 최소 절대편차 접근법에서 최소화된다.

평균 오차(ME)는 치우침이다. 최소 제곱 추정기의 평균 잔차(MR)는 항상 0이다.

참고 항목

참조

  1. ^ Wetherill, G. Barrie. (1981). Intermediate statistical methods. London: Chapman and Hall. ISBN 0-412-16440-X. OCLC 7779780.
  2. ^ a b A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint : 기타(링크)
  3. ^ Bruce, Peter C., 1953- (2017-05-10). Practical statistics for data scientists : 50 essential concepts. Bruce, Andrew, 1958- (First ed.). Sebastopol, CA. ISBN 978-1-4919-5293-1. OCLC 987251007.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  4. ^ Steel, Robert G. D.; Torrie, James H. (1960). Principles and Procedures of Statistics, with Special Reference to Biological Sciences. McGraw-Hill. p. 288.
  5. ^ Zelterman, Daniel (2010). Applied linear models with SAS ([Online-Ausg.]. ed.). Cambridge: Cambridge University Press. ISBN 9780521761598.
  6. ^ "7.3: Types of Outliers in Linear Regression". Statistics LibreTexts. 2013-11-21. Retrieved 2019-11-22.

외부 링크

  • Wikimedia Commons의 오류잔차와 관련된 미디어