적합성 결여 제곱합

Lack-of-fit sum of squares

통계학에서 적합성 결여로 인한 제곱합 또는 보다 엄밀히 말하면 적합성 결여 제곱합분산 분석에서 잔차 제곱합의 분할 성분 중 하나로, 제안된 모형이 잘 적합하다는 귀무 가설F-검정분자에서 사용된다. 다른 성분은 순수 오차 제곱합이다.

순수 오차 제곱합은 독립 변수 값을 공유하는 모든 관측치의 평균 값에서 종속 변수의 각 값의 편차 제곱의 합이다. 이러한 오류는 독립 변수 값의 함수로 종속 변수에 대한 예측 값을 할당하는 예측 방정식으로 피할 수 없는 오류들이다. 나머지 제곱합은 이러한 오류를 수학적으로 완전히 제거할 수 있기 때문에 모형의 적합성 결여에 기인한다.

아이디어의 스케치

적합성 결여 제곱합이 잔차의 제곱합과 다르려면 예측 변수 집합의 값 중 하나 이상에 대한 반응 변수 값이 두 개 이상 있어야 한다. 예를 들어, 선을 적합시키는 것을 고려하십시오.

최소 정사각형으로 잔차의 제곱합, 즉 관측된 y-값과 적합된 y-값 사이의 차이의 제곱합을 최소화하는 αβ 값을 추정치로 삼는다. 잔차 제곱합과 다른 적합성 결여 제곱합을 가지려면 하나 이상의 x-값 각각에 대해 둘 이상의 y-값을 관측해야 한다. 그런 다음 "오차로 인한 제곱합", 즉 잔차 제곱합을 두 가지 성분으로 분할한다.

오차로 인한 제곱합 = ("모수" 오차로 인한 제곱합) + (적합성 결여로 인한 제곱합)

"순수" 오류로 인한 제곱합은 관측된 각 y-값 간의 차이의 제곱합과 동일한 x-값에 해당하는 모든 y-값의 평균이다.

적합성 결여로 인한 제곱합은 동일한 x-값에 해당하는 y-값의 각 평균과 그에 상응하는 적합 y-값 사이의 차이의 가중 제곱합이며, 각 경우 가중치는 단순히 x-값에 대해 관측된 y-값의 수입니다.[1][2] 성분의 "순수 오차"와 적합성 결여 성분의 벡터가 서로 직교하는 것은 최소 제곱법의 속성이기 때문에, 다음과 같은 평등이 유지된다.

따라서 나머지 제곱합은 두 성분으로 완전히 분해되었다.

수학상세

하나의 예측 변수에 선을 적합시키는 것을 고려해 보십시오. n개개별 x 각각에 대한 인덱스, j는 주어진 x 값에 대한 반응 변수 관측치의 인덱스, ni i x 값과 연관된 y 의 수로 정의한다. 각 반응 변수 관측치의 값은 다음과 같이 나타낼 수 있다.

내버려두다

관측할 수 없는 모수 αβ최소 제곱 추정치 i x i j Y의 관측치에 근거한다.

내버려두다

반응 변수의 적합치. 그러면

오차항 able의 관측 ij 수 없는 값에 대한 관측 가능한 추정치인 잔차. 잔차의 전체 벡터인 최소 제곱법의 특성 때문에

스칼라 성분, 반드시 두 제약 조건을 충족해야 함

따라서 R N (N - 2) 차원 하위 공간에 위치하도록 제한된다. 즉, N - 2 "오차에 대한 자유 규정"이 있다.

자, 자자

i x-값과 관련된 모든 Y-값의 평균이다.

오류로 인한 제곱합을 두 가지 성분으로 나눈다.

확률분포

제곱합

오차항 ε i j 독립적이며 일반적으로 기대값 0과 분산 σ2 함께 분포한다고 가정합시다. 우리는 x i 무작위적이기보다는 상수로 취급한다. 그러면 오차 ε i j 랜덤이기 때문에 반응 i j 변수 Y는 랜덤이다.

직선 모형이 올바르면 오차로 인한 제곱합이 오차 분산으로 나누어진다는 것을 알 수 있다.

N - 2도의 자유도로 카이 제곱 분포를 가진다.

또한 관측치 총 수 N, 독립 변수 n의 수준 수 p 모형의 모수 수를 고려할 때:

  • 순수 오차로 인한 제곱합(오차 분산 σ2)은 카이 제곱 분포를 가지며 자유도는 N - n이다.
  • 적합성 결여로 인한 제곱합(오차 분산 σ2)은 자유도가 n - p인 카이-제곱 분포(여기서 p = 2는 직선 모형에 두 개의 모수가 있으므로).
  • 그 두 제곱합은 확률적으로 독립적이다.

검정 통계량

그 다음 통계는 다음과 같다.

모델이 올바르면 분자와 분모에 해당하는 자유도가 있는 F-분포를 가진다. 모형이 틀리면 분모의 확률분포는 위에서 설명한 대로 그대로, 분자와 분모는 여전히 독립적이다. 그러나 그 다음 분자는 중심 카이-제곱 분포를 가지며, 결과적으로 전체로서의 몫은 중심 F-분포를 가지지 않는다.

선형 모형이 올바르다는 귀무 가설을 검정하기 위해 이 F-통계학을 사용한다. 비중심 F 분포는 확률적으로 (중앙) F 분포보다 크기 때문에 F-통계량이 임계 F 값보다 크면 귀무 가설을 기각한다. 임계값은 원하는 신뢰수준과 동일한 x를 갖는 F 분포누적분포함수에 해당하며 자유도1 d = (n - p)와 d2 = (N - n)이다.

오차의 정규 분포독립성에 대한 가정은 이 적합성 결여 검정이 이 귀무 가설에 대한 우도 비율 검정이라는 것을 수반하는 것으로 나타날 수 있다.

참고 항목

메모들

  1. ^ Brook, Richard J.; Arnold, Gregory C. (1985). Applied Regression Analysis and Experimental Design. CRC Press. pp. 48–49. ISBN 0824772520.
  2. ^ Neter, John; Kutner, Michael H.; Nachstheim, Christopher J.; Wasserman, William (1996). Applied Linear Statistical Models (Fourth ed.). Chicago: Irwin. pp. 121–122. ISBN 0256117365.