적합성 결여 제곱합
Lack-of-fit sum of squares통계학에서 적합성 결여로 인한 제곱합 또는 보다 엄밀히 말하면 적합성 결여 제곱합은 분산 분석에서 잔차 제곱합의 분할 성분 중 하나로, 제안된 모형이 잘 적합하다는 귀무 가설의 F-검정의 분자에서 사용된다. 다른 성분은 순수 오차 제곱합이다.
순수 오차 제곱합은 독립 변수 값을 공유하는 모든 관측치의 평균 값에서 종속 변수의 각 값의 편차 제곱의 합이다. 이러한 오류는 독립 변수 값의 함수로 종속 변수에 대한 예측 값을 할당하는 예측 방정식으로 피할 수 없는 오류들이다. 나머지 제곱합은 이러한 오류를 수학적으로 완전히 제거할 수 있기 때문에 모형의 적합성 결여에 기인한다.
아이디어의 스케치
적합성 결여 제곱합이 잔차의 제곱합과 다르려면 예측 변수 집합의 값 중 하나 이상에 대한 반응 변수 값이 두 개 이상 있어야 한다. 예를 들어, 선을 적합시키는 것을 고려하십시오.
최소 정사각형으로 잔차의 제곱합, 즉 관측된 y-값과 적합된 y-값 사이의 차이의 제곱합을 최소화하는 α 및 β 값을 추정치로 삼는다. 잔차 제곱합과 다른 적합성 결여 제곱합을 가지려면 하나 이상의 x-값 각각에 대해 둘 이상의 y-값을 관측해야 한다. 그런 다음 "오차로 인한 제곱합", 즉 잔차 제곱합을 두 가지 성분으로 분할한다.
- 오차로 인한 제곱합 = ("모수" 오차로 인한 제곱합) + (적합성 결여로 인한 제곱합)
"순수" 오류로 인한 제곱합은 관측된 각 y-값 간의 차이의 제곱합과 동일한 x-값에 해당하는 모든 y-값의 평균이다.
적합성 결여로 인한 제곱합은 동일한 x-값에 해당하는 y-값의 각 평균과 그에 상응하는 적합 y-값 사이의 차이의 가중 제곱합이며, 각 경우 가중치는 단순히 x-값에 대해 관측된 y-값의 수입니다.[1][2] 성분의 "순수 오차"와 적합성 결여 성분의 벡터가 서로 직교하는 것은 최소 제곱법의 속성이기 때문에, 다음과 같은 평등이 유지된다.
따라서 나머지 제곱합은 두 성분으로 완전히 분해되었다.
수학상세
하나의 예측 변수에 선을 적합시키는 것을 고려해 보십시오. n개의 개별 x 값 각각에 대한 인덱스, j는 주어진 x 값에 대한 반응 변수 관측치의 인덱스, n은i i x 값과 연관된 y 값의 수로 정의한다. 각 반응 변수 관측치의 값은 다음과 같이 나타낼 수 있다.
내버려두다
관측할 수 없는 모수 α 및 β의 최소 제곱 추정치가 i x와 i j Y의 관측치에 근거한다.
내버려두다
반응 변수의 적합치. 그러면
오차항 able의 관측할 ij 수 없는 값에 대한 관측 가능한 추정치인 잔차. 잔차의 전체 벡터인 최소 제곱법의 특성 때문에
스칼라 성분, 반드시 두 제약 조건을 충족해야 함
따라서 R의 N (N - 2) 차원 하위 공간에 위치하도록 제한된다. 즉, N - 2 "오차에 대한 자유 규정"이 있다.
자, 자자
i x-값과 관련된 모든 Y-값의 평균이다.
오류로 인한 제곱합을 두 가지 성분으로 나눈다.
확률분포
제곱합
오차항 ε은 i j 독립적이며 일반적으로 기대값 0과 분산 σ과2 함께 분포한다고 가정합시다. 우리는 x를 i 무작위적이기보다는 상수로 취급한다. 그러면 오차 ε이 i j 랜덤이기 때문에 반응 i j 변수 Y는 랜덤이다.
직선 모형이 올바르면 오차로 인한 제곱합이 오차 분산으로 나누어진다는 것을 알 수 있다.
또한 관측치 총 수 N, 독립 변수 n의 수준 수 및 p 모형의 모수 수를 고려할 때:
- 순수 오차로 인한 제곱합(오차 분산 σ2)은 카이 제곱 분포를 가지며 자유도는 N - n이다.
- 적합성 결여로 인한 제곱합(오차 분산 σ2)은 자유도가 n - p인 카이-제곱 분포(여기서 p = 2는 직선 모형에 두 개의 모수가 있으므로).
- 그 두 제곱합은 확률적으로 독립적이다.
검정 통계량
그 다음 통계는 다음과 같다.
모델이 올바르면 분자와 분모에 해당하는 자유도가 있는 F-분포를 가진다. 모형이 틀리면 분모의 확률분포는 위에서 설명한 대로 그대로, 분자와 분모는 여전히 독립적이다. 그러나 그 다음 분자는 중심 카이-제곱 분포를 가지며, 결과적으로 전체로서의 몫은 중심 F-분포를 가지지 않는다.
선형 모형이 올바르다는 귀무 가설을 검정하기 위해 이 F-통계학을 사용한다. 비중심 F 분포는 확률적으로 (중앙) F 분포보다 크기 때문에 F-통계량이 임계 F 값보다 크면 귀무 가설을 기각한다. 임계값은 원하는 신뢰수준과 동일한 x를 갖는 F 분포의 누적분포함수에 해당하며 자유도는1 d = (n - p)와 d2 = (N - n)이다.
오차의 정규 분포와 독립성에 대한 가정은 이 적합성 결여 검정이 이 귀무 가설에 대한 우도 비율 검정이라는 것을 수반하는 것으로 나타날 수 있다.
참고 항목
메모들
- ^ Brook, Richard J.; Arnold, Gregory C. (1985). Applied Regression Analysis and Experimental Design. CRC Press. pp. 48–49. ISBN 0824772520.
- ^ Neter, John; Kutner, Michael H.; Nachstheim, Christopher J.; Wasserman, William (1996). Applied Linear Statistical Models (Fourth ed.). Chicago: Irwin. pp. 121–122. ISBN 0256117365.