데이터와 추정 모형의 불일치에 대한 통계적 측정
통계 에서 잔차 제곱합 (SSR ) 또는 오차 제곱 추정치 제곱합 (SSE )이라고도 하는 잔차 제곱합 (RSS )은 잔차 제곱합 (데이터의 실제 경험적 값에서 예측된 편차)이다. 선형 회귀 분석과 같은 추정 모형과 데이터 간의 차이를 측정한 것이다. 작은 RSS는 모형이 데이터에 꼭 맞는 것을 나타낸다. 파라미터 선택과 모델 선택 에서 최적성 기준 으로 사용된다.
일반적으로 총 제곱합 = 설명 제곱합 + 잔차 제곱합 다변량 일반 최소 제곱 (OLS) 사례에서 이를 증명하려면 일반 OLS 모델의 파티셔닝 을 참조하십시오.
하나의 설명 변수 단일 설명 변수가 있는 모델에서 RSS는 다음과 같이 제공된다.[1]
RSS = ∑ i = 1 n ( y i − f ( x i ) ) 2 {\displaystyle \operatorname {RSS} =\sum _{i=1}^{n}(y_{i}-f(x_{i}) ^{2}} 여기서 y 는i 예측될 변수의 i 값 이고th , x 는i 설명 변수의 i 값 이며th , f( x i ) {\displaystyle f(x_{i}}) 는 y 의i 예측 값(일명 y ^ {\ displaystyle {\y_{i}}}}) 이다. In a standard linear simple regression model , y i = α + β x i + ε i {\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}\,} , where α {\displaystyle \alpha } and β {\displaystyle \beta } are coefficients , y and x are the regressand and the regressor , respectively, and ε is the error term . 잔차 의 제곱합은 ^ ^ i {\ displaystyle {\widehat {\barepsilon \,}_{i }} 의 제곱합이다.
RSS = ∑ i = 1 n ( ε ^ i ) 2 = ∑ i = 1 n ( y i − ( α ^ + β ^ x i ) ) 2 {\displaystyle \operatorname {RSS} =\sum _{i=1}^{n}({\widehat {\varepsilon \,}}^{2}=\sum _{i=1}^{n}-({\widehat {\alpha \},}+{\beta, \x_}) ^{2}} 여기서 α ^ {\displaystyle {\widehat {\ displaystyle \alpha \}} 은 (는) 상수 용어 α {\ displaystyle \ \ \}의 추정 값이며, β ^ {\ displaystythat {\\beta \} 의 추정 값이다.
OLS 잔차 제곱합에 대한 행렬 식 관측치가 n개인 일반 회귀 모형과 k 설명자 중 첫 번째는 계수가 회귀 절편인 상수 단위 벡터다.
y = X β + e [\displaystyle y=X\beta +e} 여기서 y 는 종속 변수 관측치의 n × 1 벡터, n × k 행렬 X 의 각 열은 k 설명자 중 하나에 대한 관측의 벡터, β {\displaystyle \beta } 은 참 계수의 k × 1 벡터, e 는 참 기저 오차의 n × 1 벡터다. β {\displaystyle \beta } 에 대한 일반적인 최소 제곱 추정기는 다음과 같다.
X β ^ = y ⟺ {\displaystyle X{\hat{\\beta}}}}=y\iff } X T X β ^ = X T y ⟺ {\displaystyle X^{\operatorname {T}}X{\hat {\beta }}}=X^{\operatorname {T}}y\iff }} β ^ = ( X T X ) − 1 X T y . {\displaystyle {\hat {\beta }}=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T}}y.} The residual vector e ^ {\displaystyle {\hat {e}}} = y − X β ^ = y − X ( X T X ) − 1 X T y {\displaystyle y-X{\hat {\beta }}=y-X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y} ; so the residual sum of squares is:
RSS = e ^ e ^ ^ ^ e ^ ^ ^ 2 {\ displaystyle \operatorname {RSS} = {\hat {e}^{\hat {{e}^{T}}}{\hat {e}=\}}\hat {e}\ 2}}, (잔차 정규 제곱에 따름). 전체:
RSS = y T y − y T X ( X T X ) − 1 X T y = y T [ I − X ( X T X ) − 1 X T ] y = y T [ I − H ] y {\displaystyle \operatorname {RSS} =y^{\operatorname {T} }y-y^{\operatorname {T} }X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y=y^{\operatorname {T} }[I-X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y=y^{\operatorname { T} }[I-H]y }, 여기서 H 는 Hat 행렬 또는 선형 회귀 분석의 투영 행렬이다.
Pearson의 제품-순간 상관 관계 최소 제곱 회귀선 은 다음과 같이 지정된다.
y = x + b {\displaystyle y=ax+b }, where b = y ¯ − a x ¯ {\displaystyle b={\bar {y}}-a{\bar {x}}} and a = S x y S x x {\displaystyle a={\frac {S_{xy}}{S_{xx}}}} , where S x y = ∑ i = 1 n ( x ¯ − x i ) ( y ¯ − y i ) {\displaystyle S_{xy}=\sum _{i=1}^{n}({\bar {x}}-x_{i})({\bar {y}}-y_{i})} and S x x = ∑ i = 1n ( x ¯ - x i ) 2 . {\displaystyle S_{xx}=\sum _{i=1}^{n}({\bar {{x}-x_{i}}}}}}}}
그러므로
RSS = ∑ i = 1 n ( y i − f ( x i ) ) 2 = ∑ i = 1 n ( y i − ( a x i + b ) ) 2 = ∑ i = 1 n ( y i − a x i − y ¯ + a x ¯ ) 2 = ∑ i = 1 n ( a ( x ¯ − x i ) − ( y ¯ − y i ) ) 2 = a 2 S x x − 2 a S x y + S y y = S y y − a S x y = S y y ( 1 − S x y 2 S x x S y y ) {\displaystyle {\begin}\operatorname {RSS} &=\sum _{i=1}^{n}(y_{i}-f(x_{i})) ^{2}=\sum _{i=1}^{n}(y_{i}-(ax_{i}+b) ^{2}=\sum _{i=1}^{n}(y_{i}-ax_{i}-{i}-{\bar{y}+a{\bar{x}})^{2}\\[5pt]&=\sum _{i=1}^{n}(a({\bar {x}-y_{i})-{n}} ^{2}=a^{2}S_{xx}-2aS_{xy}+ S_{yy}=S_{y}-aS_{xy}= S_{yy}\왼쪽(1-{\frac {S_{xy}^{2}}:{S_{xx}S_{yyy}}\오른쪽)\end{aigned}}}}} 여기서 S y = ∑ i = 1n (y ¯ - y i ) 2. {\displaystyle S_{y}=\sum _{i=1}^{n}({\bar {y}-y_{i}}^{2}}}}}
The Pearson product-moment correlation is given by r = S x y S x x S y y ; {\displaystyle r={\frac {S_{xy}}{\sqrt {S_{xx}S_{yy}}}};} therefore, RSS = S y y ( 1 − r 2 ) . {\displaystyle \operatorname {RSS} =S_{yy}(1-r^{2}). }
참고 항목
참조 ^ Archdeacon, Thomas J. (1994). Correlation and regression analysis : a historian's guide . University of Wisconsin Press. pp. 161–162. ISBN 0-299-13650-7 . OCLC 27266095 . Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. ISBN 0-471-17082-8 .