선형 회귀 분석에서 평균 반응 과 예측 반응 은 회귀 모수로부터 계산된 종속 변수의 값과 독립 변수의 주어진 값이다. 이 두 반응의 값은 같지만 계산된 분산은 다르다.
배경 직선 피팅에서 모델은
y i = α + β x i + ε i {\displaystyle y_{i}=\cHB +\px_{i}+\varepsilon _{i}\,} 여기서 y {\ displaystyle y_{i} 는 반응 변수 , x i {\ displaystyle x_{i}} 는 설명 변수 , α i {\displaystyle \alpha} 및 β {\displaystyle \ \}은( 는) 매개 변수다 . 주어진 설명 값 x 에d 대한 평균 및 예측 반응 값은
y ^ d = α ^ + β ^ x d , {\displaystyle {\hat{y}_{d}={\hat {\pair }+{\hat {\pair }}} 실제 반응은 다음과 같을 것이다.
y d = α + β x d + ε d {\desplaystyle y_{d}=\cHB +\d_{d}+\varepsilon _{d},} α^ {\ displaystyle {\hat {\alpha }} 및 β^ {\ displaystyle {\hat {\beta }}} 의 값과 분산에 대한 식은 선형 회귀 분석에서 제공된다.
평균 반응 Since the data in this context is defined to be (x , y ) pairs for every observation, the mean response at a given value of x , say xd , is an estimate of the mean of the y values in the population at the x value of xd , that is E ^ ( y ∣ x d ) ≡ y ^ d {\displaystyle {\hat {E}}(y\mid x_{d})\equiv {\hat {y}}_{d}\!} . 평균 반응의 분산은 다음과 같다.
VAR ( α ^ + β ^ x d ) = VAR ( α ^ ) + ( VAR β ^ ) x d 2 + 2 x d 코브 ( α ^ , β ^ ) . {\displaystyle \operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right)=\operatorname {Var} \left({\hat {\alpha }}\right)+\left(\operatorname {Var} {\hat {\beta }}\right)x_{d}^{2}+2x_{d}\operatorname {Cov} \left({\hat {\alpha }},{\hat {\beta }}\right). } 이 표현은 다음과 같이 단순화할 수 있다.
VAR ( α ^ + β ^ x d ) = σ 2 ( 1 m + ( x d − x ¯ ) 2 ∑ ( x i − x ¯ ) 2 ) , {\displaystyle \operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right)=\sigma ^{2}\left({\frac {1}{m}}+{\frac {\left(x_{d}-{\bar {x}}\right)^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}\right),} 여기서 m 은 데이터 점의 수입니다.
이러한 단순화를 증명하기 위해, 우리는 그 정체성을 이용할 수 있다.
∑ ( x i − x ¯ ) 2 = ∑ x i 2 − 1 m ( ∑ x i ) 2 . {\displaystyle \sum(x_{i}-{\bar{x}}^{2}=\sum x_{i}^{2}-{n1}-{m}}\좌(\sum x_{i}\오른쪽)^{2}}
예측 반응 예측 반응 분포는 주어진 점 x 에서d 잔차의 예측 분포입니다. 따라서 분산은
VAR ( y d − [ α ^ + β ^ x d ] ) = VAR ( y d ) + VAR ( α ^ + β ^ x d ) − 2 코브 ( y d , [ α ^ + β ^ x d ] ) = VAR ( y d ) + VAR ( α ^ + β ^ x d ) . {\displaystyle {\begin{aligned}\operatorname {Var} \left(y_{d}-\left[{\hat {\alpha }}+{\hat {\beta }}x_{d}\right]\right)&=\operatorname {Var} (y_{d})+\operatorname {Var} \left({\hat {\alpha }}+{\hat {\beta }}x_{d}\right)-2\operatorname {Cov} \left(y_{d},\left[{\hat {\alpha }}+{\hat {\beta }}x_{d}\right]\right)\ \&=\operatorname {Var}(y_{d})+\operatorname {Var} \좌측({\hat {\\alpha }}}+{\hat {\beta }}\우측) \end{정렬}}} The second line follows from the fact that Cov ( y d , [ α ^ + β ^ x d ] ) {\displaystyle \operatorname {Cov} \left(y_{d},\left[{\hat {\alpha }}+{\hat {\beta }}x_{d}\right]\right)} is zero because the new prediction point is independent of the data used to fit the model. 또한 평균 반응 에 대해 Var ^( α ^ + β ^ x d ) {\displaystyle \operatorname {Var} \좌측({\hat {\alpha }}+{\hat{}x_{d}\right) 이라는 용어가 앞서 계산되었다 .
Var (y d ) = σ 2 {\ displaystyle \operatorname {Var}(y_{d}=\sigma ^{2}}( 추정할 수 있지만 알 수 없는 고정 파라미터))이므로 예측 반응의 분산이 다음과 같이 주어진다.
VAR ( y d − [ α ^ + β ^ x d ] ) = σ 2 + σ 2 ( 1 m + ( x d − x ¯ ) 2 ∑ ( x i − x ¯ ) 2 ) = σ 2 ( 1 + 1 m + ( x d − x ¯ ) 2 ∑ ( x i − x ¯ ) 2 ) . {\displaystyle{\begin{정렬}\operatorname{바르}\left(y_{d}-\left[{\hat{\alpha}}와{\hat{\beta}}x_{d}\right]\right)&, =\sigma ^{2}+\sigma ^ᆱ\left({\frac{1}{m}}와{\frac{\left(x_{d}-{\bar{x}}\right)^{2}}{\sum(x_{나는}-{\bar{x}})^{2}}}\right)\\[4pt]&, =\sigma ^ᆴ\left(1+{\frac{1}{m}}와{\frac{(x_{d}-{\bar{x}})^{2}}{\sum(x_{나는}-{\bar{)}}.)^{2}}}) 오른쪽).\end{aigned}} 신뢰구간 The 100 ( 1 − α ) % {\displaystyle 100(1-\alpha )\%} confidence intervals are computed as y d ± t α 2 , m − n − 1 Var {\displaystyle y_{d}\pm t_{{\frac {\alpha }{2}},m-n-1}{\sqrt {\operatorname {Var} }}} . Thus, the confidence interval for predicted response is wider than the interval for mean response. 이는 직관적으로 예상됨 – 무작위 변수 ε 은i 감소하지 않지만, α ^ {\displaystyle {\\ displaystyle {\\}의 분산은 샘플링이 증가함에 따라 감소하기 때문에 한 표본에서 y {\displaystyle y} 값의 모집단의 분산은 감소하지 않는다. hat {\message }} 과 β^ {\ displaystyle {\hat {\property }} 이 (가) 감소하므로 평균 반응(vmx response value)은 α + β x d {\ displaystyle \competition +\bex_{d} 에 가까워진다.
이는 모집단의 분산과 모집단의 표본 평균의 분산 간의 차이와 유사하다. 모집단의 분산은 모수로서 변하지 않지만 표본 평균의 분산은 표본이 증가하면 감소한다.
일반 선형 회귀 분석 일반 선형 모델은 다음과 같이 쓸 수 있다.
y i = ∑ j = 1 n X i j β j + ε i {\displaystyle y_{i}=\sum _{j=1}^{n}X_{ij}\beta _{j}+\varepsilon _{i}\,} 따라서 y d = ∑ j = 1n X d j β ^ j {\ dplaystyle y_{d}=\sum _{j=1}^{j =1}X_{dj}{\hat{\beta }}}}}{j}}}} 평균 반응의 분산에 대한 일반적인 표현은 다음과 같다.
VAR ( ∑ j = 1 n X d j β ^ j ) = ∑ i = 1 n ∑ j = 1 n X d i S i j X d j , {\displaystyle \operatorname {Var} \left(\sum _{j=1}^{n_{dj}{dj}{\hat {\beta }}}}}}{j}\sum _{j=1}^{n}X_{di}}}}} S_{ij}X_{dj}} 여기서 S 는 모수의 공분산 행렬 로, 다음과 같이 주어진다.
S = σ 2 ( X T X ) − 1 . {\displaystyle \mathbf {S} =\sigma^{2}\왼쪽(\mathbf {X^{\mathsf{T}X}\오른쪽)^{-1}. } 참조
Draper, N. R.; Smith, H. (1998). Applied Regression Analysis (3rd ed.). John Wiley. ISBN 0-471-17082-8 .