분산 팽창 계수

Variance inflation factor

통계에서 분산 팽창 인자(VIF)는 한 항만을 사용하여 생성된 모형의 분산에 의해 여러 다른 항(모수)을 포함하는 모형의 일부 모수 추정 분산의 비율(양수)이다.[1]일반적인 최소 제곱법 분석에서 다중 공선성의 심각도를 계량화한다.공선성으로 인해 추정된 회귀 계수의 분산(추정 표준 편차의 제곱)이 얼마나 증가하는지 측정하는 지수를 제공한다.커트버트 다니엘은 분산 인플레이션 인자의 이면에 있는 개념을 발명했다고 주장하지만, 그 이름은 내놓지 않았다.[2]

정의

k개의 독립 변수를 사용하는 다음 선형 모형을 고려하십시오.

Y = β0 + β11 X + β2 X + ...+ βk Xk + ε.

The standard error of the estimate of βj is the square root of the j + 1 diagonal element of s2(XX)−1, where s is the root mean squared error (RMSE) (note that RMSE2 is a consistent estimator of the true variance of the error term, ); X is the regression design matrix — a matrix such that Xi, j+1 is the value of thejth i 사례th 또는 관측치에 대한 독립 변수, 즉 절편 항과 관련된 예측 변수i,1 X가 모든 i에 대해 1과 같다는 것이다.이 표준 오차 제곱, βj 추정치의 추정된 분산은 다음과 같이 동등하게 표현될 수 있는 것으로 나타났다.[3][4]

여기서 Rj2 다른 공변량의 Xj 회귀(반응 변수 Y를 포함하지 않는 회귀)에 대한 다중 R이다2.이 정체성은 계수 추정치의 분산에 대한 몇 가지 고유한 요인의 영향을 구분한다.

  • s2: 회귀 표면 주위의 데이터의 산란이 클수록 계수 추정치의 분산이 비례적으로 증가함
  • n: 표본 크기가 클수록 계수 추정치의 분산이 비례적으로 감소함
  • ( ) 특정 공변량의 변동성이 커지면 해당 계수 추정치의 분산이 비례적으로 감소함

나머지 기간인 1 / (1j2 - R)은 VIF이다.계수 추정치의 불확실성에 영향을 미치는 다른 모든 요인을 반영한다.VIF는 벡터 Xj 다른 공변량의 Xj 회귀 분석을 위해 설계 행렬의 각 열에 직교하는 경우 1과 같다.반대로 벡터 Xj 다른 공변량의 Xj 회귀 분석을 위해 설계 행렬의 모든 열에 직교하지 않을 경우 VIF는 1보다 크다.마지막으로 VIF는 변수의 스케일링에 불변함(즉, VIF를 변경하지 않고 각 변수 Xj 상수 cj 스케일링할 수 있음)이라는 점에 유의하십시오.

이제 = 을(를) 두도록 하고, 일반성을 잃지 않고 X의 열을 다시 정렬하여 첫 번째 열을 로 설정한다.

.

슈르보충을 사용하여r - 의 첫 번째 열과 첫 번째 열의 요소는

그럼, 우리는,

여기서 은 공변량 - j 에 대한 종속 변수 의 회귀 계수로서 J 해당하는 제곱의 잔차 합이다.

계산 및 분석

우리는 다음과 같은 세 단계로 k개의 서로 다른 VIF(X당i 하나씩)를 계산할 수 있다.

1단계

먼저 첫 번째 방정식의 다른 모든 설명 변수의 함수로 Xi 갖는 최소 제곱법을 실행한다.
를 들어 i = 1이면 방정식이

여기서 은 상수이고 e오차항이다.

2단계

그런 다음 다음 다음 공식을 사용하여 ^ 에 대한 VIF 계수를 계산하십시오.

여기서 R2i 1단계에서 회귀 방정식의 결정 계수로, 왼쪽에는 오른쪽에는 다른 모든 예측 변수(다른 모든 X 변수)가 있다.

3단계

}은 VIF ⁡(β ^ 나는){\displaystyle \operatorname{VIF}({\hat{\beta}}_{나는})의 크기를 고려할 때에 의해. 엄지 손가락의 규칙은 5i.다면 VIF(β ^ 나는)>10{\displaystyle \operatorname{VIF}({\hat{\beta}}_{나는})> 10분}⁡ 다음 다중 공선성은 high[5](컷오프 다중 공선성의 크기를 분석하다s또한 co단조롭게[6] 사용하다

일부 소프트웨어는 대신 VIF의 역수일 뿐인 허용오차를 계산한다.어떤 것을 사용할 것인가는 개인적인 취향의 문제다.

해석

분산 팽창 인자의 제곱근은 표준 오차가 모형의 다른 예측 변수와 0개의 상관 관계가 있는 경우보다 얼마나 크게 증가하는지 나타낸다.


예측 변수의 분산 팽창 계수가 5.27(제5.27 = 2.3)이면 해당 예측 변수의 계수에 대한 표준 오차는 해당 예측 변수의 다른 예측 변수와 0개의 상관 관계가 있는 경우보다 2.3배 크다는 것을 의미한다.

실행

참조

  1. ^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). An Introduction to Statistical Learning (8th ed.). Springer Science+Business Media New York. ISBN 978-1-4614-7138-7.
  2. ^ Snee, Ron (1981). Origins of the Variance Inflation Factor as Recalled by Cuthbert Daniel (Technical report). Snee Associates.
  3. ^ Rawlings, John O.; Pantula, Sastry G.; Dickey, David A. (1998). Applied regression analysis : a research tool (Second ed.). New York: Springer. pp. 372, 373. ISBN 0387227539. OCLC 54851769.
  4. ^ Faraway, Julian J. (2002). Practical Regression and Anova using R (PDF). pp. 117, 118.
  5. ^ Kutner, M. H.; Nachtsheim, C. J.; Neter, J. (2004). Applied Linear Regression Models (4th ed.). McGraw-Hill Irwin.
  6. ^ Sheather, Simon (2009). A modern approach to regression with R. New York, NY: Springer. ISBN 978-0-387-09607-0.

추가 읽기

  • Allison, P. D. (1999). Multiple Regression: A Primer. Thousand Oaks, CA: Pine Forge Press. p. 142.
  • Hair, J. F.; Anderson, R.; Tatham, R. L.; Black, W. C. (2006). Multivariate Data Analysis. Upper Saddle River, NJ: Prentice Hall.
  • Kutner, M. H.; Nachtsheim, C. J.; Neter, J. (2004). Applied Linear Regression Models (4th ed.). McGraw-Hill Irwin.
  • Longnecker, M. T.; Ott, R. L. (2004). A First Course in Statistical Methods. Thomson Brooks/Cole. p. 615.
  • Marquardt, D. W. (1970). "Generalized Inverses, Ridge Regression, Biased Linear Estimation, and Nonlinear Estimation". Technometrics. 12 (3): 591–612 [pp. 605–7]. doi:10.1080/00401706.1970.10488699.
  • Studenmund, A. H. (2006). Using Econometrics: A Practical Guide (5th ed.). Pearson International. pp. 258–259.
  • Zuur, A.F.; Ieno, E.N.; Elphick, C.S (2010). "A protocol for data exploration to avoid common statistical problems". Methods in Ecology and Evolution. 1: 3–14. doi:10.1111/j.2041-210X.2009.00001.x.

참고 항목