생략변수편향

Omitted-variable bias

통계에서 생략변수 치우침(OVB)은 통계적 모형이 하나 이상의 관련 변수를 제외할 때 발생한다. 치우침은 누락 변수의 효과를 포함된 변수에 귀속시키는 모형으로 귀결된다.

구체적으로는, OVB는 회귀 분석에서 모수의 추정치에 나타나는 편향으로, 가정된 규격이 종속 변수의 결정 요인이며 포함된 하나 이상의 독립 변수와 상관관계가 있는 독립 변수를 생략한다는 점에서 부정확하다.

선형 회귀 분석에서

직감

진정한 인과관계는 다음과 같다고 가정합시다.

변수 a, b, c, 종속 변수 y, 독립 변수 xz, 오차항 u. 우리는 x 자체가 y에 미치는 영향을 알고 싶다(, b의 견적을 얻기를 원한다).

생략된 변수 치우침이 선형 회귀 분석에서 존재하려면 두 조건이 참이어야 한다.

  • 생략된 변수는 종속 변수의 결정 요인(즉, 참 회귀 계수가 0이 아니어야 함)이어야 한다.
  • 생략된 변수는 회귀 분석에서 지정된 독립 변수(즉, cov(z,x)가 0이 아니어야 함)와 상관되어야 한다.

회귀 분석에서 z를 생략하고 xz의 관계가 다음과 같이 주어진다고 가정합시다.

매개변수 d, f오차항 e. 두 번째 방정식을 첫 번째 방정식으로 대체하는 것은

만약 y의 회귀가 x에만 행해진다면, 이 마지막 방정식은 추정된 것이고, x에 대한 회귀 계수는 실제로 (b + cf )의 추정치로, 단순히 y에 대한 x의 원하는 직접 효과의 추정치가 아니라, 간접 효과(z에 대한 효과 f의 곱에 z의 효과 cy에 대한 효과 c)를 합한 것이다. 따라서 회귀 분석에서 변수 z를 제외함으로써 x에 대한 부분적 파생상품이 아니라 x에 대한 y의 총 파생상품을 추정했다. cf가 모두 0이 아닌 경우 이 둘은 다르다.

추구하는 효과가 b이지만 회귀 추정 b+cf이기 때문에 치우침의 방향과 범위는 모두 cf에 포함되어 있다. 편향의 범위는 cf의 절대값이며, 편향의 방향은 cf > 0(y와 z의 상관관계 방향x와 z 사이의 방향과 같을 경우)이면 상향(더 양수 또는 더 적은 음수값을 나타냄)이고, 그렇지 않으면 하향이다.

상세분석

예를 들어, 폼의 선형 모형을 고려하십시오.

어디에

  • xi 시간 i 또는 i th 연구 참가자를 위해 관측된 p 독립 변수 값의 1 × p 벡터다.
  • β는 관측할 수 없는 매개변수의 p × 1 열 벡터(xip 독립 변수에 대한 종속 변수의 응답 계수)로 추정해야 한다.
  • zi 스칼라이며, 시간 i 또는 i th 스터디 참가자에 대해 관측되는 또 다른 독립 변수의 값이다.
  • Δ는 스칼라로서 추정할 관측할 수 없는 변수(z에 대한i 종속 변수의 반응 계수)이다.
  • ui 시간 i 또는 i 연구 th 참가자에 대해 발생하는 관측할 수 없는 오류 용어로서, 기대 값 0을 갖는 무작위 변수의 관측치 없는 실현이다(xi zi 조건부).
  • yi 시간 i 또는 i th 스터디 참가자에 대한 종속 변수의 관찰이다.

우리는 첨자 i = 1, ..., n인 모든 변수의 관측치를 수집하여 X 행렬Y, Z 및 U 벡터:

그리고

독립 변수 z가 회귀 분석에서 생략된 경우 다른 독립 변수의 반응 모수에 대한 추정 값은 일반적인 최소 제곱 계산에 의해 계산된다.

(여기서 "prime" 표기법은 행렬의 전치사를 의미하며 -1 위첨자는 행렬 반전이다.

가정된 선형 모형에 근거하여 Y를 대체한다.

예상에 따라, 최종 기간의 기여도는 0이다. 는 U가 퇴역군 X와 무관하다는 가정에서 비롯된다. 나머지 조건을 단순화하는 경우:

등호 뒤의 두 번째 항은 이 경우 생략된 변수 z가 행렬 X에 포함된 변수 중 하나(즉, X vectorZ가 0의 벡터와 같지 않은 경우)와 상관되는 경우 0이 아닌 변수다. 치우침은 xi "설명"되는 zi 가중 부분과 동일하다는 점에 유의하십시오.

일반 최소 제곱의 효과

가우스-마코프 정리는 고전적 선형 회귀 모델 가정을 충족하는 회귀 모형이 가장 효율적이고 선형적이며 편향되지 않은 추정기를 제공한다고 명시한다. 일반적인 최소 제곱에서, 고전적 선형 회귀 모형의 관련 가정은 오차항이 회귀 분석기와 무관하다는 것이다.

생략된 변수 편향의 존재는 이러한 특정한 가정을 위반한다. 이 위반으로 인해 OLS 추정기는 편향되고 일관성이 없다. 치우침의 방향은 추정기와 회귀 분석기와 생략된 변수 사이의 공분산에 따라 달라진다. 생략된 변수의 양의 공분산(regressor)과 종속변수는 모두 포함된 regressor 계수의 OLS 추정치가 해당 계수의 참 값보다 커지게 된다. 이 효과는 앞의 절에서와 같이 파라미터의 기대를 취함으로써 알 수 있다.

참고 항목

참조

  • Barreto; Howland (2006). "Omitted Variable Bias". Introductory Econometrics: Using Monte Carlo Simulation with Microsoft Excel. Cambridge University Press.
  • Clarke, Kevin A. (2005). "The Phantom Menace: Omitted Variable Bias in Econometric Research". Conflict Management and Peace Science. 22 (4): 341–352. doi:10.1080/07388940500339183.
  • Greene, W. H. (1993). Econometric Analysis (2nd ed.). Macmillan. pp. 245–246.
  • Wooldridge, Jeffrey M. (2009). "Omitted Variable Bias: The Simple Case". Introductory Econometrics: A Modern Approach. Mason, OH: Cengage Learning. pp. 89–93. ISBN 9780324660548.