헤크먼 교정
Heckman correctionHeckman 수정은 무작위로 선택된 표본이나 우발적으로 잘린 종속변수의 편향을 교정하기 위한 통계적 기법으로, 관측 데이터를 사용할 때 정량적 사회과학에 널리 퍼져 있다.[1] 개념적으로 이것은 종속변수의 조건부 기대치(일명 결과 방정식)와 함께 각 관측치의 개별 표본 추출 확률(일명 선택 방정식)을 명시적으로 모델링함으로써 달성된다. 결과우도함수는 1974년 제임스 헤크먼이 처음 그린 연결인 관측 중단 종속 변수에 대한 토비트 모델과 수학적으로 유사하다.[2] 헤크먼은 이 모델을 추정하기 위한 2단계 제어 함수 접근법도 개발했는데,[3] 비효율성의 원가가기는 하지만 두 방정식을 공동으로 추정해야 하는 계산적 부담을 피할 수 있다.[4] 헤크먼은 이 분야에서 일한 공로로 2000년 노벨경제과학상(경제과학상)을 받았다.[5]
방법
무작위로 추출한 표본을 바탕으로 한 통계적 분석은 잘못된 결론을 초래할 수 있다. 2단계 통계적 접근방식인 Heckman 수정은 무작위로 선택된 표본에 대한 수정 수단을 제공한다.
Heckman은 규격 오류로 행동 관계를 추정하기 위해 무작위로 선택된 샘플을 사용하는 것에서 오는 편견에 대해 논했다. 그는 편향을 교정하기 위해 2단계의 추정 방법을 제안한다. 이 수정은 제어 기능 아이디어를 사용하며 실행이 용이하다. Heckman의 보정은 정규성 가정을 수반하며, 표본 선택 편향에 대한 검정과 편향 보정 모델에 대한 공식을 제공한다.
연구자가 임금 제안의 결정요인을 추정하려고 하지만 일하는 사람에 대해서만 임금 관찰에 접근할 수 있다고 가정해 보자. 근로자는 모집단에서 무작위로 선발되기 때문에 하위 인구에서 발생하는 임금 결정요인을 추정하면 편견이 생길 수 있다. Heckman 교정은 두 단계로 이루어진다.
첫 번째 단계에서, 연구자는 경제 이론에 기초하여 일할 확률을 위한 모델을 만든다. 이 관계에 대한 표준 사양은 형식의 프로빗 회귀다.
여기서 D는 고용(응답자가 고용된 경우 D = 1이고 그렇지 않은 경우 D = 0), Z는 설명 변수의 벡터, 은 알 수 없는 모수의 벡터, φ은 표준 정규 분포의 누적 분포함수다. 모델 추정은 각 개인에 대한 이 고용 확률을 예측하는 데 사용할 수 있는 결과를 산출한다.
두 번째 단계에서 연구자는 이러한 예측된 개별 확률의 변형을 추가 설명 변수로 통합하여 자기 선택을 수정한다. 임금 방정식을 명시할 수 있다.
여기서 는 근본적인 임금 제안을 나타내며, 응답자가 작동하지 않을 경우 지켜지지 않는다. 그 사람이 일하는 것에 대한 조건부 기대는 그때이다.
오차항이 공동으로 정상이라는 가정 하에, 우리는 다음과 같이 한다.
성향의 눈에 띄지 않는 결정 요인 간에 ρ은 상관 관계 임금의 ε고 눈에 띄지 않는{\displaystyle \varepsilon}결정 인자들이 일하는 것이었구나.{\displaystyle u}의 u,σ 너는 표준 편차, λ{\lambda\displaystyle}은 역 밀스 비율 Zγ{Z\gamma\displaystyle}로 계산된 이것을 제공한다. eq은 X와 둘 다에 대한 조건부로 샘플 선택을 생략된 변수 편향의 한 형태로 볼 수 있다는 Heckman의 통찰력을 보여준다 임금 방정식은 을(를) 첫 단계부터 Probit 추정치로 대체하고, 용어를 구성하여 임금 방정식의 선형 회귀 추정에 추가 설명 변수로 포함시킴으로써 추정할 수 있다. > 0 이후 의 계수는 = 일 경우에만 0이 될 수 있으므로 에 대한 계수가 0인지 테스트와 동일하다.
헤크먼의 업적은 경제학뿐만 아니라 다른 사회과학에서도 많은 경험적 응용을 만들어냈다. 원래의 방법은 이후 Heckman과 다른 사람들에 의해 일반화되었다.[6]
통계적 추론
Heckman 보정은 2단계의 OLS 추정에 의해 생성된 공분산 행렬이 일치하지 않는 2단계의 M-추정기이다.[7] 정확한 표준 오차 및 기타 통계는 점근 근사치 또는 부트스트랩을 통해 다시 샘플링하여 생성할 수 있다.[8]
단점들
- 위에서 논의한 2단계 추정기는 제한된 정보 최대우도(LIML) 추정기다. Monte Carlo 시뮬레이션에서 입증된 무증상 이론과 유한 표본에서 전체 정보(FIML) 추정기는 더 나은 통계적 특성을 나타낸다. 그러나 FIML 추정기는 계산적으로 구현하기가 더 어렵다.[9]
- 표준 모델은 오류가 공동으로 정상이라고 가정한다. 그러한 가정이 실패할 경우 추정기는 일반적으로 일관성이 없으며 작은 표본에서 잘못된 추론을 제공할 수 있다.[10] 이러한 경우 반파람계 및 기타 강력한 대안이 사용될 수 있다.[11]
- 모델은 선택 방정식과 관심 방정식에 동일한 공변량이 나타날 때 정규성 가정으로부터 공식적인 식별을 얻지만, 역 밀스 비율에 상당한 비선형성이 있는 꼬리에 많은 관측치가 없는 한 식별은 미지근하다. 일반적으로 신뢰할 수 있는 추정치를 생성하기 위해 제외 제한이 필요하다. 선택 방정식에 0이 아닌 계수를 사용하여 나타나지만 관심 방정식, 본질적으로 금융상품에는 나타나지 않는 변수가 하나 이상 있어야 한다. 그러한 변수를 사용할 수 없는 경우 샘플링 선택성에 대한 수정이 어려울 수 있다.[9]
통계 패키지의 구현
- R: Heckman-type 절차는 다음 중 하나로 이용 가능
sampleSelection꾸러미[12][13] - Stata: 명령어
heckmanHeckman 선택 모델을 제공한다.[14][15]
참고 항목
참조
- ^ Winship, Christopher; Mare, Robert D. (1992). "Models for Sample Selection Bias". Annual Review of Sociology. 18: 327–350. doi:10.1146/annurev.so.18.080192.001551.
- ^ Heckman, James (1974). "Shadow Prices, Market Wages, and Labor Supply". Econometrica. 42 (4): 679–694. doi:10.2307/1913937.
- ^ Heckman, James (1976). "The Common Structure of Statistical Models of Truncation, Sample Selection and Limited Dependent Variables and a Simple Estimator for Such Models". Annals of Economic and Social Measurement. 5 (4): 475–492.
- ^ Nawata, Kazumitsu (1994). "Estimation of Sample Selection Bias Models by the Maximum Likelihood Estimator and Heckman's Two-Step Estimator". Economics Letters. 45 (1): 33–40. doi:10.1016/0165-1765(94)90053-1.
- ^ Uchitelle, Louis (October 12, 2000). "2 Americans Win the Nobel For Economics". New York Times.
- ^ Lee, Lung-Fei (2001). "Self-selection". In Baltagi, B. (ed.). A Companion to Theoretical Econometrics. Oxford: Blackwell. pp. 383–409. doi:10.1002/9780470996249.ch19. ISBN 9780470996249.
- ^ Amemiya, Takeshi (1985). Advanced Econometrics. Cambridge: Harvard University Press. pp. 368–372. ISBN 0-674-00560-0.
- ^ Cameron, A. Colin; Trivedi, Pravin K. (2005). "Sequential Two-Step m-Estimation". Microeconometrics: Methods and Applications. New York: Cambridge University Press. pp. 200–202. ISBN 0-521-84805-9.
- ^ a b Puhani, P. (2000). "The Heckman Correction for sample selection and its critique". Journal of Economic Surveys. 14 (1): 53–68. doi:10.1111/1467-6419.00104.
- ^ Goldberger, A. (1983). "Abnormal Selection Bias". In Karlin, Samuel; Amemiya, Takeshi; Goodman, Leo (eds.). Studies in Econometrics, Time Series, and Multivariate Statistics. New York: Academic Press. pp. 67–84. ISBN 0-12-398750-4.
- ^ Newey, Whitney; Powell, J.; Walker, James R. (1990). "Semiparametric Estimation of Selection Models: Some Empirical Results". American Economic Review. 80 (2): 324–28. JSTOR 2006593.
- ^ Toomet, O.; Henningsen, A. (2008). "Sample Selection Models in R: Package sampleSelection". Journal of Statistical Software. 27 (7): 1–23. doi:10.18637/jss.v027.i07.
- ^ "sampleSelection: Sample Selection Models". R Project. 3 May 2019.
- ^ "heckman — Heckman selection model" (PDF). Stata Manual.
- ^ Cameron, A. Colin; Trivedi, Pravin K. (2010). Microeconometrics Using Stata (Revised ed.). College Station: Stata Press. pp. 556–562. ISBN 978-1-59718-073-3.
추가 읽기
- Achen, Christopher H. (1986). "Estimating Treatment Effects in Quasi-Experiments : The Case of Censored Data". The Statistical Analysis of Quasi-Experiments. Berkeley: University of California Press. pp. 97–137. ISBN 0-520-04723-0.
- Breen, Richard (1996). Regression Models : Censored, Sample Selected, or Truncated Data. Thousand Oaks: Sage. pp. 33–48. ISBN 0-8039-5710-6.
- Fu, Vincent Kang; Winship, Christopher; Mare, Robert D. (2004). "Sample Selection Bias Models". In Hardy, Melissa; Bryman, Alan (eds.). Handbook of Data Analysis. London: Sage. pp. 409–430. doi:10.4135/9781848608184.n18. ISBN 0-7619-6652-8.
- Greene, William H. (2012). "Incidental Truncation and Sample Selection". Econometric Analysis (Seventh ed.). Boston: Pearson. pp. 912–27. ISBN 978-0-273-75356-8.
- Vella, Francis (1998). "Estimating Models with Sample Selection Bias: A Survey". Journal of Human Resources. 33 (1): 127–169. doi:10.2307/146317. JSTOR 146317.
