기형화를 사용한 다단계 회귀 분석

Multilevel regression with poststratification

다단계 회귀 분석 및 사후 변형(MRP)("Mister P"라고도 함)은 표본 모집단(사용자가 보유한 데이터의 모집단)과 목표 모집단(추정하고자 하는 모집단) 사이의 알려진 차이에 대한 모형 추정치를 수정하는 데 사용되는 통계 기법이다.예를 들어 왕 외는 [1]Xbox 게이머들의 조사 데이터를 이용해 미국 대선 결과를 예측했다.엑스박스 게이머는 18세부터 29세까지 65%, 남성 93%로 나타났으며, 유권자 전체로는 18세부터 29세까지 19%, 남성 47%로 나타났다.

사후 변형(poststrativation)은 추정치를 조정하는 과정, 즉 본질적으로 가능한 모든 속성 조합에서 추정치의 가중 평균을 가리킨다(이 예에서는 더 많았지만 연령과 성별).각각의 조합은 때때로 "세포"라고 불린다.다단계 회귀 분석은 전체 또는 인근 평균을 사용하여 데이터가 너무 적은 셀에서 잡음이 심한 추정치를 부드럽게 하는 데 사용된다.

한 애플리케이션은 다른 집계 수준(예: 국가 조사)에서 수집된 개인 수준의 조사 데이터를 바탕으로 하위 지역(예: 주, 개별 선거구)의 선호도를 추정하는 것이다.[2]

기술과 그 장점들

이 기법은 기본적으로 다른 특성(예: 나이, 인종)에 해당하는 다양한 유형의 사람들과 관련된 관측 중단 데이터를 그러한 유형과 개별 선호(데이터세트의 다단계 회귀) 사이의 관계를 추정하기 위한 첫 번째 단계에서 사용하는 것을 포함한다.그런 다음 두 번째 단계에서 이 관계를 사용하여 해당 하위 영역에서 각 유형/성격을 가지는 인구 수("후스트라티화"[3]라고 알려진 프로세스)를 기준으로 하위 지역 선호도를 추정한다.이러한 방식으로 하위 지역(예: 카운티, 소도시 또는 주)이 많은 지역(예: 국가)에서 비용이 많이 들고 비실용적일 수 있는 하위 지역 수준에서 조사를 수행할 필요가 없다.또한 서로 다른 영역에서 수행되는 여러 조사를 비교할 때 조사의 일관성 문제를 방지한다.[4][2]또한, 해당 지역 출신자가 상대적으로 적거나 표본이 매우 비현상적일 수 있는 광범위한 지역에 걸쳐 실시된 조사에 기초하여 특정 지역 내에서 선호도를 추정할 수 있다.[5]

역사

이 기술은 원래 겔만과 T에 의해 개발되었다.1997년에는 거의 Fay, Herriot[7], R에 대한 아이디어를 기반으로 했다.[6]작다.[8]이후 2004년과 2006년에 박, 겔만, 바푸미에 의해 확장되었다.2009년 Lax와 Philips에 의해 미국 수준의 유권자 선호도를 추정하는 데 사용하기 위해 제안되었다.이후 워쇼와 로드든은 2012년 지구 수준의 여론을 추정하는 데 사용할 것을 제안했다.[2]왕 외는 [1]이후 엑스박스 이용자 조사를 토대로 2012년 미국 대선 결과를 추정하는 데 사용했으며 역학 분야에서도 활용하자는 제안이 나왔다.[5]

유고브2017년 영국 총선의 전체 결과를 성공적으로 예측하기 위해 이 기법을 사용해 선거구의 93%를 정확하게 예측했다.[9][10]

제한 및 확장

MRP는 시간이[4] 지남에 따라 의견의 변화를 추정하는 것으로 확장될 수 있으며, 지명이 마감된 후 투표일에 비교적 가까이 사용될 때 선거가 가장 효과적일 것으로 예측하는 데 사용될 수 있다.[11]

MRP의 "다단계 회귀"와 "포스트스트래티지화" 사상은 모두 일반화될 수 있다.다단계 회귀 분석은 비모수적 회귀[12] 분석이나 정규화된 예측으로 대체될 수 있으며, 포스트스트래티지화는 알려진 것보다 추정된 비인접 변수, 즉 사후스트래티지 합계를 허용하도록 일반화할 수 있다.[13]

참조

  1. ^ a b Wang, Wei; Rothschild, David; Goel, Sharad; Gelman, Andrew (2015). "Forecasting elections with non-representative polls" (PDF). International Journal of Forecasting. 31 (3): 980–991. doi:10.1016/j.ijforecast.2014.06.001.
  2. ^ a b c Buttice, Matthew K.; Highton, Benjamin (Autumn 2013). "How Does Multilevel Regression and Poststratification Perform with Conventional National Surveys?". Political Analysis. 21 (4): 449–451. doi:10.1093/pan/mpt017. JSTOR 24572674.
  3. ^ "What is MRP?". Survation.com. Survation. Retrieved 31 October 2019.
  4. ^ a b Gelman, Andrew; Lax, Jeffrey; Phillips, Justin; Gabry, Jonah; Trangucci, Robert (28 August 2018). "Using Multilevel Regression and Poststratification to Estimate Dynamic Public Opinion" (PDF): 1–3. Retrieved 31 October 2019. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
  5. ^ a b Downes, Marnie; Gurrin, Lyle C.; English, Dallas R.; Pirkis, Jane; Currier, Diane; Spital, Matthew J.; Carlin, John B. (9 April 2018). "Multilevel Regression and Poststratification: A Modeling Approach to Estimating Population Quantities From Highly Selected Survey Samples". American Journal of Epidemiology. 179 (8): 187. Retrieved 31 October 2019.
  6. ^ Gelman, Andrew; Little, Thomas (1997). "Poststratification into many categories using hierarchical logistic regression". Survey Methodology. 23: 127–135.
  7. ^ Fay, Robert; Herriot, Roger (1979). "Estimates of income for small places: An application of James-Stein procedures to census data". Journal of the American Statistical Association. 74 (423): 1001–1012. doi:10.1080/01621459.1979.10482505. JSTOR 2286322.
  8. ^ Little, Roderick (1993). "Post-stratification: A modeler's perspective". Journal of the American Statistical Association. 88 (423): 1001–1012. doi:10.1080/01621459.1993.10476368. JSTOR 2290792.
  9. ^ Revell, Timothy (9 June 2017). "How YouGov's experimental poll correctly called the UK election". New Scientist. Retrieved 31 October 2019.
  10. ^ Cohen, Daniel (27 September 2019). "'I've never known voters be so promiscuous': the pollsters working to predict the next UK election". The Guardian. Retrieved 31 October 2019.
  11. ^ James, William; MacLellan, Kylie (15 October 2019). "A question of trust: British pollsters battle to call looming election". Reuters. Retrieved 31 October 2019.
  12. ^ Bisbee, James (2019). "BARP: Improving Mister P Using Bayesian Additive Regression Trees". American Political Science Review. 113 (4): 1060–1065. doi:10.1017/S0003055419000480.
  13. ^ Gelman, Andrew (28 October 2018). "MRP (or RPP) with non-census variables". Statistical Modeling, Causal Inference, and Social Science.