견고한 회귀 분석
Robust regression시리즈의 일부 |
회귀 분석 |
---|
모델 |
견적 |
배경 |
로버스트 회귀는 기존 모수 및 비모수 방법의 한계를 극복하기 위해 설계된 회귀 분석의 한 형태입니다.회귀 분석에서는 하나 이상의 독립 변수와 종속 변수 간의 관계를 찾습니다.일반 최소 제곱법과 같이 널리 사용되는 특정 회귀 방법은 기본 가정이 참이면 유리한 특성을 가지지만, 그러한 가정이 참이 아니라면 잘못된 결과를 제공할 수 있다. 따라서 일반 최소 제곱법은 가정 위반에 강하지 않다고 한다.강력한 회귀 분석 방법은 기본 데이터 생성 프로세스에 의한 가정 위반의 영향을 크게 받지 않도록 설계되었습니다.
특히 회귀 모형의 최소 제곱 추정치는 특이치에 매우 민감합니다.특이치에 대한 정확한 정의는 없지만 특이치는 다른 관측치의 패턴을 따르지 않는 관측치입니다.특이치가 단순히 정규 분포의 꼬리에서 도출된 극단적 관측치인 경우에는 일반적으로 문제가 되지 않지만, 특이치가 비정규 측정 오차 또는 표준 정규 최소 제곱 가정에 대한 기타 위반으로 인해 발생하는 경우에는 비강화 회귀 분석 기술이 회귀 분석 결과의 유효성을 손상시킵니다.icue 가 사용됩니다.
적용들
헤테로세스틱 오류
견고한 추정이 고려되어야 하는 한 가지 예는 이질성이 매우 의심되는 경우이다.균질화 모형에서는 오차항의 분산이 x의 모든 값에 대해 일정하다고 가정합니다. 이질화성은 분산이 x에 의존하도록 허용하며, 이는 많은 실제 시나리오에서 더 정확합니다.예를 들어, 지출의 편차는 소득이 높은 개인이 소득이 낮은 개인보다 더 큰 경우가 많다.소프트웨어 패키지는 일반적으로 균질화 모델로 기본 설정되지만, 이러한 모델은 이질화 모델보다 정확도가 낮을 수 있습니다.한 가지 간단한 접근법(Topallis, 2008)은 최소 제곱을 백분율 오차에 적용하는 것이다. 이는 일반적인 최소 제곱에 비해 종속 변수의 큰 값의 영향을 감소시키기 때문이다.
특이치의 존재
데이터에 특이치가 포함된 경우 강력한 추정이 사용되는 또 다른 일반적인 상황이 발생합니다.나머지 데이터와 동일한 데이터 생성 공정에서 추출되지 않은 특이치가 있는 경우 최소 제곱 추정은 비효율적이며 치우칠 수 있습니다.최소 제곱 예측이 특이치 쪽으로 끌리고 추정치의 분산이 인위적으로 부풀어 오르기 때문에 결과적으로 특이치를 마스킹할 수 있습니다.(지질 통계학 및 의료 통계의 일부 영역을 포함한 많은 상황에서, 정확히 관심 있는 것은 특이치이다.)
때때로 최소 제곱법(또는 일반적인 통계적 방법)이 강력하다고 주장되지만, 이러한 제곱법은 모형을 위반할 때 유형 I 오류율이 증가하지 않는다는 점에서 강력할 뿐이다.실제로 I형 오류율은 특이치가 존재할 때 공칭 수준보다 낮은 경향이 있으며 종종 II형 오류율이 극적으로 증가합니다.유형 I 오류율의 감소는 고전적 방법의 보수성으로 분류되었다.
강력한 회귀의 역사와 비인기
많은 상황에서 최소 제곱 추정보다 우수한 성능에도 불구하고, 강력한 회귀 방법은 여전히 널리 사용되지 않습니다.몇 가지 이유가 비인기 현상을 설명하는 데 도움이 될 수 있다(Hampel 등, 1986, 2005).한 가지 가능한 이유는 여러 가지 경쟁[citation needed] 방법이 있는데 그 분야가 많은 부정 출발을 했기 때문이다.또한 견고한 추정치의 계산은 최소 제곱 추정치보다 훨씬 계산 집약적입니다. 그러나 최근에는 계산 능력이 크게 향상됨에 따라 이러한 반대 의견은 관련성이 떨어졌습니다.또 다른 이유는 일부 인기 있는 통계 소프트웨어 패키지가 이 방법을 구현하지 못했기 때문일 수 있다(Stromberg, 2004).고전적인 방법이 강력하다는 많은 통계학자들의 믿음도 또 다른[citation needed] 이유일 수 있다.
강력한 방법의 도입은 느리지만, 현대의 주류 통계 교과서에는 종종 이러한 방법에 대한 논의가 포함되어 있다(예를 들어, Seber와 Lee의 책, 그리고 Farway의 책들, 서로에게서 발전된 다양한 강력한 회귀 방법이 어떻게 안데르센의 책을 참조하는지에 대한 좋은 일반적인 설명이 수록되어 있다.또한, R, Statsmodels, Stata 및 S-PLUS와 같은 최신 통계 소프트웨어 패키지에는 강력한 추정을 위한 상당한 기능이 포함되어 있다(예: Venables와 Ripley의 책 및 Maronna 등의 책 참조).
강력한 회귀 분석을 위한 방법
최소 제곱 대안
회귀 모형에서 최소 제곱 추정치보다 특이치에 덜 민감한 모수를 추정하는 가장 간단한 방법은 최소 절대 편차를 사용하는 것입니다.그럼에도 불구하고, 총 특이치는 여전히 모델에 상당한 영향을 미칠 수 있으며, 훨씬 더 강력한 접근법에 대한 연구에 동기를 부여할 수 있다.
1964년 Huber는 회귀를 위한 M-추정을 도입했다.M-추정의 M은 "최대우도 유형"을 나타냅니다.이 방법은 반응 변수의 특이치에는 강력하지만 설명 변수(레버리지 점)의 특이치에는 저항하지 않는 것으로 나타났습니다.실제로 설명 변수에 특이치가 있는 경우 방법은 최소 제곱보다 더 유리하지 않습니다.
1980년대에 저항의 부족을 극복하기 위한 시도로 M-추정에 대한 몇 가지 대안이 제안되었다.매우 실용적인 리뷰는 Rousseeu와 Leroy의 책을 참조하십시오.LTS(Lest trimed square)는 실행 가능한 대안으로 현재(2007) Rouseuw와 Ryan(1997, 2008) 중 선호되는 선택이다.테일-센 추정기는 LTS보다 분해점이 낮지만 통계적으로 효율적이고 인기가 있습니다.또 다른 제안 솔루션은 S-추정입니다.이 방법은 잔차의 척도에 대한 견고한 추정치(방법에서 이름에서 S를 얻는 값)를 최소화하는 선(평면 또는 초평면)을 찾습니다.이 방법은 레버리지 점에 대한 저항성이 높고 반응의 특이치에 대해 강력합니다.그러나 이 방법 역시 비효율적인 것으로 나타났다.
MM 추정은 M 추정의 효율성을 얻으면서 S 추정의 견고성과 저항을 유지하려고 시도합니다.방법은 잔차 척도의 M 추정치(방법 이름의 첫 번째 M)를 최소화하는 매우 강력하며 저항성이 강한 S 추정치를 찾는 방식으로 진행됩니다.추정 척도는 일정하게 유지되며 모수의 M-추정에 의한 근접값(두 번째 M)이 지정된다.
파라메트릭 대안
회귀 모형의 강력한 추정에 대한 또 다른 접근 방식은 정규 분포를 두꺼운 꼬리 분포로 대체하는 것입니다.자유도가 4-6인 t-분포는 다양한 실제 상황에서 좋은 선택이라고 보고되었다.베이지안 강성 회귀는 완전한 모수적이어서 그러한 분포에 크게 의존한다.
t-분포 잔차 가정에서는 분포가 위치 척도 집합입니다., x ( -) / { x 화살표 display 입니다. t-분포의 자유도를 첨도 파라미터라고 부르기도 합니다.Lange, Little 및 Taylor(1989)는 이 모델을 비베이지안적 관점에서 어느 정도 깊이 있게 논의한다.베이지안 계정은 겔만 등에 나타난다.(2003).
대안 모수적 접근법은 잔차가 정규 분포의 혼합을 따른다고 가정하는 것이다(대미 등 2019). 특히 대부분의 관측치가 지정된 정규 분포에서 나왔지만 작은 비율은 훨씬 높은 분산의 정규 분포에서 나온 오염된 정규 분포이다.즉, 잔차는 분산이 있는 정규분포^{에서 올 이 1 - \ 여기서{\}은 이 있는 에서 올 확률이이다. > { c :
으로 <.1\ style \ 0.은 \ \ - 오염 모델이라고도 불립니다.
파라메트릭 접근방식은 우도 이론이 추론에 대해 "기존" 접근방식을 제공한다는 장점이 있으며(, 과 같은 혼합 모델의 경우 일반적인 규칙성 조건이 적용되지 않을 수 있음), 적합에서 시뮬레이션 모델을 구축할 수 있다.그러나 이러한 모수 모형은 여전히 기본 모형이 문자 그대로 참이라고 가정합니다.따라서 치우친 잔차 분포나 유한 관측치 정밀도는 설명하지 않습니다.
단위중량
또 다른 강력한 방법은 단일 결과의 예측 변수가 여러 개일 때 적용할 수 있는 방법인 단위 가중치(Wainer & Thissen, 1976)를 사용하는 것이다.어니스트 버지스(1928)는 가석방의 성공을 예측하기 위해 단위 가중치를 사용했다.그는 현재(예: "사전 체포 없음" = 1) 또는 부재(예: "사전 체포" = 0)로 21개의 긍정적인 요인을 채점한 후, 합산하여 가석방 성공의 유용한 예측 변수가 되는 것으로 나타났다.사무엘 S. Wilks(1938)는 거의 모든 회귀 가중치가 단위 가중치를 포함하여 서로 매우 높은 상관관계가 있는 복합 재료의 합계를 나타내며, 그 결과는 Wilks의 정리라고 한다(Ree, Caretta, & Earles, 1998).로빈 도스(1979)는 적용된 환경에서 의사결정을 조사했으며, 단위 체중을 가진 단순한 모델이 종종 인간 전문가보다 우수하다는 것을 보여주었다.Bobko, Roth, and Buster(2007)는 단위 체중에 대한 문헌을 검토했고 수십 년간의 경험적 연구에서 단위 체중은 교차 검증에서 일반적인 회귀 체중과 유사한 성능을 발휘한다는 결론을 내렸다.
예: BUPA 간 데이터
BUPA 간 데이터는 브레이만(2001)을 포함한 다양한 저자에 의해 연구되었다.데이터는 기존의 데이터 세트 페이지에서 확인할 수 있으며, Box-Cox 변환에 대한 기사에서 일부 설명합니다.ALT 로그 대 GT 로그의 플롯은 다음과 같습니다.두 회귀선은 일반 최소 제곱(OLS)과 강력한 MM 추정에 의해 추정된 회귀선입니다.분석은 Venables와 Ripley(2002)가 제공하는 소프트웨어를 사용하여 R에서 수행되었다.
두 회귀선은 매우 유사한 것으로 보입니다(이 크기의 데이터 집합에서는 드문 일이 아닙니다).그러나 잔류 척도의 추정치를 고려할 때 강력한 접근법의 장점이 드러난다.일반 최소 제곱법의 경우 척도의 추정치는 0.420인데 반해, 로버스트 방법의 경우 0.373입니다.따라서 이 예에서 일반 최소 제곱과 MM 추정의 상대 효율은 1.266입니다.이러한 비효율성으로 인해 가설 검정의 검정력이 손실되고 추정된 모수에 대한 신뢰 구간이 불필요하게 넓어집니다.
이상치 검출
정규 최소 제곱 적합치의 비효율성에 대한 또 다른 결과는 잔차 척도의 추정치가 부풀려지기 때문에 여러 특이치가 마스킹된다는 것입니다. 스케일 잔차는 보다 적절한 척도의 추정치를 사용하는 경우보다 0에 가깝게 밀립니다.두 모형의 축척 잔차 그림은 다음과 같습니다.x축의 변수는 데이터 집합에 나타난 관측치 번호일 뿐입니다.루시우와 루로이(1986)는 그런 줄거리를 많이 담고 있다.
수평 기준선은 2와 -2에 있으므로 이러한 경계를 벗어난 관측된 척도 잔차를 특이치로 간주할 수 있습니다.최소 제곱법은 많은 흥미로운 관측치를 마스킹하도록 유도합니다.
하나 또는 두 개의 차원 특이치 검출은 고전적인 방법을 사용하여 수동으로 수행될 수 있지만, 대규모 데이터 세트와 고차원에서는 마스킹 문제로 인해 많은 특이치를 식별할 수 없게 될 수 있다.강력한 방법은 이러한 관측치를 자동으로 탐지하여 특이치가 있을 때 기존 방법보다 훨씬 유리합니다.
「 」를 참조해 주세요.
- 반복 재가중 최소 제곱
- M-추정자
- 완만한 교차로
- 랜섬
- 반복 중위수 회귀 분석
- 강력한 단순 선형 회귀 분석 방법인 Theil-Sen 추정기
레퍼런스
- Liu, J.; Cosman, P. C.; Rao, B. D. (2018). "Robust Linear Regression via L0 Regularization". IEEE Transactions on Signal Processing. 66 (3): 698–713. doi:10.1109/TSP.2017.2771720.
- Andersen, R. (2008). Modern Methods for Robust Regression. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-152.
- 벤-갈 I. 이상 검출: 마이몬 O.와 락커치 L. (Eds)데이터 마이닝 및 지식 발견 핸드북:실무자와 연구자를 위한 완전한 가이드" Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2.
- Bobko, P., Roth, P. L., & Buster, M. A. (2007)종합 점수를 작성할 때 단위 가중치의 유용성:문헌 검토, 콘텐츠 유효성 적용 및 메타 분석.Organizational Research Methods, 제10권, 689-709쪽.doi:10.1177/1094428106294734
- Daemi, Atefeh, Hariprasad Kodamana 및 Biao Huang. "가우스 혼합물 우도의 가우스 프로세스 모델링." 프로세스 제어 저널 81(2019): 209-220. doi:10.1016/j.procont.2019.06.007
- Breiman, L. (2001). "Statistical Modeling: the Two Cultures". Statistical Science. 16 (3): 199–231. doi:10.1214/ss/1009213725. JSTOR 2676681.
- 버지스, E. W. (1928년)"가석방 성패를 좌우하는 요소"A. A. Bruce (Ed.)에서 일리노이 주의 부정형법과 가석방의 작동 (p. 205–249)일리노이주 스프링필드:일리노이 주 가석방 위원회입니다구글 북스
- 다우즈, 로빈 M.(1979년)."의사 결정에서 부적절한 선형 모델의 강력한 아름다움"American Psychology, 제34권, 571-582쪽.doi:10.1037/0003-066X.34.7.571. 아카이브 PDF
- Draper, David (1988). "Rank-Based Robust Analysis of Linear Models. I. Exposition and Review". Statistical Science. 3 (2): 239–257. doi:10.1214/ss/1177012915. JSTOR 2245578.
- Faraway, J. J. (2004). Linear Models with R. Chapman & Hall/CRC.
- Fornalski, K. W. (2015). "Applications of the robust Bayesian regression analysis". International Journal of Society Systems Science. 7 (4): 314–333. doi:10.1504/IJSSS.2015.073223.
- Gelman, A.; J. B. Carlin; H. S. Stern; D. B. Rubin (2003). Bayesian Data Analysis (Second ed.). Chapman & Hall/CRC.
- Hampel, F. R.; E. M. Ronchetti; P. J. Rousseeuw; W. A. Stahel (2005) [1986]. Robust Statistics: The Approach Based on Influence Functions. Wiley.
- Lange, K. L.; R. J. A. Little; J. M. G. Taylor (1989). "Robust statistical modeling using the t-distribution". Journal of the American Statistical Association. 84 (408): 881–896. doi:10.2307/2290063. JSTOR 2290063.
- Lerman, G.; McCoy, M.; Tropp, J.A.; Zhang T. (2012)"직선 모델의 견고한 계산 또는 건초 더미에서 바늘 찾는 방법", arXiv:1202.4044.
- Maronna, R.; D. Martin; V. Yohai (2006). Robust Statistics: Theory and Methods. Wiley.
- McKean, Joseph W. (2004). "Robust Analysis of Linear Models". Statistical Science. 19 (4): 562–570. doi:10.1214/088342304000000549. JSTOR 4144426.
- Radchenko S.G. (2005). Robust methods for statistical models estimation: Monograph. (on Russian language). Kiev: РР «Sanspariel». p. 504. ISBN 978-966-96574-0-4.
- 리, M. J., 카레타, T. R., & 얼스, J. A. (1998).하향식 결정에서 가중 변수는 중요하지 않습니다.윌크 정리의 결과.Organizational Research Methods, 제1(4)권, 407-420페이지.doi:10.1177/109442819814003
- Rousseeuw, P. J.; A. M. Leroy (2003) [1986]. Robust Regression and Outlier Detection. Wiley.
- Ryan, T. P. (2008) [1997]. Modern Regression Methods. Wiley.
- Seber, G. A. F.; A. J. Lee (2003). Linear Regression Analysis (Second ed.). Wiley.
- Stromberg, A. J. (2004). "Why write statistical software? The case of robust statistical methods". Journal of Statistical Software. 10 (5). doi:10.18637/jss.v010.i05.
- Strutz, T. (2016). Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Springer Vieweg. ISBN 978-3-658-11455-8.
- Tofallis, Chris (2008). "Least Squares Percentage Regression". Journal of Modern Applied Statistical Methods. 7: 526–534. doi:10.2139/ssrn.1406472. SSRN 1406472.
- Venables, W. N.; B. D. Ripley (2002). Modern Applied Statistics with S. Springer.
- Wainer, H. & Thissen, D.(1976)"강력한 퇴행을 향한 세 걸음"사이코메트리카, 제41권, 9-34쪽. doi:10.1007/BF02291695
- 윌크스, S. S. (1938년)"의존 변수가 없을 때 상관 변수의 선형 함수에 대한 가중치 부여"사이코메트리카, 제3권, 23~40쪽. doi:10.1007/BF02287917