고차원 통계량
High-dimensional statistics통계 이론에서, 고차원 통계학 분야는 전형적인 다변량 분석에서 일반적으로 고려되는 것보다 치수가 더 큰 데이터를 연구한다.그 영역은 데이터 벡터의 치수가 표본 크기와 비슷하거나 심지어 더 클 수 있는 많은 현대적 데이터 세트의 출현으로 인해 생겨났고, 따라서 표본 크기가 증가함에 따라 고정된 치수를 갖는 점증적 인수에 기초한 전통적 기법의 사용에 대한 정당성이 결여되었다.[1]
예
선형 모형의 모수 추정

공변량 벡터 과 (와) 반응 변수 R 사이의 관계에 대한 가장 기본적인 통계 모델은 선형이다. 모델
where is an unknown parameter vector, and is random noise with mean zero and variance . Given independent responses , with corresponding covariates , from this model, we can form the response vector , and design matrix n p이(가) 있고 설계 행렬이 전체 열 순위(즉, 열이 선형 독립되어 있는 경우) 의 일반적인 최소 제곱 추정기는
When , it is known that . Thus, is an unbiased estimato 의 r과 가우스-마코프 정리는 그것이 최고의 선형 불편 추정기라는 것을 말해준다.
그러나 이(가) n 과(와) 동등한 크기인 경우 오버피팅이 우려된다. X의 정의에 있는 매트릭스 X}이(가)가 최소 고유값으로 불량해질 수 있다.In such circumstances will be large (since the trace of a matrix is the sum of its eigenvalues).더욱이 > 일 때 행렬 Xwhen X는 단수형이다.
앞 단락에서 관측된 높은 차원의 추정 성능 저하는 일반적인 최소 제곱 추정기에 국한되지 않는다는 점에 유의해야 한다.실제로 높은 차원에 대한 통계적 추론은 본질적으로 어려운 것으로, 치수성의 저주로 알려진 현상이며, 추가 정보 없이 최악의 경우 어떤 추정자도 더 잘 할 수 없다는 것을 보여줄 수 있다(예 15.10[1] 참조).그럼에도 불구하고, 고차원 통계에서의 상황은 데이터가 어떤 저차원 구조를 가지고 있을 때 절망적이지 않을 수 있다.고차원 선형 회귀에 대한 하나의 일반적인 가정은 의 대부분의 좌표가 0이라는 점에서 회귀 계수의 벡터가 희박하다는 것이다.라소를 포함한 많은 통계적 절차들이 그러한 첨사성 가정 하에서 고차원 선형 모델을 적합시키기 위해 제안되었다.
공분산 행렬 추정
고차원 통계 현상의 또 다른 예는 공분산 행렬 추정 문제에서 찾을 수 있다.Suppose that we observe , which are i.i.d. draws from some zero mean distribution with an unknown covariance matrix . A natural unbiased estimator of 은 (는) 표본 공분산 행렬이다.
이(가) 증가하고 이(가) 고정된 저차원 설정에서 은 (는) 모든 행렬에서 {{\의 일관성 있는 값이다.에 p 이가) 과(와) 함께 증가하면 이 일관성 결과는 유지되지 못할 수 있다.As an illustration, suppose that each and . If were to consistently estimate , then the eigenvalues of^ 은(는) n 이 (가) 증가함에 따라 1에 접근해야 한다.이런 고차원적 환경에서는 그렇지 않다는 것이 밝혀졌다.Indeed, the largest and smallest eigenvalues of concentrate around and , respectively, according to the limiting distribution derived by Tracy and Widom, a그리고 이것들은 분명히{\ \Sigma}의 단위 고유값에서 벗어난다. {\ {\의 고유값의 점증적 행동에 대한 자세한 정보는 마르첸코-파스퇴르 법칙에서 얻을 수 있다.비증상학적 관점에서 \ ( ){\의 최대 고유값은 만족한다.
및 [1]쌍의 모든 선택.
다시 한 번, 높은 차원에서의 성공적인 공분산 행렬 추정을 위해서는 추가적인 저차원 구조가 필요하다.그러한 구조물의 예로는 첨탑성, 낮은 등급성, 띠성 등이 있다.역 공분산 행렬(정밀 행렬)을 추정할 때도 비슷한 말이 적용된다.
역사
응용된 관점에서, 고차원 통계에 대한 연구는 컴퓨팅 기술의 발전이 데이터 수집과 저장 능력을 극적으로 증가시켰고, 위의 예에 기술된 것과 같은 전통적인 통계 기법이 종종 결과적인 샬레를 다루기에 적합하지 않다는 현실화에 의해 동기 부여되었다.nges. 그 지역의 이론적 진보는 찰스 스타인의 1956년 주목할 만한 결과로 거슬러 올라갈 수 있는데,[2] 여기서 그는 다변량 정규 평균의 통상적인 추정기가 3차원 이상의 오차 손실을 제곱하는 것과 관련하여 허용되지 않는다는 것을 증명했다.실제로 제임스-슈타인 추정기는[3] 고차원적 설정에서는 소량의 편향을 도입하는 비용으로 분산을 감소시키는 수축을 통해 향상된 추정 성능을 얻을 수 있다는 통찰력을 제공했다.이러한 편향-분산 트레이드오프는 1970년 능선 회귀의 도입과 함께 호얼과 케나드에 의해 고차원 선형 모델의 맥락에서 더욱 악용되었다.[4]1996년 로버트 티비시라니(Robert Tibshirani)의 라소(Lasso) 연구로 이 분야의 또 다른 주요한 자극제가 제공되었는데, 이 연구에서는 } 정규화를 사용하여 고차원 희소 선형 회귀에서 동시 모델 선택과 파라미터 추정을 달성했다.[5]그 이후, 광범위한 고차원 통계 문제에서 서로 다른 저차원 구조를 이용하기 위해 많은 수의 다른 수축 추정기가 제안되었다.
고차원 통계학의 주제
다음은 최근 몇 년간 고차원 통계 문헌에서 상당한 관심을 받은 주제들의 예들이다.
- 고차원의 선형 모형.선형 모델은 통계와 그 적용에서 가장 널리 사용되는 도구 중 하나이다.이처럼 희박한 선형 회귀는 고차원 통계 연구에서 가장 잘 연구된 주제 중 하나이다.용마루 회귀 분석과 라소에 관한 이전의 연구를 바탕으로, 이 문제와 관련된 문제에서 몇 가지 다른 수축 추정기가 제안되고 연구되었다.여기에는 다음이 포함된다.
- 고차원 변수 선택.회귀 모형의 기본 모수를 추정하는 것 외에도, 0이 아닌 계수는 최종 모형에 필요한 변수에 해당하므로 이러한 계수를 식별하는 것이 중요하다.앞 표제 아래에 열거된 각각의 기법은 이러한 목적을 위해 사용될 수 있으며, 때로는 안정성 선택을 통한 하위 샘플링과 같은 아이디어와 결합되기도 한다.[10][11]
- 고차원 공분산 및 정밀 행렬 추정.이러한 문제들은 위에 소개되었다. 또한 축소 추정도 참조하라.방법에는 테이퍼링 추정기와 제한된 } 최소화 추정기가 포함된다.[13]
- 희박한 주성분 분석.주성분 분석은 높은 차원으로 분해되는 또 다른 기법이다. 더 정확히 말하면, 적절한 조건 하에서 표본 공분산 행렬의 선행 고유 벡터는 관측치 수에 대한 p의 수의 비율인 경우 모집단 상대방에 대한 일관되지 않은 추정기가 된다. 은 (는) 0에서 경계로 지정되어 있다.[14]이 선도적인 고유 벡터가 희박하다는 가정 하에(이것은 해석가능성에 도움이 될 수 있다) 일관성을 회복할 수 있다.[15]
- 매트릭스 완료.부분적으로 관측된 매트릭스의 누락된 엔트리를 채워야 하는 과제를 안고 있는 이 주제는 넷플릭스가 영화 사용자 등급을 예측한 덕분에 큰 인기를 끌었다.
- 고차원 분류. 공분산 행렬이 단수이기 에 p > ndisplaystyle 에는 선형 판별 분석을 사용할 수 없다순진한 베이즈,[16] 형상 선택 및 무작위 투영에 기초한 대체 접근법이 제안되었다.[18]
- 고차원 데이터에 대한 그래픽 모델그래픽 모델은 서로 다른 변수들 사이의 조건부 의존 구조를 인코딩하는 데 사용된다.가우스 가정에 따르면, 문제는 위에서 논의한 희박한 정밀 행렬을 추정하는 것으로 줄어든다.
메모들
- ^ a b c Wainwright, Martin J. (2019). High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge University Press. doi:10.1017/9781108627771. ISBN 9781108498029.
- ^ Stein, C. (1956), "Inadmissibility of the usual estimator for the mean of a multivariate distribution", Proc. Third Berkeley Symp. Math. Statist. Prob., vol. 1, pp. 197–206, MR 0084922, Zbl 0073.35602
- ^ James, W.; Stein, C. (1961), "Estimation with quadratic loss", Proc. Fourth Berkeley Symp. Math. Statist. Prob., vol. 1, pp. 361–379, MR 0133191
- ^ Hoerl, Arthur E, 그리고 Robert W. Kennard."리지 회귀 분석: 비직관적인 문제에 대한 편향된 추정"테크노메트릭스, 12권, 1, 1970페이지, 55-67페이지.[www.jstor.org/stable/1267351 JSTOR].2021년 3월 13일에 접속.
- ^ Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the lasso". Journal of the Royal Statistical Society. Series B (methodological). Wiley. 58 (1): 267–88. JSTOR 2346178.
- ^ Candes, Emmanuel; Tao, Terence (2007). "The Dantzig selector: Statistical estimation when p is much larger than n". Annals of Statistics. 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR 2382644. S2CID 88524200.
- ^ Zou, Hui; Hastie, Trevor (2005). "Regularization and Variable Selection via the Elastic Net". Journal of the Royal Statistical Society. Series B (statistical Methodology). Wiley. 67 (2): 301–20. doi:10.1111/j.1467-9868.2005.00503.x. JSTOR 3647580.
- ^ Yuan, Ming; Lin, Yi (2006). "Model Selection and Estimation in Regression with Grouped Variables". Journal of the Royal Statistical Society. Series B (statistical Methodology). Wiley. 68 (1): 49–67. doi:10.1111/j.1467-9868.2005.00532.x. JSTOR 3647556.
- ^ 티비라니, 로버트, 마이클 선더스, 사하론 로셋, 지주, 키스 나이트.2005. "Fused lasso를 통한 Sparsity and Smoothness".영국 왕립통계학회지.시리즈 B(통계학적 방법론) 67(1)91–108.https://www.jstor.org/stable/3647602.
- ^ Meinshausen, Nicolai; Bühlmann, Peter (2010). "Stability selection". Journal of the Royal Statistical Society, Series B (Statistical Methodology). 72 (4): 417–473. doi:10.1111/j.1467-9868.2010.00740.x. ISSN 1467-9868. S2CID 1231300.
- ^ Shah, Rajen D.; Samworth, Richard J. (2013). "Variable selection with error control: another look at stability selection". Journal of the Royal Statistical Society. Series B (Statistical Methodology). 75 (1): 55–80. doi:10.1111/j.1467-9868.2011.01034.x. ISSN 1369-7412. JSTOR 23361014. S2CID 18211609. Retrieved 2021-04-06.
- ^ Cai, T. Tony; Zhang, Cun-Hui; Zhou, Harrison H. (August 2010). "Optimal rates of convergence for covariance matrix estimation". The Annals of Statistics. 38 (4): 2118–2144. arXiv:1010.3866. doi:10.1214/09-AOS752. ISSN 0090-5364. S2CID 14038500. Retrieved 2021-04-06.
- ^ Cai, Tony; Liu, Weidong; Luo, Xi (2011-06-01). "A Constrained Minimization Approach to Sparse Precision Matrix Estimation". Journal of the American Statistical Association. 106 (494): 594–607. arXiv:1102.2233. doi:10.1198/jasa.2011.tm10155. ISSN 0162-1459. S2CID 15900101. Retrieved 2021-04-06.
- ^ Johnstone, Iain M.; Lu, Arthur Yu (2009-06-01). "On Consistency and Sparsity for Principal Components Analysis in High Dimensions". Journal of the American Statistical Association. 104 (486): 682–693. doi:10.1198/jasa.2009.0121. ISSN 0162-1459. PMC 2898454. PMID 20617121.
- ^ Vu, Vincent Q.; Lei, Jing (December 2013). "Minimax sparse principal subspace estimation in high dimensions". The Annals of Statistics. 41 (6): 2905–2947. doi:10.1214/13-AOS1151. ISSN 0090-5364. S2CID 562591.
- ^ Bickel, Peter J.; Levina, Elizaveta (2004). "Some theory for Fisher's linear discriminant function,naive Bayes', and some alternatives when there are many more variables than observations". Bernoulli. 10 (6): 989–1010. doi:10.3150/bj/1106314847.
- ^ Fan, Jianqing; Fan, Yingying (December 2008). "High-dimensional classification using features annealed independence rules". The Annals of Statistics. 36 (6): 2605–2637. arXiv:math/0701108. doi:10.1214/07-AOS504. PMC 2630123. PMID 19169416. S2CID 2982392.
- ^ Cannings, Timothy I.; Samworth, Richard J. (2017). "Random-projection ensemble classification". Journal of the Royal Statistical Society, Series B (Statistical Methodology). 79 (4): 959–1035. doi:10.1111/rssb.12228. S2CID 88520328.
참조
- Christophe Giraud (2015). Introduction to High-Dimensional Statistics. Philadelphia: Chapman and Hall/CRC.
- T. Tony Cai, Xiaotong Shen, ed. (2011). High-dimensional data analysis. Frontiers of Statistics. Singapore: World Scientific.
- Peter Bühlmann and Sara van de Geer (2011). Statistics for high-dimensional data: methods, theory and applications. Heidelberg; New York: Springer.
- Martin J. Wainwright (2019). High-dimensional Statistics: A non-asymptotic viewpoint. Cambridge, UK: Cambridge University Press.