기능주성분 분석
Functional principal component analysis기능주성분 분석(FPCA)은 기능 데이터의 지배적 변동 모드를 조사하기 위한 통계적 방법이다.이 방법을 사용하면 임의 함수가 고유바시스(eigenbasis)에 나타나는데, 이는 자기공명 연산자의 고유기능으로 구성된 힐버트 공간2 L의 정형근거다.FPCA는 일정한 수의 기본 함수를 사용할 때 고유함수 기반이 다른 기본 확장보다 더 많은 변동을 설명한다는 점에서 가장 가차없는 방식으로 기능 데이터를 나타낸다.FPCA는 무작위 함수를 나타내거나 [1]기능 회귀[2] 및 분류에 적용할 수 있다.
공식화
정사각형 통합형 확률적 공정 X(t), t 𝒯 for의 경우 다음과 같이 한다.
그리고
서 2 . . 0 \ \...은 고유값이고 2 }} 은 선형 Hilbert-Schmidt 연산자의 직교 고유 특성이다.
카루넨-로이브 정리에 의해, 고유바시스에서 중심 과정을 표현할 수 있다.
어디에
k-th 고유함수 k 과와) 관련된 주요 성분이며, 속성은 다음과 같다.
그러면 중심 공정은 ξ1, ξ2, ....에 해당한다.일반적인 가정은 X가 (평균함수를 뺀 후) 처음 몇 개의 고유함수로만 표현될 수 있다는 것이다.
어디에
고유특성의 해석
첫 번째 고유함수 }는 X의 지배적인 변동 모드를 묘사한다.
어디에
k-th 고유함수 k {\는 1 - 1 에 직교차 변동의 지배적인 모드인 것이다
어디에
추정
레트 Yij)Xi(tij)+εij이 관찰에 위치(보통 포인트 시간을 재시는군)tij, 자이는i-th 실현의 원활한 통계적 과정은 생성 데이터 및 εij 있은 동일하고 독립적으로 분산 정상적인 확률 변수와 평균 0과 가변성 σ2, j=1,2,..., mi.만약 고밀도의 평균 기능 μ(tij)의 견적서를 받기 위해.일반 그리드의 표본을 사용할 수 있으며, 각 위치 tij:
관측치가 희박한 경우 국소 선형 평활 또는 스플라인 평활과 같은 평활 방법을 사용하여 [3]평균 추정치를 얻기 위해 모든 관측치로부터 수집된 데이터를 평활해야 한다.
그런 다음 공분산 함수 ( , ) 의 추정치는 원시 공분산 함수를 평균(밀도 있는 경우) 또는 평활(희박된 경우)하여 구한다.
G의i 대각선 원소는 측정 오차를 포함하므로 제거해야 한다는 점에 유의하십시오.[4]
실제로 , ) 은 (는) 등간격 밀도 격자로 디스코팅되며 고유값 λ과k 고유벡터 v의k 추정이 수치 선형대수에 의해 수행된다.[5]고유함수 추정치 은(는) 고유 . {\k}}}}을(를) 보간하여 얻을 수 있다.
적합 공분산은 양의 한정적이고 대칭이어야 하며, 그 다음 다음과 같이 구해야 한다.
( ) 을(를) 원시 공분산 행렬의 대각선 원소 Gi(tij, tij)의 평활 버전으로 한다.그러면 ( ) 의 추정치가 (G(t, t) + σ2)이다.σ의2 견적은 다음과 같다.
- σ ^ 2=2T∫ T(V^(t)− G~(t, t))d,{\displaystyle{\hat{\sigma}}^{2}={\frac{2}{{{T\mathcal}}}}\int _{{T\mathcal}}({\hat{V}}(t)-{\tilde{G}}(t,t))dt,}만약σ ^ 2>0;{\displaystyle{\hat{\sigma}}^{2}>, 0;} 그렇지 않으면σ ^ 2=0.{\displayst.
관측치 Xij, j=1, 2, ..., m이i 𝒯에서 밀도인 경우, k번째 FPC ξ을k 수치적 통합으로 추정하여 구현할 수 있다.
그러나 관측치가 희박하면 이 방법은 효과가 없다.대신에, 사람들은 양보하면서 [3]가장 좋은 선형 불편 예측 변수를 사용할 수 있다.
어디에
및 ~ 는 tij, j = 1, 2, ..., m에 의해 생성된i 그리드 지점에서 평가된다. 알고리즘인 PACE는 사용 가능한 Matlab 패키지와[6] R 패키지를[7] 가지고 있다.
이러한 추정치의 점근 융복합 성질이 조사되었다.[3][8][9]
적용들
FPCA는 서로에 대한 [1][10]FPC의 산포도 또는 FPC에 대한 반응의 산포도에 기능변동 모드를 표시하거나 희박한 종방향 데이터를 모델링하거나 [3]기능적 회귀 및 분류(예: 기능적 선형 회귀)에 적용할 수 있다.[2]스크리 플롯 및 기타 방법을 사용하여 포함된 성분의 수를 결정할 수 있다.기능 주성분 분석은 시계열 분석에서 다양한 응용 분야를 가지고 있다.오늘날 이 방법론은 전통적인 다변량 기법을 채택하여 주식 시장 지수, 묵시적 변동성 그래프 생성 등과 같은 금융 데이터 세트에 대한 분석을 수행하고 있다.[11]기능적 접근법의 장점을 보여주는 매우 좋은 예는 Silverman[1996]이 제안하고 Pezulli와 Silverman[1993]이 연구한 Smoothed FPCA(Smoothed FPCA)로, FPCA 분석을 일부 선형 차등 연산자에 저장된 정보를 사용하는 일반 스무딩 접근법과 함께 직접 결합할 수 있다.허용. 다변량 PCA에서 이미 알려진 FPCA의 중요한 적용은 기능 매개변수 집합(요인 함수 및 해당 인자 하중)에 대한 무작위 함수의 Karhunen-Loeve 분해에 의해 동기 부여된다.랜덤함수의 분포는 일반적으로 직접 분석하기에는 너무 복잡하고 카루넨-로이브 분해는 인자함수의 해석과 스칼라 랜덤 변수의 분포로 분석을 줄이기 때문에 이 적용은 표준 다변량 PCA보다 훨씬 중요하다.데이터를 나타내는 정확성뿐만 아니라 차원성 감소로 인해, 금융 분야의 기능적 주성분 기법의 추가 개발 범위가 넓다.
주성분 분석과의 연결
다음 표는 PCA(주성분 분석)와 FPCA(주성분 분석)의 다양한 요소를 비교한 것이다.두 가지 방법은 모두 차원성 감소에 사용된다.구현에서 FPCA는 PCA 단계를 사용한다.
그러나 PCA와 FPCA는 일부 중요한 측면에서는 차이가 있다.첫째, PCA의 다변량 데이터의 순서는 서열화할 수 있어 분석에 영향을 미치지 않지만, 기능 데이터의 순서는 시간이나 공간 정보를 담고 있어 재서열할 수 없다.둘째, FPCA에서는 간격 문제가 없는 반면 FPCA에서는 관측치 간격이 중요하다.셋째, 일반 PCA는 정규화 없이 고차원 데이터에서는 작동하지 않는 반면, FPCA는 기능 데이터의 매끄러움과 제한된 수의 포함된 구성요소로 잘려져 내장된 정규화가 있다.
요소 | PCA에서 | FPCA에서 |
---|---|---|
데이터 | ||
치수 | ||
평균 | ||
공분산 | ||
아이겐값 | ||
고유 벡터/ 고유 기능 | ||
이너 제품 | ||
주성분 |
참고 항목
메모들
- ^ a b Jones, M. C.; Rice, J. A. (1992). "Displaying the Important Features of Large Collections of Similar Curves". The American Statistician. 46 (2): 140. doi:10.1080/00031305.1992.10475870.
- ^ a b Yao, F.; Müller, H. G.; Wang, J. L. (2005). "Functional linear regression analysis for longitudinal data". The Annals of Statistics. 33 (6): 2873. arXiv:math/0603132. doi:10.1214/009053605000000660.
- ^ a b c d Yao, F.; Müller, H. G.; Wang, J. L. (2005). "Functional Data Analysis for Sparse Longitudinal Data". Journal of the American Statistical Association. 100 (470): 577. doi:10.1198/016214504000001745.
- ^ Staniswalis, J. G.; Lee, J. J. (1998). "Nonparametric Regression Analysis of Longitudinal Data". Journal of the American Statistical Association. 93 (444): 1403. doi:10.1080/01621459.1998.10473801.
- ^ Rice, John; Silverman, B. (1991). "Estimating the Mean and Covariance Structure Nonparametrically When the Data are Curves". Journal of the Royal Statistical Society. Series B (Methodological). 53 (1): 233–243. doi:10.1111/j.2517-6161.1991.tb01821.x.
- ^ "PACE: Principal Analysis by Conditional Expectation".
- ^ "fdapace: Functional Data Analysis and Empirical Dynamics". 2018-02-25.
- ^ Hall, P.; Müller, H. G.; Wang, J. L. (2006). "Properties of principal component methods for functional and longitudinal data analysis". The Annals of Statistics. 34 (3): 1493. arXiv:math/0608022. doi:10.1214/009053606000000272.
- ^ Li, Y.; Hsing, T. (2010). "Uniform convergence rates for nonparametric regression and principal component analysis in functional/longitudinal data". The Annals of Statistics. 38 (6): 3321. arXiv:1211.2137. doi:10.1214/10-AOS813.
- ^ Madrigal, Pedro; Krajewski, Paweł (2015). "Uncovering correlated variability in epigenomic datasets using the Karhunen-Loeve transform". BioData Mining. 8: 20. doi:10.1186/s13040-015-0051-7. PMC 4488123. PMID 26140054.
- ^ Michal Benko에 의한 재무분야 애플리케이션을 통한 기능 데이터 분석
참조
- James O. Ramsay; B. W. Silverman (8 June 2005). Functional Data Analysis. Springer. ISBN 978-0-387-40080-8.