표준 상관
Canonical correlation시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
통계학에서 표준 변수 분석이라고도 하는 표준 상관 분석(CCA)은 교차 공분산 행렬에서 정보를 추론하는 방법입니다.랜덤 변수의 벡터 X = (X1, ..., Xn)와 Y = (Y1, ..., Ym)가 두 개 있고 변수 사이에 상관 관계가 있는 경우, 정규-변수 분석은 서로 [1]최대 상관 관계를 갖는 X와 Y의 선형 조합을 찾습니다.T. R. Knapp는 "사실상 일반적으로 발생하는 유의한 모든 파라메트릭 테스트는 두 [2]변수 집합 간의 관계를 조사하기 위한 일반적인 절차인 표준 상관 분석의 특별한 경우로 취급할 수 있다"고 지적한다.이 방법은 1936년 [3]Harold Hoteling에 의해 처음 도입되었지만 평면 사이의 각도의 맥락에서 수학 개념은 1875년에 [4]요르단에 의해 발표되었습니다.
정의.
두 개의 열 X ( , , x ) { { { \ X = ( _ {1 , \ ,_ { } ^{ Y ( , , ) T { { { Y = ( _ {1 , \ ,_ { } ^{T초 모멘트가 유한한 랜덤 변수의 경우 교차 도 X Y (, Y) \ \ _ { } 를 정의할 수 .는 n× { n m 행렬이며 여기서 ( { ( 엔트리는 공분산 θ(ij { \입니다.} {\Y예: 데이터 매트릭스 쌍).
표준 상관 분석에서는 의 AX\a a와b \b}( R\ b 를 구한다. T b는 상관 δ ( Y ){ =\Y를 최대화합니다.(표준) 랜덤 U X{\ U^{ V {\ V는 표준 변수의 첫 번째 쌍입니다.그런 다음 첫 번째 표준 변수 쌍과 상관관계가 없다는 제약조건에 따라 동일한 상관관계를 극대화하는 벡터를 구한다. 이것은 두 번째 표준 변수 쌍을 제공한다.이 절차는 최대{ 회({까지 계속할 수 있습니다.
계산
파생
X \\ _ { }는 임의의 (벡터 모양) 랜덤 X({X})와 YY 쌍에 대한 교차 공분산 행렬입니다. 최대화하는 대상 함수는 다음과 같습니다.
첫 번째 단계는 기본 변경을 정의하고
이렇게 해서
코시-슈바르츠 부등식에 의해, 우리는
dd와 -1 / X - / c \ \_ { _ _}c가 동일선입니다.또한 c{\ c가 행렬 - / - X - 1 YX - / 2 { \ \ \ { xx - 2 } X - 1 - X - 1 - 2{ displaystyle \ \ Sigma _ { x - 1 }^2} X - 2 2 } 행렬의 최대 고유값을 갖는 고유 벡터일 경우 상관관계를 얻을 수 있다. _ _레일리 지수 참조).후속 쌍은 크기가 감소하는 고유값을 사용하여 찾을 수 있습니다.직교성은 상관 행렬의 대칭에 의해 보장됩니다.
이 계산을 보는 또 다른 방법은 c와 dd가 가장 높은 단수값에 대응하는 X와 Y의 상관 행렬의 왼쪽 및 오른쪽 단수 벡터라는 입니다.
솔루션
따라서 해결책은 다음과 같습니다.
- {\ c는 - / Y- Y - / \ style \ _ { X_ { X }의 고유 벡터입니다.
- d는 is - / Y - / c \ \_ {
상호 작용으로 다음과 같은 것도 있습니다.
- d는 -/ Y - Y - / \\_ {
- {\ c는 -1 / Y - / \ \_ { X- / 2 }\ _ { X
좌표를 바꿔서 보면
- a)는 X - 1 - YX(\ style _}^{-1 _{의 고유 벡터입니다
- b는 - X a;\ \_ {
- {\ b는 - Y - Y 고유 벡터입니다 \_ {
- a는 X- X Y(\ _b에 비례합니다.
표준 변수는 다음과 같이 정의됩니다.
실행
CCA는 상관행렬상의 [5]특이값 분해를 사용하여 계산할 수 있다.의 기능으로[6] 사용할 수 있습니다.
- 캐논코어로서의 MATLAB(옥타브)
- 표준 기능성 캔코어로서의 R과 CCA 및 비건(began)을 포함한 몇 가지 다른 패키지.표준 상관 분석에서 통계 가설 테스트를 위한 CCP.
- SAS를 proc cancorr로 사용
- 라이브러리의 Python은 Cross 분해로, Statsmodel은 CanCorr로 skit-learn합니다.
- 메인 소프트웨어와 함께 제공되는 매크로 CanCorr로서의 SPSS
- MultivariateStats.jl 패키지의 Julia(프로그래밍 언어)입니다.
상관 행렬에서 특이값 분해를 사용하는 CCA 계산은 평면 간 각도의 코사인(cosine)과 관련이 있다.코사인 함수는 작은 각도에 대해 잘못 조정되어 유한 정밀 컴퓨터 산술에서 고도로 상관된 주 벡터의 계산이 매우 부정확하게 됩니다.이 문제를 해결하려면 다음 사이트에서 대체 알고리즘을[7] 사용할 수 있습니다.
가설 검정
각 행의 중요성은 다음 방법으로 테스트할 수 있습니다.상관관계가 분류되었으므로 i이 0이라고 하면 이후의 상관관계도 모두 0임을 의미합니다.샘플에 독립적인 p개 { { } { displaystyle i 1, ,m, { i = 1displaystyle i= 1,\ {} 의 상관관계는 과 같습니다
이후분{m, n}{\displaystyle \min\{m,n\}의 상관 관계}어느 점근적으로 한(m− 나는 + 1)(n− 나는 1+)과 자유도{\displaystyle(m-i+1)(n-i+1)}카이 제곱만큼 크게 와{p\displaystyle}.[8]을 논리적으로 제로다 동업-{p\displaystyle}에(그리고 추정했다 그 방향도)기 위해서는 분배된다그이 시점 이후의 조건에 대한 제품은 관련이 없습니다.
p< + \ p < + }의 작은 샘플 크기 제한에서는 m + - \ m + n -p }의 상관관계가 동일하게 1이므로 테스트는 의미가 없습니다.[9]
실용적인 용도
실험 컨텍스트에서 표준 상관 관계의 일반적인 용도는 두 변수 집합을 취하여 두 [10]집합 간에 공통적인 것을 확인하는 것입니다.예를 들어, 심리 테스트에서는 미네소타 다단계 성격 목록(MMPI-2)과 NEO와 같이 잘 확립된 두 가지 다차원 성격 테스트를 받을 수 있다.MMPI-2 요인이 NEO 요소와 어떻게 관련되어 있는지 확인함으로써 테스트 간에 공통되는 차원과 공유되는 분산의 양에 대한 통찰력을 얻을 수 있었다.예를 들어, 외향성 또는 신경증 차원이 두 검정 사이의 상당한 양의 공유 분산을 설명한다는 것을 알 수 있다.
또한 표준 상관 분석을 사용하여 성능 측정 및 설명 변수 세트, 출력 세트 및 입력 세트 등 두 변수 세트를 관련짓는 모델 방정식을 생성할 수 있습니다.이론적 요건이나 직관적으로 명백한 조건을 반영하도록 그러한 모델에 제약조건을 부과할 수 있다.이러한 유형의 모형을 최대 상관 [11]모형이라고 합니다.
표준 상관 결과의 시각화는 보통 유의한 상관관계를 나타내는 표준 변수 쌍에 대한 두 변수 세트의 계수의 막대 그림을 통해 이루어진다.일부 저자들은 각 절반이 두 [12]변수 세트를 나타내며 선 모양의 막대가 있는 원형 형식인 헬리오그래프로 그림을 그리는 것이 가장 잘 시각화된다고 제안합니다.
예
X ({ X1})로 .예: E ( ) \ (X) =} 。
- Y { Y 즉X {X}와Y { Y가 완벽하게 상관되어 있는 , 예를 들어 a { a b { b이므로 X의첫 번째(이 예에서만 해당)는 변수입니다. V 입니다.
- Y - Y=- 즉 X X와 Y Y가 완전히 반상관적인 경우, 를 들어 a (\ a 및 - b=-1과 첫 번째(및 이 예에서는 유일한) 변수만 표준 입니다.= V=-
두 모두 U {\ U이므로 표준 분석에서 상관 변수와 반상관 변수를 유사하게 취급한다는 것을 알 수 있습니다.
주각과의 연결
( 1 , , x ) { { { X = ( _ { , \ , x { } ^{ Y ( , , ) T { { { Y = ( _ {1 , \ ,_ { } ^{의 기대치는 제로입니다., E ( ) ( ) 0 ( \ (X) = \ (Y) = ) 。 공분산 행렬 = ( X ) X ) =)=\는 XX) (\ Y 엔트리의 내적에서 Gram 행렬로 볼 수 있다.이 해석에서는 랜덤변수인 의 } 는 공분산 cov에 의해 주어진 내부 곱과 벡터 공간의 요소로 됩니다. ; "공분산#내적물과의 관계"
그러면 변수 U U와(\V)의 정의는 이 내부 제품에 대한(\ X와Y(\ Y의 엔트리에 의해 확장된 서브스페이스 쌍에 대한 주 벡터의 정의와 동일합니다.정준 상관 (U ,) { {} ( , V는 주각의 코사인입니다.
미백 및 확률론적 표준 상관 분석
CCA는 화이트 벡터X 와 C 의 상호 상관관계가 대각선인 랜덤 ({X와 Y({ Y가 동시에 변환되는 특수한 화이트닝 변환으로도 볼 수 있다표준 상관관계는 X X와 C Y를 하는 회귀계수로 해석되며 음수일 수도 있습니다.[13]CCA의 회귀 관점은 또한 CCA에 대한 잠재적 변수 확률론적 생성 모델을 구성하는 방법을 제공하며, 상관되지 않은 숨겨진 변수는 공유 및 비공유 가변성을 나타낸다.
「 」를 참조해 주세요.
레퍼런스
- ^ Härdle, Wolfgang; Simar, Léopold (2007). "Canonical Correlation Analysis". Applied Multivariate Statistical Analysis. pp. 321–330. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
- ^ Knapp, T. R. (1978). "Canonical correlation analysis: A general parametric significance-testing system". Psychological Bulletin. 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
- ^ Hotelling, H. (1936). "Relations Between Two Sets of Variates". Biometrika. 28 (3–4): 321–377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955.
- ^ Jordan, C. (1875). "Essai sur la géométrie à dimensions". Bull. Soc. Math. France. 3: 103.
- ^ Hsu, D.; Kakade, S. M.; Zhang, T. (2012). "A spectral algorithm for learning Hidden Markov Models" (PDF). Journal of Computer and System Sciences. 78 (5): 1460. arXiv:0811.4413. doi:10.1016/j.jcss.2011.12.025.
- ^ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. (2009). "Nonlinear measures of association with kernel canonical correlation analysis and applications" (PDF). Journal of Statistical Planning and Inference. 139 (7): 2162. doi:10.1016/j.jspi.2008.10.011.
- ^ Knyazev, A.V.; Argentati, M.E. (2002), "Principal Angles between Subspaces in an A-Based Scalar Product: Algorithms and Perturbation Estimates", SIAM Journal on Scientific Computing, 23 (6): 2009–2041, CiteSeerX 10.1.1.73.2914, doi:10.1137/S1064827500377332
- ^ Kanti V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press.
- ^ Yang Song, Peter J. Schreier, David Ram'rez 및 Tanuj Hassija 매우 작은 샘플 지원 arXiv:1604.02047 고차원 데이터의 표준 상관 분석
- ^ Sieranoja, S.; Sahidullah, Md; Kinnunen, T.; Komulainen, J.; Hadid, A. (July 2018). "Audiovisual Synchrony Detection with Optimized Audio Features" (PDF). IEEE 3rd Int. Conference on Signal and Image Processing (ICSIP 2018).
- ^ Tofallis, C. (1999). "Model Building with Multiple Dependent Variables and Constraints". Journal of the Royal Statistical Society, Series D. 48 (3): 371–378. arXiv:1109.0725. doi:10.1111/1467-9884.00195.
- ^ Degani, A.; Shafto, M.; Olson, L. (2006). "Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns" (PDF). Diagrammatic Representation and Inference. Lecture Notes in Computer Science. Vol. 4045. p. 93. CiteSeerX 10.1.1.538.5217. doi:10.1007/11783183_11. ISBN 978-3-540-35623-3.
- ^ Jendoubi, T.; Strimmer, K. (2018). "A whitening approach to probabilistic canonical correlation analysis for omics data integration". BMC Bioinformatics. 20 (1): 15. arXiv:1802.03490. doi:10.1186/s12859-018-2572-9. PMC 6327589. PMID 30626338.
외부 링크
- 판별 상관 분석(DCA)([1]MATLAB)
- Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. (2004). "Canonical Correlation Analysis: An Overview with Application to Learning Methods". Neural Computation. 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452. doi:10.1162/0899766042321814. PMID 15516276.
- 두 세트의 순위 점수에 대한 순서형 표준 상관 분석 (또한 FORTRAN 프로그램 제공)에 대한 참고 사항 - Journal of Quantitative Economics 7(2), 2009, 페이지 173–199
- 표현 제약 표준 상관 분석: 표준 상관관계와 주성분 분석의 하이브리드화 (포트란 프로그램도 제공) - 2009년 응용경제과학 저널 4(1), 페이지 115–124
- ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition". IEEE Transactions on Information Forensics and Security. 11 (9): 1984–1996. doi:10.1109/TIFS.2016.2569061.