다중 대응 분석

Multiple correspondence analysis

통계에서 다중 대응 분석(MCA)은 명목상의 범주형 데이터에 대한 데이터 분석 기법으로, 데이터 집합의 기초 구조를 검출하고 나타내기 위해 사용된다. 데이터를 저차원 유클리드 공간에서 점으로 표현함으로써 이를 수행한다. 따라서 이 절차는 범주형 데이터에 대한 주성분 분석의 상대적인 것으로 보인다.[1][2] MCA는 대규모 범주형 변수 집합에 적용 가능하다는 점에서 단순 대응 분석(CA)의 확장으로 볼 수 있다.

대응 분석의 확장으로서

MCA는 CA 알고리즘을 지표 행렬(완전한 이격렬 – CDT라고도 함) 또는 이들 변수에서 형성된 Burt 테이블에 적용하여 수행된다.[3] 지시행렬은 개별 × 변수 행렬이며, 여기서 행은 개인을 나타내고 열은 변수의 범주를 나타내는 더미 변수다.[4] 지표 행렬을 분석하면 기하학적 공간의 점으로서 개인을 직접 표현할 수 있다. Burt 표는 범주형 변수 사이의 모든 이원 교차표 행렬의 대칭 행렬이며 연속형 변수의 공분산 행렬과 유사하다. Burt 테이블을 분석하는 것은 단순한 대응 분석의 보다 자연스러운 일반화로서, 개인이나 개인 집단의 수단이 그래픽 디스플레이의 보충 포인트로 추가될 수 있다.

지표 행렬 접근법에서 변수들의 다른 범주들과 개인들 사이의 카이-제곱 거리를 계산하여 변수들 사이의 연관성을 밝혀낸다. 그런 다음 이러한 연관성을 "맵"으로 그래픽으로 표현하여 데이터의 구조 해석을 용이하게 한다. 그런 다음 데이터에서 중앙 반대파를 가장 잘 설명할 수 있는 기초적인 차원을 파악하기 위해 행과 열 사이의 반대는 최대화된다. 인자 분석이나 주성분 분석에서와 같이, 첫 번째 축은 가장 중요한 차원이고, 두 번째 축은 두 번째로 중요한 차원이며, 따라서 설명되는 분산의 양 측면에서 보면 그렇다. 분석을 위해 유지할 축의 수는 수정된 고유값을 계산하여 결정한다.

세부 사항

MCA는 범주형 변수(다중 선택 문제 등)로 통계적 결론을 내리도록 적응되어 있기 때문에, 가장 먼저 해야 할 일은 (연령, 크기, 무게, 낮 시간 등) 정량적 데이터를 범주(예: 통계적 정량제)로 변환하는 것이다.

데이터 집합이 범주형 변수로 완전히 표현될 때, 사람들은 소위 완전히 이분법적인 표를 만들 수 있다.는 X 을(를) 나타내며 {\(가) J 다중 선택 질문에 각각 의 답변으로 답한 X J {\ 열을 가진 경우,

더 이론적으로 X이(가) 범주형 변수의 관측치의 완전히 이항식 표라고 가정하십시오.[5] k -th 변수에 k{\ 다른 수준(범주)이 있다고 가정하고, = 1 k =1 K k k 를 설정하십시오 The table is then a matrix with all coefficient being or . Set the sum of all entries of to be and introduce . In an MCA, there are also two special vectors: first , that contains the sums along the rows of , and , that contains the sums along the columns of . Note and D_ r {\r} 및 c {\displaystyle 을(를) 각각 대각선으로 포함하는 대각 행렬. 이러한 공식을 통해 MCA 계산은 본질적으로 행렬의 단수 값 분해에 포함된다.

The decomposition of gives you , and such that with P, Q two unitary matrices and is the generalized diagonal matrix of the singular values (wi {\ Z과(와) 같은 형상이다 의 양의 계수는 Z 의 고유값이다

MCA의 관심은 의 관측치(행)와 변수(열)가 분해될 수 있는 방식에서 비롯된다. 이러한 분해를 인자분해라고 한다. 요인 공간에 있는 관측치의 좌표는

-th 행의 는 인자 공간에서 -th 관측치를 나타낸다. 그리고 마찬가지로 변수의 좌표(관측값과 동일한 요인 공간에서!)는 다음과 같이 주어진다.

최근 작업 및 확장

최근 몇 년간, Jean-Paul Benzecri의 몇몇 학생들이 MCA를 정제하여 기하학적 데이터 분석이라고 알려진 데이터 분석의 보다 일반적인 틀에 편입시켰다. 여기에는 단순 대응 분석, 주성분 분석 및 MCA 간의 직접 연결 개발, 유클리드 분류로 알려진 클러스터 분석의 형태가 포함된다.[6]

두 개의 익스텐션은 실용성이 뛰어나다.

  • MCA에 활성 요소로서 몇 가지 정량적 변수를 포함할 수 있다. 이 확장을 혼합 데이터의 인자 분석(아래 참조)이라고 한다.
  • 설문지에서는 매우 자주 질문들이 몇 가지 이슈로 구성된다. 통계 분석에서 이 구조를 고려할 필요가 있다. 이는 글로벌 분석 내에서 다양한 이슈(즉, 다양한 변수 그룹)의 균형을 맞추고 그룹 구조에 특정한 여러 결과(주로 개별 및 범주의 그래픽)를 제공하는 다중 인자 분석의 목적이다.

응용 프로그램 필드

사회과학에서 MCA는 피에르 부르디유에 의해 응용된 것으로 가장 잘 알려져 있으며,[7] 특히 그의 저서 La Dariation, Homo Academyus, The State Nobely에서 특히 잘 알려져 있다. 부르디우는 자신의 사회적 공간적, 관계적 비전과 MCA의 기하학적 특성 사이에 내부적 연관성이 있다고 주장했다.[8] 부르디아의 연구를 따르는 사회학자들은 '개인의 구름'[9]의 분석에 수반되는 중심적 중요성 때문에 버트 표보다는 지표 매트릭스의 분석을 가장 많이 선택한다.

다중 대응 분석 및 주성분 분석

MCA는 완전한 이격 테이블에 적용되는 PCA로도 볼 수 있다. 이를 위해서는 CDT를 다음과 같이 변환해야 한다. y 은(는) CDT의 일반 용어를 ,y k {\ y_ i {\ i이(가 k {\ 범주 k}을 소유하고 있으면 1이고, 없으면 0이다. 를 가진 개인의 비율인p 을 나타내자 변환된 CDT(TCDT)는 일반 용어로 다음과 같다.

 

TCDT에 적용된 비표준화된 PCA는 중량 컬럼 가) MCA의 결과로 이어진다.

이 등가성은 제롬 파게스의 저서에 충분히 설명되어 있다.[10] 양적 변수와 질적 변수의 동시 치료의 길을 열어주기 때문에 중요한 이론적 역할을 한다. 두 가지 방법은 혼합 데이터의 인자 분석과 활성 변수가 여러 그룹으로 분할된 경우 다중 인자 분석이라는 두 가지 유형의 변수를 동시에 분석한다.

이러한 동등성은 MCA가 CA의 특정 사례가 아니기 때문에 PCA의 특정 사례라는 것을 의미하지는 않는다. 그것은 단지 이러한 방법들이 같은 가족, 즉 요인법에 속하기 때문에 서로 밀접하게 연결되어 있다는 것을 의미할 뿐이다.[citation needed]

소프트웨어

STATA, SPSS와 같은 MCA를 포함하는 수많은 데이터 분석 소프트웨어가 있다. R 패키지 팩토리MineR도 MCA를 특징으로 한다. 이 소프트웨어는 MCA 수행을 위한 기본적인 방법을 설명하는 책과 관련이 있다.[11] Numpy 어레이 매트릭스와 작동하는 [1]을 위한 Python 패키지도 있다. 이 패키지는 스파크 데이터프레임에 대해 아직 구현되지 않았다.

참조

  1. ^ Le Roux; B. and H. Rouanet (2004). Geometric Data Analysis, From Correspondence Analysis to Structured Data Analysis. Dordrecht. Kluwer: p.180.
  2. ^ Greenacre, Michael and Blasius, Jörg (editors) (2006). Multiple Correspondence Analysis and Related Methods. London: Chapman & Hall/CRC.CS1 maint: 복수 이름: 작성자 목록(링크) CS1 maint: 추가 텍스트: 작성자 목록(링크)
  3. ^ Greenacre, Michael (2007). Correspondence Analysis in Practice, Second Edition. London: Chapman & Hall/CRC.
  4. ^ Le Roux, B. 및 H. Rouanet(2004), 기하학적 데이터 분석, 대응 분석에서 구조화 데이터 분석까지, Dordrecht. 클루워: 페이지 179
  5. ^ Hervé Abdi; Dominique Valentin (2007). "Multiple correspondence analysis" (PDF).
  6. ^ Le Roux; B. and H. Rouanet (2004). Geometric Data Analysis, From Correspondence Analysis to Structured Data Analysis. Dordrecht. Kluwer.
  7. ^ Scott, John & Gordon Marshall(2009): 옥스퍼드 사회학 사전 135 페이지 옥스퍼드: 옥스퍼드 대학교 출판부
  8. ^ 루아넷, 헨리(2000년) "질문의 기하학적 분석. Bourdieu's La Distance"의 교훈, Bulletin de Méthodologie Socialologique 65, 페이지 4–18
  9. ^ 레바론, 프레데릭(2009) "부르디유 "Quantified" 부르디유: 롭슨과 샌더스(eds)의 기하학적 모델링" 양자화 이론: 피에르 부르디유. 스프링거, 페이지 11-30.
  10. ^ 파게스 제롬(2014년). R을 사용한 예제별 다중 인자 분석. Chapman & Hall/CRC R 시리즈 런던 272 p
  11. ^ Husson F, Lé S. & Pagés J. (2009년). R을 사용한 예에 의한 탐색적 다변량 분석 Chapman & Hall/CRC The R Series, London. ISBN 978-2-7535-0938-2

외부 링크

  • Le Roux, B. 및 H. Rouanet(2004), 기하학적 데이터 분석, 대응 분석에서 Google Books의 구조화 데이터 분석까지: [2]
  • Greenacre, Michael (2008), La Praicia del Anahlis de Spiquentdencias, BBVA Foundation, Madrid, 재단의 웹사이트에서 무료로 다운로드 가능 [3]
  • 사실적 MineR은 탐색적 데이터 분석을 위한 R 소프트웨어.