카이제곱 검정

Chi-squared test
카이 제곱 분포: X 축에 on2 표시하고 Y 축에 p-값(오른쪽 꼬리 확률)을 표시합니다.

카이-제곱 검정( 카이-제곱 검정 또는 카이-제곱2 검정)은 검정 통계량이 귀무 가설, 특히 Pearson의 카이-제곱 검정과 그 변형에 따라 카이-제곱 분포될 때 수행하는 데 유효통계 가설 검정입니다.Pearson의 카이 제곱 검정은 하나 이상의 분할표 범주에서 기대 빈도와 관측 빈도에 통계적으로 유의한 차이가 있는지 여부를 확인하는 데 사용됩니다.

이 검정의 표준 적용에서 관측치는 상호 배타적인 클래스로 분류됩니다.모집단에서 클래스 간에 차이가 없다는 귀무 가설이 참이면 관측치에서 계산된 검정 통계량은 δ2 빈도 분포를 따릅니다.검정의 목적은 관측된 빈도가 귀무 가설이 참이라고 가정할 가능성을 평가하는 것입니다.

distrib2 분포를 따르는 검정 통계량은 관측치가 독립적일 때 발생합니다.또한 쌍에 대한 관측치를 바탕으로 랜덤 변수 의 독립성에 대한 귀무 가설을 검정하기 위한 § 검정2 있습니다.

카이 제곱 검정은 종종 검정 통계량의 분포가 점근적으로 δ2 분포에 근접하는 검정을 가리킵니다. 즉, 검정 통계량의 표본 분포(귀무 가설이 참인 경우)가 표본 크기가 커질수록 카이 제곱 분포에 더 가깝다는 것을 의미합니다.

역사

19세기에는 통계 분석 방법이 생물학적 데이터 분석에 주로 적용되었고, 연구자들은 1900년 [1]논문에서 피어슨에 의해 비판된 조지 에어리 경과 맨스필드 메리만과 같은 정규 분포를 따른 관측을 가정하는 것이 관례였다.

19세기 말, 피어슨은 일부 생물학적 관측에 유의한 왜도의 존재를 알아차렸다.위해 관계 없이 관찰에 대한 모델 일반 또는 왜곡된, 피어슨의 소설 시리즈 중 기사 출판한 1893년에 1916,[2][3][4][5]을 고안했다는 피어슨 분포, 한 가족의 지속적인 확률 분포는 정규 분포와 많은 왜곡된 분배, 제출한 메서드의 통계적 분석 사기다.의 sistingPearson 분포를 사용하여 관측치를 모형화하고 적합도 검정을 수행하여 모형이 관측치에 실제로 얼마나 잘 적합되는지 확인합니다.

피어슨의 카이 제곱 검정

1900년 피어슨은 현대 [6]통계학의 기초 중 하나로 여겨지는 δ2 테스트에 관한 논문을[1] 발표했다.이 문서에서 Pearson은 적합도에 대한 검정을 조사했습니다.

모집단의 랜덤 표본에서 n개의 관측치가 각각 관측된 숫자i x(i = 1,2,…,k경우)를 갖는 k개의 상호 배타적 클래스로 분류되고 귀무 가설은 관측치가 ith 클래스에 속할 확률i p를 제공한다고 가정합니다.그래서 우리는 모든 i에 대해 mi = np의 예상 숫자i 가지고 있습니다.

Pearson은 귀무 가설이 맞는 상황에서 아래에 주어진 수량의 한계2 분포는 given 분포라고 제안했다.

Pearson은 모든i x가 정규 분포로 간주될 수 있다고 가정하고 모든 셀에서 기대 숫자i m이 충분히 큰 경우를 먼저 다루었으며, 한계값 n이 커지면 X2 k - 1 자유도θ2 분포를 따른다는 결과에 도달했다.

그러나 Pearson은 다음에 예상 숫자가 표본에서 추정해야 하는 모수에 따라 달라지는 경우를 고려했으며 m이 실제i 예상 숫자이고 i이 추정된 예상 숫자일 때, 차이는 다음과 같습니다.

일반적으로 생략할 수 있을 정도로 양의 값이고 작습니다.결론적으로, 피어슨은 만약 우리가 2Xθ를 k - 1 자유도를 갖는 θ2 분포로도 간주한다면, 이 근사치의 오차는 실질적인 결정에 영향을 미치지 않을 것이라고 주장했다.이 결론은 실용화에서 약간의 논란을 일으켰고 피셔의 1922년과 1924년 [7][8]논문이 나올 때까지 20년 동안 해결되지 않았다.

카이 제곱 검정의 기타 예제

카이 제곱 분포를 정확히 따르는 검정 통계량 중 하나는 정규 분포 모집단의 분산이 표본 분산을 기반으로 주어진 값을 갖는 검정입니다.이러한 검정은 모집단의 실제 분산을 알 수 없기 때문에 실제로 흔치 않습니다.그러나 카이 제곱 분포가 대략적으로 유효한 몇 가지 통계적 검정이 있습니다.

피셔의 정밀 검사

독립성에 대한 2 × 2 카이 제곱 검정 대신 사용되는 정확한 검정은 Fisher의 정확한 검정을 참조하십시오.

이항 검정

적합도에 대한 2 × 1 카이 제곱 검정 대신 사용되는 정확한 검정은 이항 검정을 참조하십시오.

기타 카이 제곱 검정

연속성에 대한 예이츠의 보정

카이 제곱 분포를 사용하여 Pearson의 카이 제곱 통계량을 해석하려면 표에 있는 관측된 이항 도수의 이산 확률이 연속 카이 제곱 분포로 근사할 수 있다고 가정해야 합니다.이 가정은 정확하지 않고 오류가 발생합니다.

근사 오차를 줄이기 위해 프랭크 예이츠는 2 × 2 분할표에서 각 관측 값과 [9]기대 값 사이의 절대 차이에서 0.5를 빼서 Pearson의 카이 제곱 검정에 대한 공식을 조정하는 연속성 보정을 제안했습니다.이렇게 하면 얻어진 카이 제곱 값이 줄어들기 때문에 p-값이 증가합니다.

정규 모집단의 분산에 대한 카이 제곱 검정

크기가 n인 표본을 정규 분포를 가진 모집단에서 추출하면 모집단의 분산에 미리 결정된 값이 있는지 여부를 검정할 수 있는 결과(표본 분산의 분포 참조)가 있습니다.예를 들어, 제조 공정이 장기간 안정된 상태였기 때문에 기본적으로 오류 없이 분산 값을 결정할 수 있습니다.공정의 변형이 검정되어 변동을 검정할 n개 제품 품목의 작은 표본이 생성된다고 가정합니다.이 경우 검정 통계량 T는 표본 평균에 대한 제곱합을 분산에 대한 명목 값(예: 고정으로 검정할 값)으로 나눈 값으로 설정할 수 있습니다.그런 다음 T의 카이 제곱 분포자유도가 n - 1입니다.예를 들어 표본 크기가 21이면 유의 수준이 5%인 T의 합격 영역은 9.59와 34.17 사이입니다.

범주형 데이터에 대한 카이 제곱 검정 예제

A, B, C, D의 4개 동네를 가진 100만 명의 주민이 사는 도시가 있다고 가정해 보자.도시 거주자 650명을 무작위로 추출하여 이들의 직업을 "화이트 칼라", "블루 칼라" 또는 "노 칼라"로 기록합니다.귀무 가설은 각 개인의 거주지가 직업 분류와 무관하다는 것이다.데이터는 다음과 같이 표로 정리됩니다.

A B C D
화이트 칼라 90 60 104 95 349
블루칼라 30 50 51 20 151
칼라 없음 30 40 45 35 150
150 150 200 150 650

A근처에 살고 있는 표본 150을 채취하여 100만 명 중 A근처에 살고 있는 비율이 어느 정도인지 추정해당 샘플은 A근처에 살고 있는 100만 명입니다.마찬가지로,100만 명 중 화이트칼라 근로자의 비율을 추정하기 위해 349/650.가설에 따른 독립의 가정에 의해 우리는 A지역의 화이트칼라 노동자의 수가 다음과 같이 "예상"해야 한다.

그리고 테이블의 그 "감방"에서 우리는

모든 셀에 대한 이러한 양의 합은 검정 통계량이다. 이 경우 24.6). 귀무 가설에서 이 합은 자유도가 다음과 같은 카이 제곱 분포를 가진다.

카이 제곱 분포에 따라 검정 통계량이 비개연적으로 크면 독립성에 대한 귀무 가설을 기각합니다.

관련된 이슈는 동질성의 테스트이다.4개 동네의 모든 주민이 표본에 포함될 수 있는 동등한 기회를 주는 대신 각 동네의 주민 수를 미리 결정한다고 가정해 봅시다.그러면 각 거주자는 같은 이웃의 모든 거주자와 같은 선택 기회가 주어지지만, 네 표본 크기가 네 이웃의 인구에 비례하지 않으면 다른 이웃의 거주자가 선택될 확률은 달라진다.이러한 경우, 우리는 "독립성"이 아닌 "균질성"을 테스트하게 될 것이다.문제는 블루칼라 화이트칼라 노칼라 비율이 같은가 하는 점이다.그러나 테스트는 동일한 방법으로 수행됩니다.

적용들

암호해석에서 카이 제곱 테스트는 평문과 복호화된 암호문분포를 비교하기 위해 사용됩니다.테스트의 최저값은 복호화가 성공하고 높은 [10][11]확률로 성공했음을 의미합니다.이 방법은 현대의 암호 [12]문제를 해결하기 위해 일반화할 수 있습니다.

생체정보학에서 카이제곱 테스트는 다른 범주(예를 들어 질병 유전자, 필수 유전자, 특정 염색체상의 유전자 등)[13][14]에 속하는 유전자의 특정 특성(예를 들어 게놈 내용, 돌연변이율, 상호작용 네트워크 클러스터링 등)의 분포를 비교하기 위해 사용된다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Pearson, Karl (1900). "On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling" (PDF). Philosophical Magazine. Series 5. 50 (302): 157–175. doi:10.1080/14786440009463897.
  2. ^ Pearson, Karl (1893). "Contributions to the mathematical theory of evolution [abstract]". Proceedings of the Royal Society. 54: 329–333. doi:10.1098/rspl.1893.0079. JSTOR 115538.
  3. ^ Pearson, Karl (1895). "Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material". Philosophical Transactions of the Royal Society. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010. JSTOR 90649.
  4. ^ Pearson, Karl (1901). "Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 197 (287–299): 443–459. Bibcode:1901RSPTA.197..443P. doi:10.1098/rsta.1901.0023. JSTOR 90841.
  5. ^ Pearson, Karl (1916). "Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 216 (538–548): 429–457. Bibcode:1916RSPTA.216..429P. doi:10.1098/rsta.1916.0009. JSTOR 91092.
  6. ^ Cochran, William G. (1952). "The Chi-square Test of Goodness of Fit". The Annals of Mathematical Statistics. 23 (3): 315–345. doi:10.1214/aoms/1177729380. JSTOR 2236678.
  7. ^ Fisher, Ronald A. (1922). "On the Interpretation of χ2 from Contingency Tables, and the Calculation of P". Journal of the Royal Statistical Society. 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521.
  8. ^ Fisher, Ronald A. (1924). "The Conditions Under Which χ2 Measures the Discrepancey Between Observation and Hypothesis". Journal of the Royal Statistical Society. 87 (3): 442–450. JSTOR 2341149.
  9. ^ Yates, Frank (1934). "Contingency table involving small numbers and the χ2 test". Supplement to the Journal of the Royal Statistical Society. 1 (2): 217–235. doi:10.2307/2983604. JSTOR 2983604.
  10. ^ "Chi-squared Statistic". Practical Cryptography. Archived from the original on 18 February 2015. Retrieved 18 February 2015.
  11. ^ "Using Chi Squared to Crack Codes". IB Maths Resources. British International School Phuket. 15 June 2014.
  12. ^ Ryabko, B. Ya.; Stognienko, V. S.; Shokin, Yu. I. (2004). "A new test for randomness and its application to some cryptographic problems" (PDF). Journal of Statistical Planning and Inference. 123 (2): 365–376. doi:10.1016/s0378-3758(03)00149-6. Retrieved 18 February 2015.
  13. ^ Feldman, I.; Rzhetsky, A.; Vitkup, D. (2008). "Network properties of genes harboring inherited disease mutations". PNAS. 105 (11): 4323–432. Bibcode:2008PNAS..105.4323F. doi:10.1073/pnas.0701722105. PMC 2393821. PMID 18326631.
  14. ^ "chi-square-tests" (PDF). Archived from the original (PDF) on 29 June 2018. Retrieved 29 June 2018.

추가 정보