추세에 대한 Cochran-Amitage 검정

Cochran–Armitage test for trend

윌리엄 코크란과 피터 아미티지(Peter Amitage)를 위해 명명된 [1][2]추세에 대한 코크란-아미티지(Cochran-Amitage) 테스트는 두 범주를 갖는 변수와 k 범주를 갖는 순서형 변수 사이의 연관성을 평가하는 데 목적이 있을 때 범주형 데이터 분석에 사용된다.번째 변수의 k 범주의 효과에 의심스러운 순서를 포함하도록 Pearson 카이-제곱 검정을 수정한다.예를 들어 치료의 선량은 '낮음', '중간', '높음'으로 주문할 수 있으며, 우리는 선량이 증가함에 따라 치료효익이 작아질 수 없다고 의심할 수 있다.추세 검사는 종종 환자-대조군 유전자 관련 연구를 위한 유전자형 검사로 사용된다.[3]

소개

추세검사는 데이터가 2 × k 보정표 형태를 취할 때 적용된다.예를 들어, k = 3이면

B = 1 B = 2 B = 3
A = 1 N11 N12 N13
A = 2 N21 N22 N23

이 표는 두 변수의 한계 총계를 사용하여 작성할 수 있다.

B = 1 B = 2 B = 3 합계
A = 1 N11 N12 N13 R1
A = 2 N21 N22 N23 R2
합계 C1 C2 C3 N

여기서1 R1 = N11 + N12 + N 13 C = N + N 1121

트렌드 테스트 통계량은

여기서 ti 가중치이고, NR1i2 -NR의2i1 차이는 같은 합계를 갖도록 행을 재가중시킨 후 N1i N2i 차이로 볼 수 있다.

연관성이 없다는 가설(귀무 가설)은 다음과 같이 표현할 수 있다.

만약 이게 지속된다고 가정한다면, 반복된 기대치를 이용해서,

분산은 분해, 산출에 의해 계산될 수 있다.

그리고 큰 표본 근사치로서,

추이 시험i 특정 유형의 연관성을 탐지하는 데 국소적으로 가장 강력해지는 방법으로 가중치 t를 선택할 수 있다.예를 들어, k = 3이고 우리는 B = 1과 B = 2가 (각 행 내에서) 유사한 주파수를 가지고 있지만 B = 3은 주파수가 다르다고 의심한다면, 중량 t = (1,10)를 사용해야 한다.주파수에서 선형 추세가 의심될 경우 가중치 t = (0,1,2)를 사용해야 한다.이러한 가중치는 추세가 반드시 선형적이지 않더라도 B와 단조롭게 변화한다고 의심될 때 자주 사용된다.

해석과 역할

추세검사는 의심스러운 추세가 맞으면 카이-제곱 검정보다 높은 검정력을 갖지만, 예상치 못한 추세를 탐지하는 능력은 희생된다.이는 가설 검정을 좁은 대안으로 유도하는 일반적인 기법의 한 예다.추세 검정은 의심되는 효과 방향을 이용하여 검정력을 증가시키지만, 이는 귀무 가설에서 검정 통계량의 표본 분포에 영향을 미치지 않는다.따라서, 효과의 의심스러운 추세는 시험 결과가 유의미하기 위해 유지되어야 하는 가정이 아니다.

유전학 적용

어떤 위치에는 세 가지 유전자형이 있을 수 있다고 가정하고, 우리는 이것을 AA, AA라고 부른다.유전자형 카운트의 분포는 2 × 3 분할표에 넣을 수 있다.예를 들어 유전자형 주파수가 사례에서 선형적으로 변화하고 대조군에서 일정하게 나타나는 다음 데이터를 고려해 보십시오.

유전자형 aa 유전자형 AA 유전자형 AA 합계
컨트롤 20 20 20 60
경우들 10 20 30 60
합계 30 40 50 120

유전학 응용에서는 의심스러운 상속 방식에 따라 가중치를 선정한다.예를 들어, alle a가 alle A보다 우세한지 여부를 검정하기 위해 t = (1, 1, 0) 선택권이 국소적으로 최적이다.a가 A을(를) 밝히기 위해 열성적인지 여부를 검정하려면 t = (0, 1, 1)가 최적의 선택이다.a와 A가 코도민성인지 여부를 검정하려면 t = (0, 1, 2) 선택 항목이 국소적으로 최적이다.복잡한 질병의 경우, 기초적인 유전적 모델은 알려지지 않은 경우가 많다.게놈 전체 연관성 연구에서는 시험의 첨가제(또는 코도민) 버전이 종종 사용된다.

수치 예제에서 다양한 체중 벡터에 대한 표준화된 시험 통계량은 다음과 같다.

역기 표준화된 시험통계
1,1,0 1.85
0,1,1 −2.1
0,1,2 −2.3

Pearson Chi-squared 테스트는 표준화된 테스트 통계량을 2로 제공한다.따라서 가산(코도민) 상속에 해당하는 가중치를 사용할 경우 더 강한 유의 수준을 얻는다.유의할 점은 통상적인 확률론적 해석으로 p-값을 주기 위해서는 데이터를 검토하기 전에 가중치를 지정해야 하며, 가중치 집합은 하나만 사용할 수 있다.

참고 항목

참조

  • Agresti, Alan (2002). Categorical Data Analysis (Second ed.). Wiley. ISBN 0-471-36093-7.
  • Sasieni, P (1997). "From genotypes to genes: doubling the sample size". Biometrics. International Biometric Society. 53 (4): 1253–61. doi:10.2307/2533494. JSTOR 2533494. PMID 9423247.
  • statgen.org (2007). "A derivation for Armitage's trend test for the 2 × 3 genotype table" (PDF). Retrieved 6 February 2009.
  1. ^ Cochran, WG (1954). "Some methods for strengthening the common chi-squared tests". Biometrics. International Biometric Society. 10 (4): 417–451. doi:10.2307/3001616. JSTOR 3001616.
  2. ^ Armitage, P (1955). "Tests for Linear Trends in Proportions and Frequencies". Biometrics. International Biometric Society. 11 (3): 375–386. doi:10.2307/3001775. JSTOR 3001775.
  3. ^ Purcell S, Neale B, Todd-Brown K, et al. (September 2007). "PLINK: a tool set for whole-genome association and population-based linkage analyses". Am. J. Hum. Genet. 81 (3): 559–75. doi:10.1086/519795. PMC 1950838. PMID 17701901.