패밀리 와이즈 에러율
Family-wise error rate통계에서 가족 단위 오류율(FWER)은 여러 가설 검정 수행 시 하나 이상의 잘못된 발견을 할 확률 또는 유형 I 오류의 확률이다.
패밀리 및 실험 오류율
Tukey(1953)는 시험의 특정 그룹, 즉 "패밀리" 중에서 제1종 오류를 범할 확률로 패밀리 와이즈 에러율의 개념을 개발했다.[1] Ryan(1959)은 실험에 의한 오류율의 관련 개념을 제안했는데, 이는 주어진 실험에서 제1종 오류를 범할 확률이다.[2] 따라서 실험 오류율은 실험 내에서 수행되는 모든 검정에 대한 모임별 오류율이다.
Ryan(1959, 각주 3)이 설명했듯이, 실험에는 둘 이상의 다중 비교 집단이 포함될 수 있으며, 각 집단은 특정 통계적 추론과 관련되고 각각 별도의 가족 단위 오류율을 가진다.[2] 따라서, 가족 단위 오류율은 이론적으로 유용한 다중 비교 수집에 기초한다. 이와는 대조적으로, 실험에 의한 오류율은 다양한 범위의 개별 추론을 참조하는 공동 사건 비교 수집에 기초할 수 있다. 따라서 일부에서는 실험 오류율을 제어하는 것이 유용하지 않을 수 있다고 주장하였다.[3] 실제로, Tukey는 실험적인 오류율(Tukey, 1956, Personal Communication, Ryan, 1962, 페이지 302)에 반대했다.[4] 보다 최근에 루빈(2021)은 "많은 경우 공동연구[실험] 가설은 이론적 또는 실질적인 근거가 없는 비교와 변수를 참조하기 때문에 연구자의 특정 연구 질문과는 관련이 없다"고 주장하면서 실험 오류율의 자동적 고려를 비판했다.s [5]공동 배려용."
배경
통계 체계 내에는 "가족"이라는 용어에 대한 몇 가지 정의가 있다.
- 호흐베르크 & 탐헤인(1987)은 "가족"을 "일부 조합된 오류 척도를 고려하는 것이 의미 있는 추론의 집합"[3]으로 정의했다.
- 콕스(1982년)에 따르면 일련의 추론을 한 가족으로 간주해야 한다.[citation needed]
- 데이터 준설로 인한 선택 효과 고려
- 정확한 전체 결정을 보장하기 위해 추론 집합의 정확성을 동시에 보장한다.
요약하자면, 가족은 현재 직면하고 있는 잠재적 선택적 추론에 의해 가장 잘 정의될 수 있다. 가족은 분석에서 가장 작은 추론 항목 집합으로, 연구의 목표에 대한 의미에 대해 서로 교환할 수 있으며, 여기서 행동, 발표 또는 강조를 위한 결과의 선택이 이루어질 수 있다(요아브 베냐니).[citation needed]
다중 가설 검정 분류
다음 표는 여러 귀무 가설을 검정할 때 가능한 결과를 정의한다. H1, H2, ..., H로m 표시된 귀무 가설의 숫자 m이 있다고 가정합시다. 통계적 테스트를 사용하여 해당 검정이 유의하다고 선언되면 귀무 가설을 기각한다. 만약 검정이 중요하지 않다면 우리는 귀무 가설을 기각하지 않는다. 모든 H에i 걸쳐 각 유형의 결과를 합산하면 다음과 같은 랜덤 변수가 발생한다.
귀무 가설 참(H0) | 대립 가설 참(HA) | 합계 | |
---|---|---|---|
테스트가 유의하다고 선언됨 | V | S | R |
검정이 중요하지 않은 것으로 선언됨 | U | T | |
합계 | m |
- m은 가설을 검정한 총 수입니다.
- 은 (는) 알 수 없는 모수인 참 귀무 가설의 수입니다.
- - 은 (는) 진정한 대립 가설의 수입니다.
- V는 잘못된 긍정(Type I error)의 수입니다("허위 검색"이라고도 함).
- S는 참 긍정("참 발견"이라고도 함)의 수입니다.
- T는 거짓 부정의 수입니다(타입 II 오류).
- U는 진정한 부정의 수입니다.
- = + 은 (는) 거부된 귀무 가설의 수입니다(참 또는 거짓이라고도 함).
이 참 귀무 가설인 m 가설 검정에서 R은 관측 가능한 랜덤 변수, S, T, U, V는 관측할 수 없는 랜덤 변수다.
정의
FWER는 패밀리에서 적어도 하나의 타입 I 오류를 범할 확률이다.
또는 동등하게
따라서 F α {을(를) 보장함으로써 패밀리에서 하나 이상의 유형 I 오류가 발생할 확률은 수준에서 제어된다
모든 귀무 가설(m = 이 참일 때만 수준 의FWER 제어가 보장되는 경우(즉, m 0 = m {\ "글로벌 귀무 가설"이 참일 때) 절차가 약한 의미에서 FWER를 제어한다.[6]
프로시저는 수준 의 FWER 제어가 참 및 비 참 귀무 가설의 구성에 대해 보장된 경우(글로벌 귀무 가설의 참 여부) 강한 의미에서 FWER를 제어한다.[7]
제어 절차
강력한 레벨 FWER 제어를 보장하는 일부 고전적 솔루션과 일부 새로운 솔루션이 존재한다.
본페로니 절차
- 를 기준으로 H i {\ H_ p-값을 표시하십시오.
- 가) 있는 경우 거부 H i H_{i}}}
시다크 절차
- = -( 1 -) \}{에서 각 가설을 시험하는 것은 시닥의 다중 시험 절차다.
- 이 절차는 본페로니보다 더 강력하지만 이득은 적다.
- 이 절차는 시험이 부정적으로 종속된 경우 FWER를 제어하지 못할 수 있다.
투키의 절차
- Tukey의 절차는 쌍 비교에만 적용된다.
- 이는 시험 대상 관측치의 독립성과 더불어 관측치에 걸친 동일한 변동(동형성)을 가정한다.
- 절차에서 각 쌍에 대해 학생화된 범위 통계를 계산한다: A - S {\}}}}{ 서 Y 은(는) 비교되는 두 평균 중 큰 평균이고, B{\은 ([citation needed]는) 작은 이고, S {\은 (는) 해당 데이터의 표준 오차다.
- Tukey의 시험은 가족 단위 오류율을 수정한다는 점을 제외하면 본질적으로 학생의 t 검정이다.[citation needed]
Holm의 단계별 절차(1979)
- p-값(가장 낮은 값부터 가장 높은 까지) P() … ( ) 을(를) 순서에 따라 먼저 시작하고 관련 가설을H () … ( ){(
- 을(를) P > + - k 과(와) 같은 최소 지수가 되도록 한다.
- 귀무 가설 ( )… ( - 1) k= 1 {\ k}인 경우 어떤 가설도 기각되지 않는다.[citation needed]
이 절차는 한결같이 본페로니 시술보다 강력하다.[8] 이 절차가 강한 의미에서 수준 α에서 모든 m 가설의 가족별 오류율을 제어하는 이유는 닫힌 시험 절차이기 때문이다. 이와 같이 각 교차로들은 간단한 본페로니 시험을 이용하여 시험한다.[citation needed]
호흐베르크의 단계적 절차
호흐베르크의 단계적 절차(1988)는 다음 단계를 사용하여 수행된다.[9]
- p-값(가장 낮은 값부터 가장 높은 까지) P() … ( ) 을(를) 순서에 따라 먼저 시작하고 관련 가설을H () … ( ){(
- 주어진 의 경우 을(를) )- + 과 같은 큰 k이 되도록 두십시오.
- 귀무 가설 (1) … ( ) 을(를) 기각한다.
Hochberg의 시술은 Holms의 시술보다 더 강력하다. 그럼에도 불구하고, Holm's는 폐쇄적인 시험 절차인 반면(따라서, Bonferroni처럼, 시험 통계의 공동 분포에 제한이 없다), Hochberg's는 Simes 테스트를 기반으로 하기 때문에, 비-음의존성 하에서만 유지된다.[citation needed]
더넷의 수정
찰스 더넷(1955, 1966)은 k 그룹을 동일한 대조군과 비교할 때 대체 알파 오류 조정을 기술했다. 현재 Dunnett의 시험으로 알려진 이 방법은 Bonferroni의 조정보다 덜 보수적이다.[citation needed]
셰페의 방법
![]() | 이 구간은 비어 있다. 추가하면 도움이 된다. (2013년 2월) |
재샘플링 절차
Bonferroni와 Holm의 절차는 p-값의 의존성 구조(또는 동등하게 개별 시험 통계)에서 FWER를 제어한다. 본질적으로 이것은 '최악의 경우'의존구조(대부분의 실용적인 목적을 위해 독립성에 가깝다)를 수용함으로써 달성된다. 그러나 의존도가 실제로 긍정적이면 그러한 접근은 보수적이다. 극단적인 예를 들어, 완벽한 양의존성 하에서, FWER는 사실상 단 하나의 테스트만 있고 따라서 FWER는 오염되지 않았다.
p-값의 의존성 구조(또는 개별 시험 통계량)에 대한 회계처리는 더 강력한 절차를 생성한다. 이는 부트스트래핑 및 순열 방법과 같은 재샘플링 방법을 적용하여 달성할 수 있다. Westfall과 Young(1993)의 절차는 항상 실제에서 유지되지 않는 특정 조건(명칭, 부분집합 피벗성)을 요구한다.[10] 로마노와 울프(2005a,b)의 절차는 이 조건을 생략하고 따라서 더 일반적으로 유효하다.[11][12]
조화 평균 p-값 절차
조화 평균 p-값(HMP) 절차는[13][14] 강한 감각의 가족-현상 오류율을 제어하면서 가설 집단의 유의성을 평가하여 본페로니 교정의 검정력을 향상시키는 다단계 검정을 제공한다. 테스트의 하위 집합 의 유의성은 하위 집합에 대한 HMP를 계산하여 평가한다.
대체 접근 방식
FWER 제어는 잘못된 발견에 대해 FDR(False Discovery Rate) 절차에 비해 더 엄격한 통제력을 발휘한다. FWER 제어는 적어도 하나의 잘못된 발견의 확률을 제한하는 반면, FDR 제어는 (느슨한 의미에서) 잘못된 발견의 예상 비율을 제한한다. 따라서 FDR 절차는 유형 I 오류의 증가율(즉, 실제로 참인 귀무 가설을 거부하는 것)의 비용으로 더 큰 힘을 갖는다.[16]
반면 FWER 통제는 가족 단위 오류율 통제보다 덜 엄격해 가족 단위 오류 발생 예상 횟수가 제한된다. FWER 제어는 적어도 하나의 거짓 발견과 관련이 있기 때문에, 가족 단위 오류율 제어와는 달리, 다중 동시 거짓 발견을 하나의 거짓 발견보다 더 나쁜 것으로 취급하지 않는다. 본페로니 교정은 흔히 FWER를 단순히 제어하는 것으로 간주되지만, 사실 가족당 오류율도 제어한다.[17]
참조
- ^ Tukey, J. W. (1953). The problem of multiple comparisons. Tukey(1953년)에 근거하여,
- ^ a b Ryan, Thomas A. (1959). "Multiple comparison in psychological research". Psychological Bulletin. American Psychological Association (APA). 56 (1): 26–47. doi:10.1037/h0042478. ISSN 1939-1455.
- ^ a b Hochberg, Y.; Tamhane, A. C. (1987). Multiple Comparison Procedures. New York: Wiley. p. 5. ISBN 978-0-471-82222-6.
- ^ Ryan, T. A. (1962). "The experiment as the unit for computing rates of error". Psychological Bulletin. 59 (4): 301–305. doi:10.1037/h0040562. PMID 14495585.
- ^ Rubin, M. (2021). "When to adjust alpha during multiple testing: A consideration of disjunction, conjunction, and individual testing". Synthese. arXiv:2107.02947. doi:10.1007/s11229-021-03276-4. S2CID 235755301.
- ^ Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Multiple Testing Problems in Pharmaceutical Statistics (1 ed.). CRC Press. p. 37. ISBN 9781584889847.
- ^ Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Multiple Testing Problems in Pharmaceutical Statistics (1 ed.). CRC Press. p. 37. ISBN 9781584889847.
- ^ Aickin, M; Gensler, H (1996). "Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods". American Journal of Public Health. 86 (5): 726–728. doi:10.2105/ajph.86.5.726. PMC 1380484. PMID 8629727.
- ^ Hochberg, Yosef (1988). "A Sharper Bonferroni Procedure for Multiple Tests of Significance" (PDF). Biometrika. 75 (4): 800–802. doi:10.1093/biomet/75.4.800.
- ^ Westfall, P. H.; Young, S. S. (1993). Resampling-Based Multiple Testing: Examples and Methods for p-Value Adjustment. New York: John Wiley. ISBN 978-0-471-55761-6.
- ^ Romano, J.P.; Wolf, M. (2005a). "Exact and approximate stepdown methods for multiple hypothesis testing". Journal of the American Statistical Association. 100 (469): 94–108. doi:10.1198/016214504000000539. hdl:10230/576. S2CID 219594470.
- ^ Romano, J.P.; Wolf, M. (2005b). "Stepwise multiple testing as formalized data snooping". Econometrica. 73 (4): 1237–1282. CiteSeerX 10.1.1.198.2473. doi:10.1111/j.1468-0262.2005.00615.x.
- ^ Good, I J (1958). "Significance tests in parallel and in series". Journal of the American Statistical Association. 53 (284): 799–813. doi:10.1080/01621459.1958.10501480. JSTOR 2281953.
- ^ Wilson, D J (2019). "The harmonic mean p-value for combining dependent tests". Proceedings of the National Academy of Sciences USA. 116 (4): 1195–1200. doi:10.1073/pnas.1814092116. PMC 6347718. PMID 30610179.
- ^ Sciences, National Academy of (2019-10-22). "Correction for Wilson, The harmonic mean p-value for combining dependent tests". Proceedings of the National Academy of Sciences. 116 (43): 21948. doi:10.1073/pnas.1914128116. PMC 6815184. PMID 31591234.
- ^ Shaffer, J. P. (1995). "Multiple hypothesis testing". Annual Review of Psychology. 46: 561–584. doi:10.1146/annurev.ps.46.020195.003021. hdl:10338.dmlcz/142950.
- ^ Frane, Andrew (2015). "Are per-family Type I error rates relevant in social and behavioral science?". Journal of Modern Applied Statistical Methods. 14 (1): 12–23. doi:10.22237/jmasm/1430453040.
외부 링크
- 패밀리 와이즈 에러율 이해 - 잘못된 검색 속도에 대한 효용을 포함한 블로그 게시물