p-값 오용

Misuse of p-values

p-값의 오용과학 연구과학 교육에서 흔하다. p-값은 종종 잘못 사용되거나 해석된다;[1] 미국 통계 협회는 p-값이 지정된 통계 모델과 얼마나 양립할 수 없는지를 나타낼 수 있다고 말한다.[2] Neyman-Pearson 가설 검정 접근방식에서 통계적 추론에 대한 통계적 추론에서 p-값을 유의 수준과 비교하여 얻은 데이터는 두 가지 결과 중 하나를 산출할 이다: 귀무 가설은 기각된다(그러나 귀무 가설은 거짓임을 증명하지 못함). 또는 귀무 가설은 해당 유의 수준에서는 기각될 수 없다. (그러나 귀무 가설이 사실이라는 것을 증명하지 못한다.) Fisherian 통계 시험 접근방식에서 통계적 추론에 이르기까지 p-값이 낮다는 것은 귀무 가설이 참이고 가능성이 매우 낮은 사건이 발생했거나 귀무 가설이 거짓이라는 을 의미한다.

p-값 설명

다음 목록은 p-값과 관련하여 일반적으로 오해되는 몇 가지 문제를 명확히 한다.[2][3][4]

  1. p-값은 귀무 가설이 참일 확률이나 대립 가설이 거짓일 확률은 아니다.[2] p-값은 데이터 집합과 특정 가설 설명(예: 귀무 가설) 사이의 호환성 정도를 나타낼 수 있다. 구체적으로는 귀무 가설이 참이라는 점을 감안할 때 p-값은 최소한 관측된 효과만큼 극단적인 효과를 얻을 수 있는 사전 확률로 간주할 수 있다. 이는 관측된 효과를 고려할 때 귀무 가설이 참일 가능성이 있는 후방 확률과 혼동해서는 안 된다(검사의 오류 참조). 사실, 빈번한 통계학은 가설에 확률을 부가하지 않는다.
  2. p-값은 관측된 효과가 무작위 우연만으로 생성되었을 확률은 아니다.[2] p-값은 특정 모형, 대개 귀무 가설은 참이라는 가정 하에 계산된다. 이는 p-값이 해당 가설과의 데이터 관계에 대한 진술임을 의미한다.[2]
  3. 0.05 유의 수준은 하나의 관례에 불과하다.[3][5] 0.05 유의 수준(알파 수준)은 통계적으로 유의미한 p-값과 통계적으로 유의하지 않은 p-값 사이의 경계로 자주 사용된다. 그러나 이는 일반적으로 어떤 문턱의 반대편에 있는 결과를 질적으로 다른 것으로 간주해야 하는 과학적 이유가 있다는 것을 의미하지는 않는다.[3][6]
  4. p-값은 관측된 효과의 크기나 중요성을 나타내지 않는다.[2] 유의미하거나 중요하지 않은 효과에 대해 작은 p-값을 관측할 수 있다. 실제로 표본 크기가 클수록 통계적으로 유의한 p-값을 생성하는 데 필요한 최소 효과는 작다(효과 크기 참조). 효과 크기를 시각화하는 것은 추정 통계라고 불리는 데이터 분석 방법의 중요한 구성요소다.

가설의 확률 표시

빈번한 접근법은 가설의 확률 표시의 타당성을 거부한다. 가설은 확률로 나타낼 수 있는 것이 아니라 사실 또는 거짓이다.[7]

베이지안 통계는 적극적으로 가설의 가능성을 모형화한다. p-값은 그 자체로는 복수의 가설 또는 가설의 범위가 필요한 가설의 확률에 대한 추론을 허용하지 않으며, 가설들 사이에 우도의 사전 분포를 가지고 있으며, 이 경우 베이지안 통계를 사용할 수 있다. 여기서, 하나의 귀무 가설의 p-값 대신 앞의 모든 가능한 값에 대해 우도 함수를 사용한다. p-값은 특정 귀무 가설과 비교할 때 데이터의 속성을 기술한다. p-값은 가설 자체의 속성이 아니다. 같은 이유로 p-값은 무작위 우연만으로 데이터가 생성되었을 확률을 제공하지 않는다.[2]

다중 비교 문제

다중 비교 문제는 일련의 통계적 추론을 동시에[8] 고려하거나 관측된 값에 기초하여 선택한 모수의 부분 집합을 주입할 때 발생한다.[9] 그것은 또한 외관상 효과로도 알려져 있다. 해당 모집단 모수를 포함하지 못하는 신뢰 구간이나 귀무 가설을 잘못 기각하는 가설 검정 등 오차 추론은 집합을 전체로 고려할 때 발생할 가능성이 높다. 이러한 현상을 방지하기 위해 여러 가지 통계적 기법이 개발되어 단일 및 다중 비교에 대한 유의 수준을 직접 비교할 수 있다. 이러한 기법은 일반적으로 개별 비교를 위해 더 높은 유의성 임계값을 요구하여, 추론의 수를 보상한다.[citation needed]

웹툰 xkcd젤리빈드를 먹으면 여드름이 생긴다는 주장을 연구하는 과학자들의 모습을 그려 p-값에 대한 오해를 풍자했다.[10][11][12][13] 젤리빈드를 먹는 것과 여드름 사이의 유의미한 상관관계(p < 0.05)를 찾지 못하자 과학자들은 중복 비교를 위해 조절하지 않고 20가지 다른 색깔의 젤리빈즈를 개별적으로 조사한다. 그들은 명목상 여드름과 관련된 한 가지 색상(녹색)을 발견한다(p < 0.05). 그 결과 녹색 젤리빈은 95% 신뢰수준에서 여드름과 연관되어 있다는 것을 보여주는 것으로 한 신문에 보도되었다. 마치 녹색만이 유일한 색깔 테스트인 것처럼 말이다. 실제로 0.05 유의 수준에서 20회의 독립적 시험을 시행하고 모든 귀무 가설이 참일 경우 적어도 하나의 거짓 양성(false positive)을 얻을 확률은 64.2%이며, 거짓 양성(false positive)의 예상 수는 1(즉, 0.05 × 20)이다.

일반적으로 가족 단위 오류율(FWER) - 적어도 하나의 거짓 양성 반응을 얻을 확률 - 수행된 시험 횟수에 따라 증가한다. 각각 유의 수준 α에서 수행된 m 독립 시험에 대해 모든 귀무 가설이 참인 경우 FWER는 다음과 같다.[12]

참고 항목

참조

  1. ^ Vidgen B, Yasseri T (March 2016). "P-Values: Misunderstood and Misused". Frontiers in Physics. 4 (6): 6. arXiv:1601.06805. Bibcode:2016FrP.....4....6V. doi:10.3389/fphy.2016.00006.
  2. ^ a b c d e f g Wasserstein RL, Lazar NA (2016). "The ASA's statement on p-values: context, process, and purpose" (PDF). The American Statistician. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. S2CID 124084622.
  3. ^ a b c Sterne JA, Davey Smith G (January 2001). "Sifting the evidence-what's wrong with significance tests?". BMJ. 322 (7280): 226–31. doi:10.1136/bmj.322.7280.226. PMC 1119478. PMID 11159626.
  4. ^ Schervish MJ (1996). "P values: What they are and what they are not". The American Statistician. 50 (3): 203–206. doi:10.2307/2684655. JSTOR 2684655.
  5. ^ Rafi Z, Greenland S (September 2020). "Semantic and cognitive tools to aid statistical science: replace confidence and significance by compatibility and surprise". BMC Medical Research Methodology. 20 (1): 244. arXiv:1909.08579. doi:10.1186/s12874-020-01105-9. PMC 7528258. PMID 32998683.
  6. ^ Amrhein V, Korner-Nievergelt F, Roth T (2017). "p > 0.05: significance thresholds and the crisis of unreplicable research". PeerJ. 5: e3544. doi:10.7717/peerj.3544. PMC 5502092. PMID 28698825.
  7. ^ Chaput, Brigitte; Girard, Jean-Claude; Henry, Michel (2011). "Frequentist Approach: Modelling and Simulation in Statistics and Probability Teaching". Teaching Statistics in School Mathematics-Challenges for Teaching and Teacher Education. New ICMI Study Series. Vol. 14. pp. 85–95. doi:10.1007/978-94-007-1131-0_12. ISBN 978-94-007-1130-3.
  8. ^ Miller RG (1981). Simultaneous Statistical Inference (2nd ed.). New York: Springer Verlag. ISBN 978-0-387-90548-8.
  9. ^ Benjamini Y (December 2010). "Simultaneous and selective inference: Current successes and future challenges". Biometrical Journal. Biometrische Zeitschrift. 52 (6): 708–21. doi:10.1002/bimj.200900299. PMID 21154895.
  10. ^ Munroe R (6 April 2011). "Significant". xkcd. Retrieved 2016-02-22.
  11. ^ Colquhoun D (November 2014). "An investigation of the false discovery rate and the misinterpretation of p-values". Royal Society Open Science. 1 (3): 140216. arXiv:1407.5296. Bibcode:2014RSOS....140216C. doi:10.1098/rsos.140216. PMC 4448847. PMID 26064558.
  12. ^ a b Reinhart A (2015). Statistics Done Wrong: The Woefully Complete Guide. No Starch Press. pp. 47–48. ISBN 978-1-59327-620-1.
  13. ^ Barsalou M (2 June 2014). "Hypothesis testing and p values". Minitab blog. Retrieved 2016-02-22.

추가 읽기