데이터 준설
Data dredging![](http://upload.wikimedia.org/wikipedia/commons/thumb/0/0c/Spurious_correlations_-_spelling_bee_spiders.svg/500px-Spurious_correlations_-_spelling_bee_spiders.svg.png)
데이터 준설(데이터 스누핑 또는 [1][a]p-해킹이라고도 함)은 통계적으로 유의한 것으로 표시될 수 있는 데이터 패턴을 찾기 위해 데이터 분석을 오용함으로써 잘못된 긍정의 위험을 극적으로 증가시키고 과소평가하는 것입니다.이 작업은 데이터에 대해 많은 통계 테스트를 수행하고 [2]중요한 결과가 반환된 테스트만 보고함으로써 수행됩니다.
데이터 준설 과정에는 단일 데이터 집합을 사용하여 여러 가설을 철저히 검색하여 테스트하는 것이 포함된다. 예를 들어 상관관계를 나타낼 수 있는 변수 조합, 평균 또는 다른 변수에 의한 분석의 차이를 보여주는 사례 또는 관측치 그룹에 대해서도 마찬가지이다.
통계적 유의성에 대한 기존의 테스트는 우연이 작용했을 때 특정 결과가 발생할 확률에 기초하며, 반드시 특정 유형의 잘못된 결론(귀무 가설의 잘못된 거부)의 위험을 받아들인다.이 위험 수준을 유의성이라고 합니다.많은 수의 테스트가 수행되면 일부는 이러한 유형의 잘못된 결과를 생성한다. 따라서 무작위로 선택된 가설의 5%는 5% 유의 수준에서 통계적으로 유의하다고 보고될 수 있고, 1%는 1% 유의 수준에서 통계적으로 유의하다고 보고될 수 있으며, 이는 우연에 의해서만 보고될 수 있다.충분한 가설을 테스트하면 랜덤성 정도를 가진 거의 모든 데이터 집합이 (예를 들어) 일부 가짜 상관 관계를 포함할 가능성이 높기 때문에 통계적으로 유의한 것으로 보고될 것이 거의 확실하다.주의하지 않으면 데이터 마이닝 기술을 사용하는 연구자들은 이러한 결과에 쉽게 현혹될 수 있습니다.
데이터 준설은 다중 비교 문제를 무시하는 예입니다.한 가지 형태는 검사한 [3]총 부분군 비교 수를 독자에게 알리지 않고 부분군을 비교하는 것입니다.
데이터에서 결론을 도출하다
기존의 빈번한 통계 가설 테스트 절차는 "상류 사회 계층의 사람들이 더 오래 산다"와 같은 연구 가설을 공식화한 후, 관련 데이터를 수집한 다음, 확률만 작용한다면 그러한 결과가 얼마나 많이 발견될지 확인하기 위한 통계적 유의성 테스트를 수행하는 것이다. (마지막 단계는 "최종 단계라고 불린다.귀무 가설에 대한 테스트)
적절한 통계 분석의 핵심은 가설을 구성하는 데 사용되지 않은 증거(데이터)를 사용하여 가설을 검정하는 것입니다.모든 데이터 세트에는 완전히 우연에 의한 패턴이 포함되어 있기 때문에 이것은 매우 중요합니다.동일한 통계 모집단의 다른 데이터 집합에 대해 가설을 검정하지 않으면 우연만으로 그러한 패턴을 생성할 가능성을 평가하는 것은 불가능합니다.데이터에 의해 제안된 가설 검정을 참조하십시오.
여기 간단한 예가 있습니다.앞면이 2개이고 뒷면이 3개이고 동전을 5번 던지면 동전이 뒷면을 3/5에서 2/5만큼 선호한다는 가설을 세울 수 있습니다.그런 다음 이 가설을 기존 데이터 집합에서 테스트하면 확인되지만 확인은 의미가 없습니다.적절한 절차는 미리 꼬리 확률이 얼마인지 가설을 세우고, 그 가설이 기각되는지 확인하기 위해 동전을 여러 번 던지는 것이었을 것이다.세 개의 꼬리와 두 개의 앞면이 관찰되면 꼬리 확률이 3/5라는 또 다른 가설이 형성될 수 있지만, 새로운 동전 던지기로만 검정할 수 있습니다.잘못된 절차에 따른 통계적 유의성은 완전히 가짜라는 것을 인식하는 것이 중요합니다. 유의성 테스트는 데이터 준설을 방지하지 않습니다.
비대표 데이터에 의해 제시된 가설
랜덤 표본에 대한 연구에 정확히 8월 7일 생일을 가진 두 사람, 즉 메리와 존이 포함된다고 가정합니다.데이터 스누핑에 종사하는 누군가가 Mary와 John의 다른 유사점을 찾으려고 할 수 있습니다.각각이 사실일 확률이 낮은 두 가지 사이에 수백 또는 수천 가지의 잠재적 유사점을 경험함으로써, 특이한 유사점을 거의 확실히 발견할 수 있다.아마도 존과 메리는 대학에서 미성년자를 세 번 바꾼 유일한 두 사람일 것이다.데이터 스누핑에 치우친 가설은 "8월 7일에 태어난 사람들은 대학에서 미성년자를 두 번 이상 바꿀 가능성이 훨씬 더 높다."
다른 생일을 가진 사람은 대학에서 미성년자를 세 번 바꾼 적이 없기 때문에 문맥을 벗어난 데이터 자체가 이러한 상관관계를 강하게 뒷받침하는 것으로 보일 수 있다.하지만 만약 이것이 거짓 가설이라면, 이 결과는 재현할 수 없을 것이다; 8월 7일의 생일을 가진 다른 사람들이 미성년자 변화율이 비슷한지 확인하려는 시도는 거의 즉시 모순된 결과를 얻을 것이다.
편견
치우침은 분석의 체계적 오류입니다.예를 들어 의사들은 심혈관계 위험이 높은 HIV 환자를 특정 HIV 치료제로, 아바카비르를 다른 치료제와 비교하여 아바카비르를 단순하게 평가하는 것을 막았다.아바카비르의 환자가 더 고위험이어서 더 많은 환자가 심장마비를 [3]일으켰기 때문에 이러한 편향을 시정하지 못한 분석은 아바카비르를 부당하게 처벌했다.예를 들어,[3][2] 관측 연구에서는 이 문제가 매우 심각할 수 있습니다.
결측 요인, 측정되지 않은 교란 요인 및 후속 조치 손실도 편향을 [3]초래할 수 있습니다.유의한 p-값을 가진 논문을 선택함으로써 부정적인 연구가 출판 편향에 대해 선택된다.파일 드로어 바이어스라고도 합니다.이는 파일 드로어에 중요하지 않은 p-value 결과가 남아 공개되지 않기 때문입니다.
다중 모델링
데이터 [clarify]지식에 의한 통계 테스트의 조건화의 또 다른 측면은 데이터 빈도를 관측하기 위해 시스템 또는 기계 분석과 선형 회귀를 사용하는 동안 볼 수 있다.공정에서 중요한 단계는 하나 이상의 다른 변수를 설명하는 관계에 포함할 공변량을 결정하는 것입니다.저자가 다른 모델보다 일부 모델을 선호하도록 유도하는 통계적(단계적 회귀 참조)과 실질적인 고려사항이 있으며, 통계적 검정을 자유롭게 사용한다.그러나 데이터에 기초하여 설명 관계에서 하나 이상의 변수를 폐기하는 것은 아무 일도 일어나지 않은 것처럼 관련 유지 변수에 표준 통계 절차를 유효하게 적용할 수 없다는 것을 의미한다.사례의 성격상, 보유된 변수는 폐기된 변수가 실패했다는 일종의 예비 테스트(아마도 부정확한 직관적 테스트)를 통과해야 했다.1966년 Selvin과 Stuart는 모델에 유지된 변수를 그물을 통과하지 않는 물고기와 비교했습니다. 즉, 그물망을 통과하지 않는 물고기보다 그 영향이 클 수밖에 없습니다.이는 보존된 설명 모델에 대한 모든 후속 테스트의 성능을 변경할 뿐만 아니라 편향을 도입하고 [4][5]추정의 평균 제곱 오차를 변경할 수도 있다.
기상학 및 역학 사례
기상학에서 가설은 종종 현재까지의 기상 데이터를 사용하여 공식화되고 미래의 기상 데이터에 대해 테스트된다. 이는 무의식적으로도 미래 데이터가 가설의 공식화에 영향을 미치지 않도록 보장한다.물론, 그러한 규율은 공식화된 이론의 예측력 대 귀무 가설을 보여주기 위해 새로운 데이터가 들어오기를 기다릴 필요가 있다.이 과정은 다가오는 날씨를 아직 이용할 수 없기 때문에 아무도 연구자가 예측 모형을 수중에 있는 데이터에 직접 맞춘다고 비난할 수 없도록 합니다.
또 다른 예로, 관찰자들이 특정 마을에 암 군집이 있는 것처럼 보이지만, 왜 그런지에 대한 확실한 가설이 없다고 가정해 봅시다.그러나 이들은 대부분 상관 관계가 없는 수백 또는 수천 개의 서로 다른 변수 영역에 대한 측정값을 포함하는 마을과 주변 지역에 대한 많은 인구 통계 데이터에 접근할 수 있다.이러한 모든 변수가 암 발생률과 독립적이라고 해도, 적어도 하나의 변수가 지역 전체의 암 발생률과 유의하게 상관할 가능성이 높다.이는 가설을 제안할 수 있지만 다른 위치의 데이터를 사용하여 동일한 변수를 사용하여 추가 검정을 수행해야 합니다.p-값이 0.01이면 최소한 극단값의 1%가 우연에 의해 얻어질 수 있음을 나타냅니다. (상대적으로 상관 관계가 없는 독립 변수를 사용하여) 수백 또는 수천 개의 가설을 검정하면 많은 귀무 가설에 대해 0.01보다 작은 p-값을 얻을 수 있습니다.
구제책
데이터에서 패턴을 찾는 것은 합법적입니다.패턴이 생성된 동일한 데이터에 유의성 통계 검정 또는 가설 검정을 적용하는 것은 잘못된 것입니다.데이터 준설을 피하면서 가설을 구성하는 한 가지 방법은 랜덤화된 표본 외 검정을 수행하는 것입니다.연구자는 데이터 세트를 수집한 다음 A와 B의 두 부분 집합으로 랜덤하게 분할합니다.가설을 작성하기 위해 검사되는 서브셋은 1개뿐입니다(예를 들어 서브셋A).가설을 공식화한 후에는 가설을 구성하는 데 사용되지 않은 부분 집합 B에 대해 검정해야 합니다.B가 그러한 가설을 뒷받침하는 경우에만 가설이 타당하다고 믿는 것이 타당합니다.(이는 단순한 유형의 교차 검증이며 종종 훈련 테스트 또는 분할 절반 검증이라고 불립니다.)
데이터 준설을 위한 또 다른 해결책은 연구 중에 수행된 모든 유의성 테스트의 수를 기록하고 유의성 기준("알파")을 이 숫자로 나누는 것이다. 이것이 본페로니 보정이다.단, 이것은 매우 보수적인 메트릭입니다.이 방법으로 유의성 검정을 1,000으로 나눈 0.05의 패밀리별 알파는 0.00005의 매우 엄격한 히포테시스당 알파를 산출합니다.분산 분석 및 기준 함수를 포함하는 회귀에 대한 동시 신뢰 대역을 구성하는 데 특히 유용한 방법은 Scheffé 방법이며, 연구자가 쌍별 비교만을 염두에 둔 경우에는 Tukey 방법이다.Benjamini와 Hochberg의 잘못된 발견 비율을 사용하는 것은 다중 가설 테스트를 제어하는 데 널리 사용되는 방법이 된 보다 정교한 방법입니다.
어느 접근법도 실용적이지 않을 경우 확증적인 데이터 분석과 탐색적인 분석을 명확히 구분할 수 있다.통계적 추론은 [5]전자에 대해서만 적절하다.
궁극적으로 검정의 통계적 유의성과 소견의 통계적 신뢰도는 데이터의 공동 특성 및 데이터 검사에 사용되는 방법이다.따라서 특정 사건이 20번 중 20% ± 2%의 확률을 19번 갖는다고 하면, 20%의 추정치를 얻는 데 사용한 것과 동일한 방법으로 사건의 확률을 추정하면 그 결과는 18%에서 22% 사이, 확률은 0.95라는 것을 의미합니다.통계적 유의성의 주장은 데이터 평가에 사용된 방법을 고려하지 않고 보기만으로는 할 수 없다.
학술지는 점점 더 데이터 준설과 같은 매우 심각한 문제에 대처하는 것을 목표로 하는 등록 보고서 형식으로 바뀌고 있으며, 이는 이론 검증 연구를 매우 신뢰할 수 없게 만들었다.예를 들어, Nature Human Behavior는 "연구의 결과에서 연구를 안내하는 질문 및 이에 [6]대한 답변에 사용되는 방법"으로 강조점을 전환하기 위해 등록된 보고서 형식을 채택했다.European Journal of Personality는 이 형식을 다음과 같이 정의한다. "등록된 보고서에서 저자는 이론 및 경험적 배경, 연구 질문/요약 및 파일럿 데이터(사용 가능한 경우)를 포함하는 연구 제안을 작성합니다.제출 시, 이 제안은 데이터 수집 전에 검토될 것이며, 수락될 경우 연구 [7]결과에 관계없이 안전 점검 절차에 따른 논문이 발표될 것이다."
오픈 사이언스 접근법처럼 방법과 결과를 공개적으로 이용할 수 있어 데이터 준설이 [8]더욱 어려워집니다.
「 」를 참조해 주세요.
- 앨리어스 – 신호 처리 효과
- 기준금리 오류 – 기준금리 정보의 저평가와 관련된 사고 오류
- 성경 코드 – Torah의 히브리어 텍스트 내에 암호화되어 있는 것으로 알려진 비밀 메시지 세트
- 본페로니 부등식
- 체리 따기 – 불완전한 증거의 오류
- HARKing – "결과가 알려진 후 하이퍼사이징"의 약자
- 링컨-케네디의 우연의 일치 도시 전설 - 도시 전설
- Look-elsewhere 효과
- 메타사이언스 – 과학적 방법론을 사용하여 과학 자체를 연구합니다.
- 통계의 오용 – 거짓을 주장하기 위해 통계적 인수를 사용한다.
- 과적합 – 머신러닝 컴퓨터 모델의 결함
- Pareidolia – 의미 있는 패턴 또는 이미지를 무작위 또는 모호한 자극으로 지각합니다.
- 사후 분석 – 데이터가 표시되기 전에 지정되지 않은 통계 분석
- 예측 분석 – 사실을 분석하여 알려지지 않은 사건에 대한 예측을 하는 통계 기법
- Texas shooter 오류 – 유사점을 지나치게 강조하여 데이터 차이를 무시하는 오류
레퍼런스
- ^ Wasserstein, Ronald L.; Lazar, Nicole A. (2016-04-02). "The ASA Statement on p-Values: Context, Process, and Purpose". The American Statistician. Informa UK Limited. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. ISSN 0003-1305.
- ^ a b Davey Smith, G.; Ebrahim, S. (2002). "Data dredging, bias, or confounding". BMJ. 325 (7378): 1437–1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.
- ^ a b c d Young, S. S.; Karr, A. (2011). "Deming, data and observational studies" (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x.
- ^ Selvin, H.C.; Stuart, A. (1966). "Data-Dredging Procedures in Survey Analysis". The American Statistician. 20 (3): 20–23. doi:10.1080/00031305.1966.10480401. JSTOR 2681493.
- ^ a b Berk, R.; Brown, L.; Zhao, L. (2009). "Statistical Inference After Model Selection". J Quant Criminol. 26 (2): 217–236. doi:10.1007/s10940-009-9077-7. S2CID 10350955.
- ^ "Promoting reproducibility with registered reports". Nature Human Behaviour. 1 (1): 0034. 10 January 2017. doi:10.1038/s41562-016-0034. S2CID 28976450.
- ^ "Streamlined review and registered reports soon to be official at EJP". ejp-blog.com.
- ^ Vyse, Stuart (2017). "P-Hacker Confessions: Daryl Bem and Me". Skeptical Inquirer. 41 (5): 25–27. Archived from the original on 2018-08-05. Retrieved 5 August 2018.
메모들
- ^ 다른 이름으로는 데이터 도살, 데이터 피싱, 선택적 추론, 중요성 추적 및 중요성 탐색이 있습니다.
추가 정보
- Ioannidis, John P.A. (August 30, 2005). "Why Most Published Research Findings Are False". PLOS Medicine. San Francisco: Public Library of Science. 2 (8): e124. doi:10.1371/journal.pmed.0020124. ISSN 1549-1277. PMC 1182327. PMID 16060722.
- Head, Megan L.; Holman, Luke; Lanfear, Rob; Kahn, Andrew T.; Jennions, Michael D. (13 March 2015). "The Extent and Consequences of P-Hacking in Science". PLOS Biology. 13 (3): e1002106. doi:10.1371/journal.pbio.1002106. PMC 4359000. PMID 25768323.
- Insel, Thomas (November 14, 2014). "P-Hacking". NIMH Director's Blog.
- Smith, Gary (2016). Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics. Gerald Duckworth & Co. ISBN 9780715649749.