통계 가설 검정

Statistical hypothesis testing

통계 가설 검정은 현재 데이터가 특정 가설을 충분히 뒷받침하는지 여부를 결정하는 데 사용되는 통계적 추론 방법입니다.가설 테스트는 모집단 매개변수에 대한 확률론적 진술을 가능하게 한다.

역사

조기 사용

가설 테스트는 20세기 초에 대중화되었지만, 초기 형태는 1700년대에 사용되었다.출생 시 인간의 성비를 분석하는 데 있어서 존 아르부트(1710)[1]가 첫 번째 사용했고, 그 다음에 피에르-시몽 라플라스(1770년대)가 사용했다고 한다. § 인간 성비를 참조하라.

근대적 기원과 초기 논쟁

현대 유의성 검정은 주로 Karl Pearson(p-값, Pearson의 카이 제곱 검정), William Sealy Gosset(학생의 t-분포) Ronald Fisher(귀무 가설, 분산 분석, 유의성 검정)의 산물이며, 가설 검정은 Jerzy Neyman과 Egon Pearson(Karson의 아들)에 의해 개발되었습니다.로널드 피셔는 베이즈(Zabell 1992년)로서 통계학에서 그의 삶을 시작했지만, 피셔는 곧 관련된 주관성에 환멸을 느끼게 되었고, 귀납적 [2]추론에 더 "객관적인" 접근법을 제공하려고 했다.

피셔는 엄격한 실험 설계와 가우스 분포를 가정한 소수의 표본에서 결과를 추출하는 방법을 강조한 농업 통계학자였다.나이먼(젊은 피어슨과 팀을 이룬)은 많은 표본과 광범위한 분포로부터 더 많은 결과를 얻기 위해 수학적 엄격함과 방법을 강조했다.현대 가설 테스트는 20세기 초에 개발된 피셔 대 네이만/피어슨의 공식, 방법 및 용어의 일관되지 않은 혼합물이다.

피셔는 "중요도 테스트"를 대중화했다.그는 모집단 빈도 분포에 해당하는 null-hypothesis와 표본을 필요로 했다.그의 (지금은 익숙한) 계산은 무효 약수를 거부할 것인지 아닌지를 결정지었다.유의성 검정은 대안 가설을 사용하지 않았기 때문에 유형 II 오류의 개념은 없었다.

p-값은 비공식적이지만 객관적인 지표로서 연구자가 (다른 지식에 기초하여) 미래 실험을 수정할지 또는 귀무 [3]가설에 대한 믿음을 강화할지를 결정하는 데 도움을 주기 위해 고안되었다.가설 테스트(및 유형 I/II 오류)는 피셔의 p-값에 대한 보다 객관적인 대안으로 Neyman과 Pearson에 의해 고안되었으며, 연구자의 [4][5]귀납적 추론을 필요로 하지 않는다.

Neyman & Pearson은 다른 문제를 고려했습니다(그들은 그것을 "hypothesis testing"이라고 불렀습니다).처음에는 두 가지 단순한 가설(두 가지 모두 빈도 분포)을 고려했습니다.두 가지 확률을 계산하고 일반적으로 더 높은 확률과 관련된 가설(표본을 생성했을 가능성이 더 높은 가설)을 선택했습니다.그들의 방법은 항상 가설을 선택했다.또한 두 가지 유형의 오류 확률도 계산할 수 있었다.

피셔와 네이만/피어는 심하게 충돌했다.Neyman/Pearson은 그들의 공식이 의미 검정의 개선된 일반화라고 생각했다. (정의[4] 논문은 추상적이었다.)수학자들은 수십 년 동안 그 이론을 일반화하고 다듬었다.)[6]피셔는 종종 실험 과정에서 예기치 않은 오류의 원천으로 인해 귀무 가설에 대한 초기 가정이 의심스럽다는 것이 발견되기 때문에 과학 연구에 적용할 수 없다고 생각했다.그는 데이터가 수집되기 전에 공식화된 모델에 기초한 엄격한 거부/수락 결정을 사용하는 것은 과학자가 직면한 일반적인 시나리오와 양립할 수 없으며, 이 방법을 과학 연구에 적용하려는 시도는 대규모 [7]혼란을 초래할 것이라고 믿었다.

피셔와 네이먼-피어슨 사이의 논쟁은 철학적인 근거에서 일어났으며, 통계적 [8]추론에서 모델의 적절한 역할에 대한 논쟁으로 철학자에 의해 특징지어진다.

개입된 이벤트:네이만은 피어슨과의 파트너십을 깨고 행성 지름의 상당부분으로 논쟁자들을 갈라놓으면서 서반구에서의 지위를 받아들였다.제2차 세계 대전은 그 토론에서 휴식을 제공했다.피셔와 네이먼 사이의 분쟁은 1962년 피셔가 사망하면서 종결되었다.네이먼은 존경받는 [9]추도사를 썼다.네이만의 후기 출판물 중 일부는 p-값과 유의 수준을 [10]보고했다.

가설검정의 현대판은 1940년대부터 [11]시작된 통계교과서(피셔가 예측한 바와 같이) 집필자들의 혼란에서 비롯된 두 가지 접근방식의 혼합이다. (그러나 신호검출은 여전히 네이만/피어슨 공식을 사용한다.위에서 언급한 것 외에 큰 개념적 차이와 많은 경고는 무시되었습니다.네이먼과 피어슨은 더 강한 용어, 더 엄격한 수학, 그리고 더 일관된 철학을 제공했지만, 오늘날 소개 통계학에서 가르치는 주제는 그들의 [12]방법보다 피셔의 방법과 더 유사하다.

1940년경 [11]통계 교과서 저자들은 네이만-피어슨 "중요도 수준"에 대한 시험을 위해 검정 통계량(또는 데이터) 대신 p-값을 사용하여 두 가지 접근방식을 결합하기 시작했다.

Fisherian, 빈도론자(Neyman-Pearson)의 비교
# 피셔 귀무 가설 검정 네이만-피어슨 결정론
1 통계 귀무 가설을 설정합니다.귀무는 0의 가설(즉, 0의 차이)일 필요는 없습니다. 두 가지 통계 가설인 H1과 H2를 설정하고 주관적인 비용 편익 고려사항에 기초하여 실험 전에 α, β 및 표본 크기를 결정한다.이 값은 각 가설에 대한 기각 영역을 정의합니다.
2 정확한 유의 수준(예: p = 0.051 또는 p = 0.049)을 보고합니다.기존의 5% 수준을 사용하지 말고 가설을 수용하거나 기각하는 것에 대해 언급하지 마십시오.결과가 "중요하지 않은" 경우에는 결론을 도출하거나 결정을 내리지 않고 추가 데이터를 이용할 수 있을 때까지 판단을 보류한다. 데이터가 H1의 기각 영역에 속하면 H2를 합격시키고 그렇지 않으면 H1을 합격시킵니다.가설을 받아들이는 것은 가설을 믿는 것이 아니라 가설을 사실인 것처럼 행동한다는 것을 의미합니다.
3 이 절차는 당면한 문제에 대해 거의 알려지지 않은 경우에만 사용하고 실험 상황을 이해하려는 시도의 맥락에서 잠정 결론을 도출하기 위해서만 사용하십시오. 이 절차의 유용성은 가설의 분리가 있고(예: μ1 = 8 또는 μ2 = 10) 알파 및 베타 선택을 위한 의미 있는 비용-편익 트레이드오프를 할 수 있는 상황으로 제한됩니다.

귀무 가설의 초기 선택

Paul Mehl은 귀무 가설 선택의 인식론적 중요성은 대부분 인정되지 않았다고 주장했다.귀무 가설이 이론에 의해 예측될 때, 보다 정확한 실험은 기초 이론에 대한 더 엄격한 테스트가 될 것이다.귀무 가설이 "차이 없음" 또는 "효과 없음"으로 기본 설정될 경우,[13] 보다 정확한 실험은 실험을 수행하려는 동기가 부여된 이론에 대한 덜 엄격한 검정입니다.따라서 후자 관행의 기원을 조사하는 것이 유용할 수 있다.

1778: Pierre Laplace는 유럽의 여러 도시에서 남자아이와 여자아이의 출산율을 비교한다.그는 "이러한 가능성이 거의 같은 비율이라고 결론짓는 것은 당연하다"고 말한다.그래서 "통념"[14]이 주어지면 남자아이와 여자아이의 출산율이 동등해야 한다는 라플레이스의 귀무 가설이 나왔다.

1900: Karl Pearson은 "주파수 곡선의 특정 형태가 특정 모집단에서 추출한 표본을 효과적으로 설명할 수 있는지"를 결정하기 위해 카이 제곱 검정을 개발한다.따라서 귀무 가설은 모집단이 이론에 의해 예측된 분포에 의해 설명된다는 것이다.그는 Weldon 주사위 던지기 데이터의 [15]5와 6의 숫자를 예로 사용합니다.

1904: Karl Pearson은 결과가 주어진 범주적 요인에 의존하는지 여부를 판단하기 위해 "맞선"의 개념을 개발한다.여기서 귀무 가설은 기본적으로 두 가지가 관련이 없다는 것이다(예: 흉터 형성과 [16]천연두 사망률).이 경우의 귀무 가설은 더 이상 이론이나 통념에 의해 예측되지 않고, 오히려 피셔와 다른 사람들이 "역확률"[17]의 사용을 무시하게 만든 무관심의 원칙이다.

철학

가설 테스트와 철학은 교차한다.가설 검정을 포함한 추리 통계량은 확률을 적용합니다.확률과 그 적용은 모두 철학과 얽혀 있다.철학자 데이비드 은 "모든 지식은 확률로 퇴화한다"고 썼다.확률에 대한 경쟁적인 실용적인 정의는 철학적인 차이를 반영한다.가설 테스트의 가장 일반적인 적용은 과학 철학에 의해 자연스럽게 연구되는 실험 데이터의 과학적 해석에 있다.

피셔와 네이만은 확률의 주관성에 반대했다.그들의 관점은 객관적인 정의에 기여하였다.그들의 역사적 불화의 핵심은 철학적인 것이었다.

가설 테스트에 대한 많은 철학적 비판은 다른 맥락에서 통계학자에 의해 논의되며, 특히 상관관계는 인과관계와 실험 설계의미하지 않는다.가설 테스트는 [8][18]철학자들에게 지속적인 관심사다.

교육

통계학은 점점 더 학교에서 가르치고 있으며 가설 테스트는 [19][20]가르치는 요소 중 하나이다.대중 언론에 보도된 많은 결론들(정치적 여론 조사와 의학 연구)은 통계에 근거한다.몇몇 작가들은 이런 종류의 통계 분석 문제 대량 데이터에 관한 생각은 진심으로, 뿐만 아니라 말했다 데이터에서 동향과 추론의 효과적인 보고지만, 에 있어서의 조심. 순서는 올바르게 용어와 개념들을 사용할 많은 대중들의 작가들은 필드의 확실한 이해를 해야 한다. 수 있다고 확언하고 있다.[21][22][표창 필요한]대학 통계 입문 강좌는 가설 테스트에 중점을 두고 있습니다.아마 코스의 절반 정도일 것입니다.문학과 신성과 같은 분야에는 이제 통계 분석에 기초한 발견이 포함됩니다(성경 분석기 참조).통계 입문 수업은 요리책 과정으로 가설 검정을 가르칩니다.가설 테스트는 대학원 수준에서도 가르친다.통계학자는 z, 학생 t, F 및 카이 제곱과 같은 좋은 통계 검정 절차를 만드는 방법을 배웁니다.통계 가설 테스트는 [23]통계 내에서 성숙한 영역으로 간주되지만, 제한된 양의 개발은 계속된다.

한 학술적 연구는 소개 통계를 가르치는 요리책 방식은 역사, 철학, 논쟁을 위한 시간이 없다고 말한다.가설 테스트는 받은 통합 방법으로 가르쳤다.조사에 따르면 졸업생들은 (통계적 추론의 모든 측면에 대해) 강사들 사이에서 지속되는 [24]철학적 오해로 가득 차 있었다.이 문제는 10여 [25]년 전에 해결됐고 교육개혁 요구는 [26]계속되고 있지만 학생들은 여전히 가설검사에 [27]대한 근본적인 오해를 안고 통계수업을 졸업한다.가설 테스트의 교육을 개선하기 위한 아이디어에는 학생들이 출판된 논문의 통계 오류를 찾도록 장려하고, 통계의 역사를 가르치고, 일반적으로 건조한 [28]주제에서 논쟁을 강조하는 것이 포함된다.

테스트 프로세스

통계자료에서 통계가설검사는 [29]기본적인 역할을 한다.사용할 [30]수 있는 수학적으로 동등한 두 가지 프로세스가 있습니다.

일반적인 추론 행은 다음과 같습니다.

  1. 진실을 알 수 없는 초기 연구 가설이 있다.
  2. 첫 번째 단계는 관련된 귀무 가설과 대립 가설을 진술하는 것입니다.가설을 잘못 기술하면 나머지 과정이 흐려지기 때문에 이것은 중요합니다.
  3. 두 번째 단계는 예를 들어, 통계적 독립성에 대한 가정이나 관측치의 분포 형태에 대한 가정과 같이 검정을 수행하는 표본에 대해 이루어지는 통계적 가정을 고려하는 것이다.잘못된 가정은 테스트 결과가 유효하지 않음을 의미하므로 이 또한 중요합니다.
  4. 적절한 테스트를 결정하고 관련 테스트 통계를 기술합니다. T.
  5. 가정으로부터 귀무 가설에 따른 검정 통계량의 분포를 도출합니다.표준적인 경우 이는 잘 알려진 결과입니다.예를 들어 검정 통계량은 자유도가 알려진 학생의 t 분포를 따르거나 평균과 분산이 알려진 정규 분포를 따를 수 있습니다.검정 통계량의 분포가 귀무 가설에 의해 완전히 고정된 경우 가설을 단순 가설이라고 하고 그렇지 않은 경우 합성 가설이라고 합니다.
  6. 귀무 가설이 기각될 확률 임계값인 유의 수준(α)을 선택합니다.공통값은 5%와 1%입니다.
  7. 귀무 가설에서 검정 통계량의 분포는 다음과 같은 값을 분할합니다.T귀무 가설이 거부된 영역(일명 임계 영역)과 그렇지 않은 영역으로 분류됩니다.임계 영역의 확률은 α이다.복합 귀무 가설의 경우 임계 영역의 최대 확률은 α이다.
  8. 관측치로부터 관측치 계산tobs 테스트 통계의T.
  9. 귀무 가설을 대안에 적합하게 기각하거나 기각하지 않도록 결정합니다.결정 규칙은 귀무 가설을 거부하는 것이다.H0 관측치가tobs 임계 영역에 있으며, 그렇지 않으면 귀무 가설을 기각하지 않습니다.

이 프로세스의 일반적인 대체 공식은 다음과 같습니다.

  1. 관측치로부터 관측치 계산tobs 테스트 통계의T.
  2. p-값을 계산합니다.이는 귀무 가설에서 관측된 것(가설이 합성된 경우 해당 사건의 최대 확률)만큼 검정 통계량을 표본으로 추출할 확률입니다.
  3. p-값이 유의 수준(선택한 확률) 임계값(α)보다 작거나 같은 경우에만 대립 가설에 유리한 귀무 가설을 기각합니다(예: 0.05 또는 0.01).

과거에는 공통 확률 임계값에서 검정 통계량 표만 사용할 수 있으면 이전 공정이 유리했습니다.그것은 확률을 계산하지 않고 결정을 내릴 수 있게 했다.수업 및 운영 용도로는 충분했지만, 보고 결과에 대해서는 부족했다.후자의 프로세스는 광범위한 표 또는 항상 이용 가능한 계산 지원에 의존했습니다.확률의 명시적 계산은 보고에 유용합니다.현재 계산은 적절한 소프트웨어를 사용하여 3회 실행됩니다.

Radioactive 여행 가방의 예(아래)에 적용된 두 프로세스의 차이:

  • 가이거 계수기는 10이다.제한은 9입니다.여행가방을 확인해봐.
  • 가이거 카운터의 수치가 높아 안전한 여행 가방의 97%가 수치가 낮습니다.제한은 95%입니다.여행가방을 확인해봐.

전자의 보고서가 적절하고, 후자는 데이터에 대한 자세한 설명과 여행 가방을 검사하는 이유를 설명합니다.

귀무 가설을 기각하지 않는다고 해서 귀무 가설을 "합격"하는 것은 아닙니다(해석 섹션 참조).

여기서 설명하는 프로세스는 계산에 완벽하게 적합합니다.이들은 실험 [31][32]고려 사항의 설계를 심각하게 무시합니다.

특히 실험을 수행하기 전에 적절한 표본 크기를 추정하는 것이 중요합니다.

"의미성 테스트"라는 문구는 통계학자 로널드 [33]피셔에 의해 만들어졌다.

해석

p-값은 귀무 가설에서 주어진 결과(또는 더 유의한 결과)가 발생할 확률입니다.유의 수준 0.05에서 공정 동전은 20개 검정 중 약 1개 검정에서 귀무 가설을 기각(잘못됨)할 것으로 예상된다.p-값은 귀무 가설 또는 귀무 가설의 반대가 정확할 확률을 제공하지 않습니다(일반적인 [34]혼동 요인).

p-값이 선택된 유의 임계값보다 작으면(따라서 관측된 검정 통계량이 임계 영역에 있는 경우), 귀무 가설이 선택된 유의 수준에서 기각된다고 합니다.p-값이 선택한 유의 임계값보다 작지 않으면(따라서 관측된 검정 통계량이 임계 영역을 벗어나는 경우) 귀무 가설이 기각되지 않습니다.

아래의 차 맛보기 예에서 피셔는 우연에 의한 결과일 가능성이 낮다는 결론을 정당화하기 위해 모든 차를 적절히 분류할 것을 요구했습니다.그의 검정에 따르면 여성이 효과적으로 무작위(귀무 가설)를 추측하는 경우 관측 결과(완벽하게 순서가 매겨진 차)가 발생할 확률은 1.4%였습니다.

큰 발톱 자국이 곰에서 유래했다는 가설을 부인한다고 해서 빅풋의 존재가 바로 증명되는 것은 아니다.가설 검정에서는 합격보다는 확률을 기반으로 하는 기각이 강조됩니다.

"귀무 가설을 기각할 확률은 검정이 단꼬리인지 양꼬리인지, 유의 수준, 표준 편차, 귀무 가설과의 편차 양,[35] 관측치 수 등 5가지 요인의 함수입니다."

용도와 중요성

통계는 대부분의 데이터 수집을 분석하는 데 유용합니다.이것은 과학 이론이 존재하지 않을 때에도 결론을 정당화할 수 있는 가설 테스트에서도 마찬가지입니다.차를 시음하는 숙녀의 예에서는 (차에 우유를 부은)와 (우유에 차를 부은) 사이에 차이가 없다는 것이 "분명히" 있었다.그 데이터는 "명백한" 것과 모순된다.

가설 테스트의 실제 적용 분야는 다음과 같습니다.[36]

  • 악몽에 시달리는 남자가 여자보다 더 많은지 테스트하는 것
  • 문서 작성자 확인
  • 보름달이 행동에 미치는 영향 평가
  • 박쥐가 에코로 곤충을 탐지할 수 있는 범위 결정
  • 병원 카펫으로 인한 감염 증가 여부 결정
  • 금연에 가장 적합한 방법 선택
  • 범퍼 스티커가 차량 소유자의 행동을 반영하는지 확인
  • 필적 분석가의 주장을 테스트하다

통계 가설 테스트는 통계 전반과 통계 추론에 중요한 역할을 한다.예를 들어, Neyman and Pearson(1933)의 기초 논문의 리뷰에서 Lehmann(1992)은 다음과 같이 말한다: "그래도, 그들의 단점에도 불구하고, 1933년 논문에서 공식화된 새로운 패러다임과 그 프레임워크 내에서 수행된 많은 개발은 계속해서 통계의 이론과 실천 모두에서 중심적인 역할을 할 것으로 예상할 수 있다.가까운 장래에 그렇게 한다.

유의성 테스트는 일부 실험 사회과학에서 선호되는 통계 도구였다(1990년대 [37]초 응용 심리학 저널 기사의 90% 이상).다른 필드는 매개변수(예: 효과 크기)의 추정을 선호했다.유의성 테스트는 과학적 방법의 핵심에서 예측값과 실험 결과의 전통적인 비교 대신 사용됩니다.이론이 관계의 부호만 예측할 수 있는 경우, 통계적으로 유의한 결과만 이론을 뒷받침하도록 방향(일방) 가설 검정을 구성할 수 있습니다.이러한 형태의 이론평가는 가설검사에서 가장 혹평을 받는 적용이다.

주의사항

"만약 정부가 약물과 같은 경고 라벨을 부착하도록 통계 절차를 요구한다면, 대부분의 추론 방법에는 정말로 [38]긴 라벨이 붙을 것입니다."이 주의 사항은 가설 검정 및 가설 검정 대체에 적용됩니다.

성공적인 가설 검정은 확률 및 유형 I 오류율과 관련이 있습니다. 결론은 틀릴 수 있다.

테스트의 결론은 테스트의 기초가 되는 샘플만큼만 확실합니다.그 실험의 설계는 매우 중요하다.다음과 같은 예기치 않은 영향이 많이 관찰되었습니다.

  • 영리한 한스 효과.말은 간단한 계산을 할 수 있는 것처럼 보였다.
  • 호손 효과.산업 노동자들은 더 나은 조명에서는 더 생산적이고, 더 나쁜 조명에서는 더 생산적이었다.
  • 플라시보 효과.의학적으로 활성 성분이 없는 알약이 놀랄 만큼 효과가 있었다.

잘못된 데이터를 통계적으로 분석하면 잘못된 결론이 나옵니다.데이터 품질의 문제는 더 미묘할 수 있습니다.예를 들어 예측에서 예측 정확도 측정에 대한 합의가 없습니다.컨센서스 측정이 없을 경우, 측정에 기초한 어떠한 결정도 논란이 없을 것이다.

출판 편향:통계적으로 유의미하지 않은 결과는 출판될 가능성이 적을 수 있으며, 이는 문헌을 편향시킬 수 있다.

다중 테스트:조정 없이 여러 개의 참 귀무 가설 검정을 한 번에 수행하면 I형 오류 확률이 명목 알파 수준보다 높습니다.

가설 검증 결과에 따라 중요한 결정을 내리는 사람들은 결론만 내리기보다는 세부 사항을 살펴보는 것이 현명하다.물리과학에서 대부분의 결과는 독립적으로 확인된 경우에만 완전히 인정된다.통계에 관한 일반적인 조언은 "인물은 거짓말을 하지 않고 거짓말쟁이다"(익명)이다.

용어의 정의

다음 정의는 주로 레만과 로마노가 [29]쓴 책의 설명에 기초하고 있다.

  • 통계 가설:모집단을 설명하는 모수에 대한 문장(표본이 아님).
  • 검정 통계량: 알 수 없는 모수 없이 표본에서 계산된 값으로, 종종 비교를 위해 표본을 요약합니다.
  • 단순한 가설:모집단 분포를 완전히 지정하는 가설입니다.
  • 합성 가설:모집단 분포를 완전히 지정하지 않은 가설입니다.
  • 귀무 가설(H0)
  • 양의 데이터: 조사자가 귀무 가설을 기각할 수 있는 데이터입니다.
  • 대립 가설(H1)
  • 거부 영역/위험 영역:귀무 가설이 기각되는 검정 통계량의 값 집합입니다.
  • 임계치
  • 시험의 검정력(1 - β)
  • 크기: 단순한 가설의 경우, 이것은 귀무 가설을 잘못 기각할 검정 확률입니다.거짓 양수 비율입니다.합성 가설의 경우, 이는 귀무 가설이 다루는 모든 경우에 대해 귀무 가설을 기각할 확률의 최상이다.위양성률의 보완을 생물통계학에서는 특이성이라고 한다.("이것은 특정 테스트입니다.결과가 긍정적이기 때문에 환자가 그 상태를 가지고 있다고 자신 있게 말할 수 있습니다.) 자세한 정의는 민감도와 특이성유형 I 및 유형 II 오류를 참조하십시오.
  • 검사의 유의 수준(α)
  • p값
  • 통계적 유의성 검정: 통계적 가설 검정의 전신입니다(원점 섹션 참조).표본이 (무) 가설과 충분히 일치하지 않는 경우 실험 결과는 통계적으로 유의하다고 합니다.이는 상식, 의미 있는 실험 결과를 식별하기 위한 실용적인 발견적 접근법, 통계 증거의 임계값을 설정하는 규칙 또는 데이터에서 결론을 도출하는 방법으로 다양하게 간주되었다.통계 가설 테스트는 대체 가설을 명확히 함으로써 수학적 엄격함과 철학적 일관성을 개념에 추가했다.이 용어는 현재 통계 가설 테스트의 일부인 현대 버전에 느슨하게 사용된다.
  • 보수 검정: 주어진 명목 유의 수준에 대해 구성할 때 귀무 가설을 잘못 기각할 확률이 명목 수준보다 결코 높지 않은 경우 검정은 보수적입니다.
  • 정확한 테스트

통계 가설 검정은 검정 통계량(예제의 경우 z 또는 t)을 분계점과 비교합니다.검정 통계량(아래 표에 있는 공식)은 최적성에 기초합니다.타입 I 에러 레이트의 고정 레벨의 경우, 이러한 통계 정보를 사용하면 타입 II 에러 레이트를 최소한으로 억제할 수 있습니다(전력의 최대화에 상당).다음 용어는 이러한 최적성의 관점에서 검정을 설명합니다.

  • 가장 강력한 테스트:주어진 크기 또는 유의 수준에 대해 검정할 모수의 주어진 값에 대한 검정력(거부 가능성)이 가장 큰 검정력으로 대립 가설에 포함된 검정입니다.
  • 균일하게 가장 강력한 테스트(UMP)

공통 테스트 통계

위 이미지는 가장 일반적인 검정 통계와 해당 검정 또는 모델을 포함한 차트를 보여 줍니다.

인간의 성비

통계 가설 검사의 가장 이른 사용은 일반적으로 남성과 여성의 출산이 동등할 가능성이 있는지에 대한 질문에서 기인한다(늘 가설). 이는 1700년대에 John Arbuthnot(1710년대)[39][40]에 의해, 그리고 나중에 Pierre-Simon Laplace(1770년대)에 의해 다루어졌다.

Arbuthnot은 1629년부터 1710년까지 82년 동안 런던에서 출생 기록을 조사하고 간단한 비모수 검사인 [41][42][43]사인 검사를 적용했다.매년 런던에서 태어난 남자들의 수가 여자들의 수를 넘어섰다.남성 출산이 더 많을 가능성을 동등하게 고려할 때, 관측 결과의 확률은82 0.5, 즉 4,8360,0000,0000,0000,0000,0000,0000,0000,0000이며, 현대 용어로 이것은 p-값이다.Arbuthnot은 이것이 우연 때문이라기엔 너무 작으며 대신 신의 섭리 때문이어야 한다고 결론지었다: "그로부터 그것은 우연이 아니라 예술이 지배한다."현대적 관점에서 그는 p = 1/282 유의 수준에서 남녀 출산 확률이 같다는 귀무 가설을 기각했다.

라플레이스는 거의 50만 명의 출생아 통계를 고려했다.그 통계는 [14][44]여자아이들에 비해 남자아이들이 더 많다는 것을 보여주었다.그는 p-값을 계산하여 초과가 실제적이지만 설명할 수 없는 [45]효과라고 결론지었다.

차를 시음하는 여자

차를 [46]맛보는 숙녀로 알려진 유명한 가설 실험의 예에서, 피셔의 동료인 뮤리엘 브리스톨 박사는 차가 컵에 먼저 첨가되었는지 아니면 우유가 먼저 첨가되었는지 구별할 수 있다고 주장했다.피셔는 그녀에게 각 품종 4개씩 8개의 컵을 무작위로 주자고 제안했다.그리고 나서 누군가는 그녀가 맞힌 번호를 맞힐 확률이 얼마인지 물을 수 있었지만, 단지 우연일 뿐이었다.귀무 가설은 그 숙녀가 그런 능력이 없다는 것이었다.검정 통계량은 4개의 컵을 선택하는 데 성공한 횟수에 대한 단순한 카운트입니다.임계 영역은 일반적인 확률 기준(< 5%)에 기초한 4개 중 4개의 성공 사례였다.4개의 성공 패턴은 70개의 가능한 조합 중 1개(p 1 1.4%)에 해당합니다.피셔는 어떤 대안 가설도 필요하지 않다고 단언했다.그 여성은 모든 [47]컵을 정확하게 식별했고, 이는 통계적으로 유의한 결과로 간주될 것이다.

법정 재판

통계적 검사 절차는 형사 재판과 유사하다. 피고인은 유죄가 입증되지 않는 한 무죄로 간주된다.검사는 피고의 유죄를 입증하려고 한다.기소의 증거가 충분해야 피고에게 유죄가 선고된다.

시작에는"은 무죄라는 과 "은 유죄"라는 가설 두 가지가 있다첫 번째 귀무 가설이라고 불립니다.두 번째 대안 가설이라고 불린다그것은 누군가가 지지하기를 바라는 대안 가설이다.

무죄의 가설은 잘못이 거의 없을 때에만 기각된다. 왜냐하면 무고한 피고인에게 유죄를 선고하고 싶지 않기 때문이다.이러한 오류를 제1종 오류(즉, 무고한 사람의 유죄판결)라고 하며, 이 오류의 발생은 드물도록 제어된다.이러한 비대칭적인 행동의 결과로, 두 번째 종류의 오류(범죄를 저지른 사람을 획득하는 것)가 더 흔하다.

H는0 참이다
정말 무죄입니다.
H는1 참이다
정말 죄스럽다
귀무 가설 기각 안 함
무죄 판결
올바른 결정 잘못된 결정
타입 II 오류
귀무 가설 기각
유죄판결
잘못된 결정
타입 I 오류
올바른 결정

형사 재판은 유죄 대 무죄 또는 증거 대 한계("합리적 의심을 넘어"라는 두 가지 결정 과정 중 하나 또는 둘 다로 간주할 수 있습니다.어떤 관점에서는 피고가 판단되고, 다른 관점에서는 (증거책임을 지는) 기소의 성과가 판단된다.가설 테스트는 가설의 판단 또는 증거의 판단으로 간주할 수 있다.

현자의 콩

다음 예는 가설 테스트가 공식화되고 [48]대중화되기 전 세대의 과학적 방법을 설명하는 철학자에 의해 만들어졌다.

이 한 움큼의 콩은 흰 콩이 거의 없다.
이 가방 안에 있는 대부분의 콩은 흰색입니다.
따라서: 아마도 이 콩들은 다른 봉지에서 가져온 것일 것이다.
이것은 가상의 추론이다.

그 가방 안에 있는 콩은 개체수이다.한 움큼은 샘플입니다.귀무 가설은 표본이 모집단에서 비롯되었다는 것입니다.null-hypothesis를 기각하는 기준은 외형의 "명확한" 차이(평균의 비공식 차이)이다.흥미로운 결과는 실제 모집단과 실제 표본에 대한 고려가 가상의 가방을 만들었다는 것이다.그 철학자는 확률보다는 논리를 고려했다.실제 통계 가설 검정이 되려면 확률 계산의 공식과 해당 확률을 표준과 비교해야 합니다.

이 예제의 간단한 일반화는 콩과 흰콩이 아주 적거나 매우 많이 들어 있는 소수의 콩 혼합 봉지를 고려합니다.일반화는 양극단을 모두 고려합니다.공식적인 답변에 이르기 위해서는 더 많은 계산과 비교가 필요하지만, 핵심 철학은 변하지 않는다; 만약 한 움큼의 구성이 가방의 구성과 크게 다르다면, 샘플은 아마도 다른 가방에서 나왔을 것이다.원래 예제는 단측검정 또는 단측검정이라고 하며 일반화는 양측검정 또는 양측검정이라고 합니다.

이 진술은 또한 표본 추출이 무작위였다는 추론에 의존한다.만약 누군가가 하얀 콩을 찾기 위해 그 주머니를 뒤졌다면, 그것은 왜 한 움큼의 흰 콩이 그렇게 많은지를 설명해 줄 것이고, 또한 왜 가방 안에 있는 흰 콩의 수가 고갈되었는지 설명할 것이다.

클리어보이언트 카드 게임

사람(피험자)은 투시력 검사를 받는다.무작위로 선택한 트럼프의 뒷면을 25회 보여 주고, 4장의 카드 중 어느 쪽에 속하는지 물어봅니다.조회수, 즉 정답을 X라고 합니다.

우리는 그들의 투시성의 증거를 찾으려고 노력하지만, 당분간 귀무 가설은 그 사람이 [49]투시적이지 않다는 것이다.다른 대안은: 그 사람은 (어느 정도) 투시적이다.

귀무 가설이 타당하다면, 검사자가 할 수 있는 것은 추측뿐입니다.모든 카드에 대해 단일 수트가 나타날 확률(상대 빈도)은 1/4입니다.대안이 유효하면 피험자는 1/4 이상의 확률로 적합치를 정확하게 예측합니다.우리는 정확한 추측의 확률을 p라고 부를게요.그 가설은 다음과 같습니다.

  • 귀무 가설 0: 4 \ \ text :}:p4}}(추측만 가능)

그리고.

  • 가설 : > 4 \ \ :}}:p4}}}(진정한 투시력

피험자가 25장의 카드를 모두 정확하게 예측하면, 우리는 그것들을 투시적이라고 간주하고 귀무 가설을 기각합니다.따라서 24개 또는 23개의 안타도 있습니다.반면 안타가 5, 6개밖에 되지 않아 그렇게 생각할 이유가 없다.하지만 12개, 17개는 어때?피험자가 투시적이라고 간주되는 임계 히트 수(c)는 얼마입니까?임계치 c는 어떻게 결정합니까?c=25(즉, 모든 카드가 올바르게 예측된 경우에만 투시성을 허용함)를 선택할 수 있기 때문에 c=10보다 더 중요합니다.첫 번째 경우에는 거의 어떤 피험자도 투시력을 인정받지 못할 것이고, 두 번째 경우에는 특정 수가 시험에 합격할 것이다.실제로 사람은 자신이 얼마나 비판적일지 결정한다.즉, 첫 번째 종류의 오류(허위 양성 또는 유형 I 오류)를 받아들이는 빈도를 결정합니다.c = 25일 때 이러한 오류가 발생할 확률은 다음과 같습니다.

그래서 아주 작습니다.거짓 양성의 확률은 25번 모두 랜덤하게 추측할 확률입니다.

c=10일 때 덜 중요하면 다음과 같은 이점이 있습니다.

따라서 c = 10은 거짓 양성의 확률이 훨씬 더 높습니다.

테스트를 실제로 수행하기 전에 타입 I 오류(α)의 최대 허용 확률이 결정됩니다.일반적으로 1% ~ 5% 범위의 값이 선택됩니다.(최대 허용 오류율이 0인 경우, 무한히 정확한 추측이 필요합니다.)이 타입 1 오류율에 따라 임계값 c가 계산됩니다.예를 들어 오류율을 1%로 선택하면 다음과 같이 c가 계산됩니다.

모든 숫자 c에서 이 성질을 가진 가장 작은 것을 선택하고, 타입 II 오류의 가능성을 최소화하기 위해 거짓 음수를 선택합니다.의 예에서는 c c을 선택합니다.

방사성 여행가방

예를 들어 여행 가방에 방사성 물질이 포함되어 있는지 여부를 확인합니다.가이거 카운터에 배치되어 분당 10개의 카운트를 생성합니다.귀무 가설은 여행 가방에 방사성 물질이 없으며 측정된 모든 계수는 주변 공기와 무해한 물체의 전형적인 주변 방사능 때문이라는 것이다.그런 다음 귀무 가설이 참일 경우 분당 10개의 카운트를 관측할 가능성을 계산할 수 있습니다.귀무 가설이 분당 평균 9카운트를 예측하면(예를 들어), 방사능 붕괴에 대한 전형적인 포아송 분포에 따르면 10카운트를 기록할 확률은 약 41%이다.따라서 여행가방이 귀무 가설과 양립할 수 있다고 말할 수 있다(이것은 방사성 물질이 없다는 것을 보증하는 것은 아니며, 단지 우리가 방사능 물질이 있다는 것을 암시할 충분한 증거가 없다는 것을 보증하지 않는다).반면 귀무 가설이 분당 3카운트를 예측하면(포아송 분포가 10카운트를 기록할 확률은 0.1%에 불과함), 여행 가방은 귀무 가설과 호환되지 않으며 측정을 생성하는 다른 요인이 있을 수 있습니다.

이 시험은 방사성 물질의 존재를 직접적으로 주장하지는 않는다.성공적인 테스트에서는 판독값을 고려할 때 방사성 물질이 존재하지 않는다고 주장할 가능성이 낮다(따라서 ...).방법의 이중 음수(귀무 가설의 증명)는 혼란스럽지만 반증하기 위해 반례를 사용하는 것은 표준 수학 연습입니다.그 방법의 매력은 실용성에 있다.우리는 (경험을 통해) 주변 방사능만 존재하는 예상 계수 범위를 알고 있기 때문에 측정치가 비정상적으로 크다고 말할 수 있다.통계는 형용사 대신 숫자를 사용함으로써 직관적인 것을 공식화할 뿐이다.우리는 아마도 방사능 가방의 특징을 알지 못할 것이다; 우리는 단지 그것들이 더 큰 판독치를 만들어 낸다고 가정할 뿐이다.

직관을 조금 공식화하면, 여행용 가방을 가지고 있는 가이거 카운트가 주위 방사선만으로 이루어진 가이거 카운트의 최대치(5% 또는 1%)에 속하거나 그 이상이면 방사능이 의심된다.이것은 카운트의 분포에 대한 가정을 하지 않는다.희귀 사건에 대한 좋은 확률 추정치를 얻으려면 많은 주변 방사선 관측치가 필요하다.

여기서 설명하는 테스트는 null-hypothesis 통계적 유의성 검정입니다.귀무 가설은 증거를 보기 전에 우리가 기본적으로 믿는 것을 나타냅니다.통계적 유의성은 귀무 가설이 참인 경우 관측된 표본이 우연히 발생했을 가능성이 거의 없을 때 선언되는 검정의 가능한 결과입니다.테스트의 이름은 테스트의 공식과 가능한 결과를 나타냅니다.이 검정의 특징 중 하나는 귀무 가설을 기각할지 여부에 대한 명확한 결정입니다.산출된 값을 문턱값과 비교하며, 문턱값은 오차 허용 위험에서 결정된다.

종류와 서브클래스

통계 가설 테스트는 두 가지 유형의 추론이 현저한 차이를 가지고 있지만 빈도주의 추론과 베이지안 추론의 핵심 기법이다.통계 가설 검정은 기본 위치(귀무 가설)가 부정확하다고 잘못 판단할 확률을 제어(고정)하는 절차를 정의합니다.이 절차는 귀무 가설이 참일 경우 관측치 집합이 발생할 확률을 기반으로 합니다.이러한 잘못된 결정을 내릴 확률은 귀무 가설이 참일 확률도 아니고 특정 대립 가설이 참인지 여부도 아닙니다.이는 귀무 가설과 대안 가설이 보다 동등한 기준으로 취급되는 다른 가능한 결정 이론 기법들과 대조된다.

가설 테스트에 대한 한 가지 순진한 베이지안 접근방식은 사후 [50][51]확률에 기초하는 것이지만, 포인트와 연속 가설을 비교할 때 실패한다.베이지안 의사결정 이론과 같은 다른 접근법은 단일 귀무 가설에 집중하기 보다는 모든 가능성에 걸쳐 잘못된 결정의 결과의 균형을 맞추려고 시도한다.데이터에 기초한 의사결정에 도달하기 위한 많은 다른 접근법이 의사결정 이론과 최적의 의사결정을 통해 이용 가능하며, 그 중 일부는 바람직한 속성을 가지고 있다.그러나 가설 테스트는 많은 과학 분야에서 데이터 분석에 대한 지배적인 접근법입니다.가설 검정 이론의 확장에는 검정의 에 대한 연구, 즉 거짓일 때 귀무 가설을 올바르게 기각할 확률이 포함됩니다.이러한 고려사항은 데이터 수집 전에 표본 크기를 결정할 목적으로 사용할 수 있다.

네이만-피어슨 가설 검정

Neyman-Pearson 가설 테스트(또는 귀무 가설 통계적 유의성 테스트)의 예는 방사능 여행가방 예제의 변경으로 이루어질 수 있다."수트케이스"가 실제로 방사성 물질 수송을 위한 차폐 컨테이너인 경우, 시험을 사용하여 세 가지 가설 중 하나를 선택할 수 있다. 즉, 방사능 선원이 존재하지 않음, 하나가 있음, 두 개가 있음.이 테스트는 안전을 위해 필요할 수 있으며 각 경우에 필요한 조치가 있을 수 있습니다.가설 테스트의 Neyman-Pearson 보조법에서는 가설을 선택하기 위한 좋은 기준은 확률의 비율(우도비)이라고 말한다.간단한 해결 방법은 관측된 가이거 카운트에 대한 확률이 가장 높은 가설을 선택하는 것입니다.전형적인 결과는 직관과 일치한다. 즉, 선원이 없음을 나타내는 카운트는 거의 없고, 선원이 두 개임을 나타내는 카운트가 많으며, 중간 계수가 하나의 선원이라는 카운트가 많다.또한 일반적으로 음성을 입증하는 데 문제가 있다는 것을 유의하십시오.귀무 가설은 적어도 반증 가능해야 한다.

네이만-피어슨 이론은 이전의 확률과 결정에 [52]따른 행동의 비용 모두를 수용할 수 있다.전자를 사용하면 (Fisher의 유의성 검정과 달리) 각 검정이 이전 검정의 결과를 고려할 수 있습니다.후자는 확률뿐만 아니라 경제적 이슈(예:)도 고려할 수 있다.우도비는 여전히 가설 중에서 선택하는 데 좋은 기준입니다.

두 가지 형태의 가설 검정은 서로 다른 문제 공식을 기반으로 합니다.원래 테스트는 참/거짓 문제와 유사합니다. Neyman-Pearson 테스트는 객관식에 가깝습니다.투키[53] 관점에서 전자는 강력한 증거만을 바탕으로 결론을 도출하는 반면 후자는 이용 가능한 증거에 기초하여 결정을 도출한다.두 테스트는 수학적으로나 철학적으로나 상당히 다른 것처럼 보이지만, 이후의 발전은 정반대의 주장을 낳는다.많은 작은 방사능 선원을 생각해보자.그 가설은 0,1,2,3... 방사성 모래 알갱이가 된다.모든 대안(Neyman-Pearson)에 비해 방사선(Fisher)이 없거나 일부 방사선(Fisher)과 방사성 모래의 0개 입자는 거의 차이가 거의 없다.1933년의 주요[4] 네이만-피어슨 논문은 또한 복합 가설(미지의 모수를 포함하는 분포)을 고려했다.한 예는 "(학생의) t-검정의 최적성을 입증했다, "검토 중인 가설에 대해 더 나은 검정은 없을 것" (p 321)네이만 피어슨 이론은 피셔 방법의 최적성을 처음부터 증명하고 있었다.

피셔의 유의성 테스트는 수학적 성장 잠재력이 거의 없는 응용 분야에서 인기 있는 유연한 통계 도구임이 입증되었습니다.네이만-피어슨 가설 테스트는 수학 [54]통계학의 기둥으로 주장되며, 이 분야의 새로운 패러다임을 만들어낸다.또한 통계 프로세스 제어, 탐지 이론, 결정 이론 및 게임 이론의 새로운 응용 분야를 자극했습니다.두 공식 모두 성공했지만, 성공은 다른 성격을 띠고 있습니다.

제정에 대한 논쟁은 아직 해결되지 않았다.과학은 주로 기초 통계학에서 가르친 대로 피셔의 (약간 수정된) 공식을 사용한다.통계학자들은 대학원에서 네이만-피어슨 이론을 연구한다.수학자들은 공식을 통합하는 것을 자랑스러워한다.철학자들은 그것들을 따로따로 생각한다.학습된 의견은 제형이 다양한 경쟁적(Fisher vs Neyman), 양립할[2] 수 없거나 상호 [6]보완적이라고 간주합니다.베이지안 추론이 존경을 얻은 이후 논쟁은 더욱 복잡해졌다.

용어에 일관성이 없다.가설 검정은 시간과 함께 변경된 두 공식의 혼합을 의미할 수 있습니다.유의성 테스트 대 가설 테스트에 대한 모든 논의는 이중으로 혼란에 취약하다.

피셔는 가설 테스트가 산업 품질 관리를 수행하는 데 유용한 전략이라고 생각했지만,[3] 가설 테스트가 과학자들에게 유용할 수 있다는 것에 강하게 동의하지 않았다.가설 검정은 유의성 [6]검정에 사용되는 검정 통계량을 찾는 방법을 제공합니다.검정력 개념은 유의 수준 조정의 결과를 설명하는 데 유용하며 표본 크기 결정에 많이 사용됩니다.그 두 가지 방법은 철학적으로 여전히 다르다.[8]그들은 보통 (항상 그렇지는 않지만) 같은 수학적 답을 내놓는다.바람직한 답변은 상황에 [6]따라 달라집니다.피셔 이론과 네이만-피어슨 이론의 기존 합병이 심하게 비판받았지만, 베이지안 목표를 달성하기 위해 합병을 수정하는 것이 [55]고려되었다.

비판

통계 가설 테스트에 대한 비판은 [56][57][58][59][60][61]수두룩하다.비판의 대부분은 다음과 같은 문제로 요약할 수 있습니다.

  • p-값의 해석은 정지 규칙과 다중 비교 정의에 따라 달라집니다.전자는 연구 과정에서 자주 바뀌고 후자는 불가피하게 모호하다.(즉, "p 값은 관측된 (데이터)와 관측되었지만 관측되지 않은 다른 가능한 (데이터) 모두에 따라 달라진다."[62]
  • 개념적으로 [53]다른 피셔와 네이만-피어슨의 방법을 결합함으로써 발생하는 혼란.
  • 반복 [63]실험을 통한 추정 및 확인 제외에 대한 통계적 유의성 강조.
  • 출판의 기준으로 통계적 유의성을 엄격하게 요구하여 출판 [64]편향을 초래한다.대부분의 비판은 간접적이다.통계적 가설 테스트는 틀리기보다는 오해를 받고, 과도하게 사용되고, 오용된다.
  • 그룹 간에 차이가 있는지 여부를 검출하기 위해 사용하면 역설적인 현상이 발생합니다.실험 설계가 개선될수록(예: 측정 정밀도 및 표본 크기 증가) 테스트는 더 관대해집니다.데이터의 모든 소음원이 완전히 상쇄된다는 터무니없는 가정을 받아들이지 않는 한, 어느 방향에서든 통계적 유의성을 찾을 확률은 100%에 [65]근접한다.그러나 두 그룹 간의 평균 차이가 0일 수 없다는 이 불합리한 가정은 데이터가 독립적일 수 없고 랜덤 변동의 두 부분군 사이의 예상 차이가 0이기 때문에 (즉, d) 동등하게 분포될 수 없다는 것을 의미한다. 따라서 i.i.d 가정도 불합리하다.
  • 철학적 관심사가 겹겹이 쌓여있네요통계적 유의성의 확률은 실험자/분석가가 [35]내린 결정의 함수이다.규약에 근거한 결정인 경우에는 자의적 또는 무심하다고[66] 하며, 그렇지 않은 결정은 주관적이라고 할 수 있다.유형 II 오류를 최소화하기 위해 큰 샘플을 사용하는 것이 좋습니다.심리학에서 사실상 모든 귀무 가설은 충분히 큰 표본에 대해 거짓이라고 주장되기 때문에 "귀무 [67]가설을 거부하는 유일한 목적으로 실험을 수행하는 것은 보통 무의미하다." [68]"통계적으로 유의한 발견은 종종 오해를 불러일으킨다."통계적 유의성은 실질적인 유의성을 의미하지 않으며 상관관계는 인과관계를 의미하지 않습니다.귀무 가설에 의문을 제기하는 것은 연구 가설을 직접적으로 뒷받침하는 것과는 거리가 멀다.
  • "저는 우리가 알고 싶은 것을 말하지 않습니다."[69]수십 건의 불만사항 목록을 이용할 [60][70][71]수 있다.

비평가와 지지자들은 귀무 가설 유의성 테스트(NHST)의 특징에 대해 대체로 사실에 동의하고 있다.중요한 정보를 제공할 수는 있지만, 통계 분석을 위한 유일한 도구로는 불충분하다.귀무 가설을 성공적으로 기각하면 연구 가설을 뒷받침하지 못할 수 있습니다.계속적인 논란은 기존 관행을 고려할 때 가까운 장래에 대한 모범 통계 관행을 선정하는 것에 관한 것이다.그러나 적절한 연구 설계를 통해 이 문제를 최소화할 수 있습니다.비판론자들은 NHST를 완전히 금지하는 것을 선호할 것이고,[72] 반면 지지자들은 덜 절대적인 [citation needed]변화를 제안할 것이다.

유의성 테스트, 특히 출판 편향에 대한 영향에 대한 논란은 몇 가지 결과를 낳았다.후 review,[73]의학 잡지 발행사들이 의무 통계적으로 출판 bias[74]을 퇴치하고 일지(저널개 항의 서약문 지원 Null의 가설의)를 만들어 왔다 의미가 없다 어떤 결과물을 발행하는 허가를 받고 있는 미국 심리 학회의 통계 보고 요구 사항을 강화하고 있다.d에 pu그런 결과를 [75]배타적으로 부정하다.교과서는 유의사항을 추가하고[76] 중요한 결과를 도출하는 데 필요한 표본의 크기를 추정하는 데 필요한 도구에 대한 적용범위를 늘렸습니다.주요 기관들은 중요도 평가의 사용을 포기한 적이 없지만, 일부 기관들은 그렇게 [73]하는 것에 대해 논의해왔다.

대체 수단

비판론자들의 통일된 입장은 통계가 승인-거부 결론이나 결정을 이끌어내는 것이 아니라, 간격 추정을 포함한 추정치로 이어져야 한다는 것이다. 이 데이터 분석 철학을 추정 통계라고 한다.추정 통계는 빈도수 [1] 또는 베이지안 [77][78]방법을 사용하여 달성할 수 있습니다.

유의성 테스트에 대한 한 강력한 비판자는 중요도에 대한 효과 크기, 신뢰도에 대한 예측 간격, 복제 가능성에 대한 복제 및 확장, 일반성에 대한 메타 분석 등 보고 [79]대안 목록을 제안했다.이러한 제안된 대안은 결론/결정을 도출하지 못한다.Lehmann은 가설 검정 이론은 결론/결정, 확률 또는 신뢰 구간 측면에서 제시될 수 있다고 말했다.「…의 어프로치의 차이는, 주로 보고와 [23]해석의 어느 쪽인가에 있습니다.」

한 가지 "대안"에는 이견이 없습니다.피셔는 "의미성 테스트와 관련하여, 통계적으로 유의한 결과를 거의 얻을 수 없는 실험을 수행하는 방법을 알고 있을 때, 우리는 현상이 실험적으로 입증될 수 있다고 말할 수 있다"고 말했다.[46]유의성 테스트의 영향력 있는 비평가인 Cohen은 이에 [69]동의했습니다. "... NHST[늘 가설 유의성 테스트]의 마법적인 대안을 찾지 마십시오."그것은 존재하지 않는다." "통계적 유도 문제를 고려할 때, 우리는 마침내 오래된 과학처럼 복제에 의존해야 한다."중요도 테스트의 "대안"은 반복 테스트입니다.통계적 불확실성을 줄이는 가장 쉬운 방법은 표본 크기를 늘리거나 반복 테스트를 통해 더 많은 데이터를 얻는 것이다.니커슨은 심리학에서 [70]문자 그대로 복제된 실험의 출판물을 본 적이 없다고 주장했다.복제에 대한 간접적인 접근 방식은 메타 분석입니다.

베이지안 추론은 유의성 테스트에 대해 제안된 대안 중 하나이다.(Nickerson은 Rozeboom(1960)[70]을 포함한 10개의 소식통을 인용했다.예를 들어, 베이지안 모수 추정은 충분한 데이터를 이용할 수 있을 때 결과에 최소한의 영향만 미치는 불확실한 우선 순위를 사용하면서 연구자가 추론을 도출할 수 있는 데이터에 대한 풍부한 정보를 제공할 수 있다.심리학자 John K. Kruschket-검정[77] 대안으로 베이지안 추정을 제안했고 또한 귀무값 평가를 위한 베이지안 추정과 가설 테스트를 [78]위한 베이지안 모델 비교를 비교했다.Bayes 계수를 사용하여 두 개의 경쟁 모델/[80]히포트를 비교할 수 있습니다.베이지안 방법은 유의성 테스트가 가장 많이 사용되는 경우에는 거의 이용할 수 없는 정보를 요구한다는 비판을 받을 수 있다.대립 가설에 따른 검정 통계량의 이전 확률이나 확률 분포는 사회과학에서 [70]종종 이용할 수 없다.

베이지안 접근법을 옹호하는 사람들은 종종 연구자의 목표는 그들이 [81][82]수집한 데이터에 기초하여 가설이 사실일 확률객관적으로 평가하는 것이라고 주장한다.피셔의 유의성 검정이나 네이먼-피어슨 가설 검정 모두 이 정보를 제공할 수 없으며, 그렇다고 주장하지도 않습니다.가설이 참일 확률은 이전 [4][83]확률의 형태로 주관성을 명시적으로 사용했기 때문에 피셔 진영과 네이먼-피어슨 진영 모두에게 불만족스러웠던 베이즈 정리를 사용함으로써 도출될 수 있다.피셔의 전략은 p-값(데이터만을 기반으로 한 객관적 지수)에 이어 귀납적 추론이 뒤따르는 반면, Neyman-Pearson은 귀납적 행동에 대한 그들의 접근방식을 고안했다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Bellhouse, P. (2001), "John Arbuthnot", in Statisticians of the Centuries by C.C. Heyde and E. Seneta, Springer, pp. 39–42, ISBN 978-0-387-95329-8
  2. ^ a b Raymond Hubbard, M. J. Bayarri, P2013년 9월 4일 웨이백 머신에 보관된 오류 확률이 아닙니다.피셔의 증거 p-값과 Neyman-Pearson Type I )의차이를 설명하는 작업 문서.
  3. ^ a b Fisher, R (1955). "Statistical Methods and Scientific Induction" (PDF). Journal of the Royal Statistical Society, Series B. 17 (1): 69–78.
  4. ^ a b c d Neyman, J; Pearson, E. S. (January 1, 1933). "On the Problem of the most Efficient Tests of Statistical Hypotheses". Philosophical Transactions of the Royal Society A. 231 (694–706): 289–337. Bibcode:1933RSPTA.231..289N. doi:10.1098/rsta.1933.0009.
  5. ^ Goodman, S N (June 15, 1999). "Toward evidence-based medical statistics. 1: The P Value Fallacy". Ann Intern Med. 130 (12): 995–1004. doi:10.7326/0003-4819-130-12-199906150-00008. PMID 10383371. S2CID 7534212.
  6. ^ a b c d Lehmann, E. L. (December 1993). "The Fisher, Neyman–Pearson Theories of Testing Hypotheses: One Theory or Two?". Journal of the American Statistical Association. 88 (424): 1242–1249. doi:10.1080/01621459.1993.10476404.
  7. ^ Fisher, R N (1958). "The Nature of Probability" (PDF). Centennial Review. 2: 261–274. We are quite in danger of sending highly trained and highly intelligent young men out into the world with tables of erroneous numbers under their arms, and with a dense fog in the place where their brains ought to be. In this century, of course, they will be working on guided missiles and advising the medical profession on the control of disease, and there is no limit to the extent to which they could impede every sort of national effort.
  8. ^ a b c Lenhard, Johannes (2006). "Models and Statistical Inference: The Controversy between Fisher and Neyman–Pearson". Br. J. Philos. Sci. 57: 69–91. doi:10.1093/bjps/axi152. S2CID 14136146.
  9. ^ Neyman, Jerzy (1967). "RA Fisher (1890—1962): An Appreciation". Science. 156 (3781): 1456–1460. Bibcode:1967Sci...156.1456N. doi:10.1126/science.156.3781.1456. PMID 17741062. S2CID 44708120.
  10. ^ Losavich, J. L.; Neyman, J.; Scott, E. L.; Wells, M. A. (1971). "Hypothetical explanations of the negative apparent effects of cloud seeding in the Whitetop Experiment". Proceedings of the National Academy of Sciences of the United States of America. 68 (11): 2643–2646. Bibcode:1971PNAS...68.2643L. doi:10.1073/pnas.68.11.2643. PMC 389491. PMID 16591951.
  11. ^ a b Halpin, P F; Stam, HJ (Winter 2006). "Inductive Inference or Inductive Behavior: Fisher and Neyman: Pearson Approaches to Statistical Testing in Psychological Research (1940–1960)". The American Journal of Psychology. 119 (4): 625–653. doi:10.2307/20445367. JSTOR 20445367. PMID 17286092.
  12. ^ Gigerenzer, Gerd; Zeno Swijtink; Theodore Porter; Lorraine Daston; John Beatty; Lorenz Kruger (1989). "Part 3: The Inference Experts". The Empire of Chance: How Probability Changed Science and Everyday Life. Cambridge University Press. pp. 70–122. ISBN 978-0-521-39838-1.
  13. ^ Meehl, P (1990). "Appraising and Amending Theories: The Strategy of Lakatosian Defense and Two Principles That Warrant It" (PDF). Psychological Inquiry. 1 (2): 108–141. doi:10.1207/s15327965pli0102_1.
  14. ^ a b Laplace, P. (1778). "Mémoire sur les probabilités" (PDF). Mémoires de l'Académie Royale des Sciences de Paris. 9: 227–332.
  15. ^ Pearson, K (1900). "On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling" (PDF). The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 5 (50): 157–175. doi:10.1080/14786440009463897.
  16. ^ Pearson, K (1904). "On the Theory of Contingency and Its Relation to Association and Normal Correlation". Drapers' Company Research Memoirs Biometric Series. 1: 1–35.
  17. ^ Zabell, S (1989). "R. A. Fisher on the History of Inverse Probability". Statistical Science. 4 (3): 247–256. doi:10.1214/ss/1177012488. JSTOR 2245634.
  18. ^ Mayo, D. G.; Spanos, A. (2006). "Severe Testing as a Basic Concept in a Neyman–Pearson Philosophy of Induction". The British Journal for the Philosophy of Science. 57 (2): 323–357. CiteSeerX 10.1.1.130.8131. doi:10.1093/bjps/axl003. S2CID 7176653.
  19. ^ 수학 > 고등학교: 통계 & 확률> 도입 아카이브 2012년 7월 28일 아카이브.오늘의 공통 코어 주 표준 이니셔티브(미국 학생 대상)
  20. ^ College Board Tests > AP : Subjects > Statistics The College Board (미국 학생 대상)
  21. ^ Huff, Darrell (1993). How to lie with statistics. New York: Norton. p. 8. ISBN 978-0-393-31072-6.'통계적 방법과 통계적 용어는 사회 및 경제 동향, 사업 상황, 의견 조사, 인구 조사 등의 대량 데이터를 보고하는 데 필요하다.하지만 그 단어들을 정직하게 사용하는 작가들과 그 의미를 아는 독자들이 없다면, 그 결과는 의미론적인 헛소리에 불과할 것이다.'
  22. ^ Snedecor, 조지 W.Cochran은 윌리엄 g(1967년).통계 콘텐츠(6판).아이오와 주:아이오와 주립 대학 출판부. 3p.."...통계에서 가장 기본적인 생각을 명료하게 문제에 대한 생각에서 우리를 데 도움을 주기 때문에, 만약 건전한 추론을 만들어야 한다, 우리에게 없는 좋은 논리적 근거 많은 추론을 감지할 수 있게 한 조건에 대한 몇가지 지침을 제공하다.".
  23. ^ a b E. L. Lehmann (1997). "Testing Statistical Hypotheses: The Story of a Book". Statistical Science. 12 (1): 48–52. doi:10.1214/ss/1029963261.
  24. ^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2007). "Students' Misconceptions of Statistical Inference: A Review of the Empirical Evidence from Research on Statistics Education" (PDF). Educational Research Review. 2 (2): 98–113. doi:10.1016/j.edurev.2007.04.001.
  25. ^ Moore, David S. (1997). "New Pedagogy and New Content: The Case of Statistics" (PDF). International Statistical Review. 65 (2): 123–165. doi:10.2307/1403333. JSTOR 1403333.
  26. ^ Hubbard, Raymond; Armstrong, J. Scott (2006). "Why We Don't Really Know What Statistical Significance Means: Implications for Educators". Journal of Marketing Education. 28 (2): 114–120. doi:10.1177/0273475306288399. hdl:2092/413. S2CID 34729227.
  27. ^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patrick (2009). "How Confident Are Students in Their Misconceptions about Hypothesis Tests?". Journal of Statistics Education. 17 (2). doi:10.1080/10691898.2009.11889514.
  28. ^ Gigerenzer, G. (2004). "The Null Ritual What You Always Wanted to Know About Significant Testing but Were Afraid to Ask" (PDF). The SAGE Handbook of Quantitative Methodology for the Social Sciences. pp. 391–408. doi:10.4135/9781412986311. ISBN 9780761923596.
  29. ^ a b Lehmann, E. L.; Romano, Joseph P. (2005). Testing Statistical Hypotheses (3E ed.). New York: Springer. ISBN 978-0-387-98864-1.
  30. ^ Triola, Mario (2001). Elementary statistics (8 ed.). Boston: Addison-Wesley. p. 388. ISBN 978-0-201-61477-0.
  31. ^ Hinkelmann, Klaus; Kempthorne, Oscar (2008). Design and Analysis of Experiments. Vol. I and II (Second ed.). Wiley. ISBN 978-0-470-38551-7.
  32. ^ Montgomery, Douglas (2009). Design and analysis of experiments. Hoboken, N.J.: Wiley. ISBN 978-0-470-12866-4.
  33. ^ R. A. 피셔(1925).에든버러 연구직 근로자를 위한 통계적 방법:올리버와 보이드, 1925년 43쪽
  34. ^ Nuzzo, Regina (2014). "Scientific method: Statistical errors". Nature. 506 (7487): 150–152. Bibcode:2014Natur.506..150N. doi:10.1038/506150a. PMID 24522584.
  35. ^ a b Bakan, David (1966). "The test of significance in psychological research". Psychological Bulletin. 66 (6): 423–437. doi:10.1037/h0020412. PMID 5974619.
  36. ^ Richard J. Larsen; Donna Fox Stroup (1976). Statistics in the Real World: a book of examples. Macmillan. ISBN 978-0023677205.
  37. ^ Hubbard, R.; Parsa, A. R.; Luthy, M. R. (1997). "The Spread of Statistical Significance Testing in Psychology: The Case of the Journal of Applied Psychology". Theory and Psychology. 7 (4): 545–554. doi:10.1177/0959354397074006. S2CID 145576828.
  38. ^ Moore, David (2003). Introduction to the Practice of Statistics. New York: W.H. Freeman and Co. p. 426. ISBN 9780716796572.
  39. ^ John Arbuthnot (1710). "An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes" (PDF). Philosophical Transactions of the Royal Society of London. 27 (325–336): 186–190. doi:10.1098/rstl.1710.0011. S2CID 186209819.
  40. ^ Brian, Éric; Jaisson, Marie (2007). "Physico-Theology and Mathematics (1710–1794)". The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. pp. 1–25. ISBN 978-1-4020-6036-6.
  41. ^ Conover, W.J. (1999), "Chapter 3.4: The Sign Test", Practical Nonparametric Statistics (Third ed.), Wiley, pp. 157–176, ISBN 978-0-471-16068-7
  42. ^ Sprent, P. (1989), Applied Nonparametric Statistical Methods (Second ed.), Chapman & Hall, ISBN 978-0-412-44980-2
  43. ^ Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. pp. 225–226. ISBN 978-0-67440341-3.
  44. ^ Laplace, P. (1778). "Mémoire sur les probabilités (XIX, XX)". Oeuvres complètes de Laplace. Mémoires de l'Académie Royale des Sciences de Paris. Vol. 9. pp. 429–438.
  45. ^ Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. p. 134. ISBN 978-0-674-40340-6.
  46. ^ a b Fisher, Sir Ronald A. (1956) [1935]. "Mathematics of a Lady Tasting Tea". In James Roy Newman (ed.). The World of Mathematics, volume 3 [Design of Experiments]. Courier Dover Publications. ISBN 978-0-486-41151-4. 원래 피셔의 '실험의 설계'라는 책에서 나왔죠
  47. ^ Box, Joan Fisher (1978). R.A. Fisher, The Life of a Scientist. New York: Wiley. p. 134. ISBN 978-0-471-09300-8.
  48. ^ C. S. Peirce (August 1878). "Illustrations of the Logic of Science VI: Deduction, Induction, and Hypothesis". Popular Science Monthly. 13. Retrieved March 30, 2012.
  49. ^ Jaynes, E. T. (2007). Probability theory : the logic of science (5. print. ed.). Cambridge [u.a.]: Cambridge Univ. Press. ISBN 978-0-521-59271-0.
  50. ^ Shervish, M(1996) 통계이론, 페이지 218.스프링거 ISBN 0-387-94546-6
  51. ^ Kaye, David H.; Freedman, David A. (2011). "Reference Guide on Statistics". Reference Manual on Scientific Evidence (3rd ed.). Eagan, MN Washington, D.C: West National Academies Press. p. 259. ISBN 978-0-309-21421-6.
  52. ^ Ash, Robert (1970). Basic probability theory. New York: Wiley. ISBN 978-0471034506.섹션 8.2
  53. ^ a b 터키, 존 W.(1960년)."결론 결정 vs".Technometrics.26(4):423–433. doi:10.1080/00401706.1960.10489909."혼란까지 시험 가설의 계좌들을 통해,[피셔]결론 요소에서[Neyman–Pearson]결정 요소들 것들을 분리한다, 이질적인 요소들의 사적인 혼합물이 될 것이다 것입니다."..."둘 다 한 곳은"doing다 best"그리고"saying하는 일들만 있certain,"지만 중요할 줄 아에서 각각일자.어느쪽이든, 어느쪽이든, 어느쪽이든, 어느쪽이든.
  54. ^ Stigler, Stephen M. (August 1996). "The History of Statistics in 1933". Statistical Science. 11 (3): 244–252. doi:10.1214/ss/1032280216. JSTOR 2246117.
  55. ^ Berger, James O. (2003). "Could Fisher, Jeffreys and Neyman Have Agreed on Testing?". Statistical Science. 18 (1): 1–32. doi:10.1214/ss/1056397485.
  56. ^ Morrison, Denton; Henkel, Ramon, eds. (2006) [1970]. The Significance Test Controversy. Aldine Transaction. ISBN 978-0-202-30879-1.
  57. ^ Oakes, Michael (1986). Statistical Inference: A Commentary for the Social and Behavioural Sciences. Chichester New York: Wiley. ISBN 978-0471104438.
  58. ^ Chow, Siu L. (1997). Statistical Significance: Rationale, Validity and Utility. ISBN 978-0-7619-5205-3.
  59. ^ Harlow, Lisa Lavoie; Stanley A. Mulaik; James H. Steiger, eds. (1997). What If There Were No Significance Tests?. Lawrence Erlbaum Associates. ISBN 978-0-8058-2634-0.
  60. ^ a b Kline, Rex (2004). Beyond Significance Testing: Reforming Data Analysis Methods in Behavioral Research. Washington, D.C.: American Psychological Association. ISBN 9781591471189.
  61. ^ McCloskey, Deirdre N.; Stephen T. Ziliak (2008). The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives. University of Michigan Press. ISBN 978-0-472-05007-9.
  62. ^ Cornfield, Jerome (1976). "Recent Methodological Contributions to Clinical Trials" (PDF). American Journal of Epidemiology. 104 (4): 408–421. doi:10.1093/oxfordjournals.aje.a112313. PMID 788503.
  63. ^ Yates, Frank (1951). "The Influence of Statistical Methods for Research Workers on the Development of the Science of Statistics". Journal of the American Statistical Association. 46 (253): 19–34. doi:10.1080/01621459.1951.10500764. "[R.A.] 전반에 걸쳐 중요한 공식 테스트에 중점을 두고 있습니다.Fisher's] 통계적 방법...과학 연구 종사자들이 그들의 데이터, 특히 실험으로부터 파생된 데이터, 그리고 그들이 조사하는 효과의 크기에 대한 추정치에 그들이 수행하는 중요성의 테스트의 결과에 지나치게 주의를 기울이게 했다. ... "의중성의 테스트에 대한 강조와 결과의 고려.각각의 실험은 과학 종사자들이 종종 실험에 대한 중요한 테스트의 실행을 궁극적인 목표로 간주하는 불행한 결과를 가져왔다."
  64. ^ Begg, Colin B.; Berlin, Jesse A. (1988). "Publication bias: a problem in interpreting medical data". Journal of the Royal Statistical Society, Series A. 151 (3): 419–463. doi:10.2307/2982993. JSTOR 2982993. S2CID 121054702.
  65. ^ Meehl, 폴 E.(1967년)."심리학과, 물리학:Theory-Testing.A을 위한 방법론적 Paradox"(PDF).과학의 법칙 34(2):103–115. doi:10.1086/288135.S2CID 96422880.지난해 12월 3일 2013년에 있는 원본(PDF)에서 Archived.30년 후, Meehl는 동안, 대신"그 문제 있나 인식론들이 아닌 통계:교체한다의 시험에서"이론과 사실의 논리 관계의 사회적 과학자들의 가난한 이해"를 비난하고 공 가설의 기본 선택에 대해 의문을 제기하는 것을 계속하고 통계적 중요성 이론 수학적으로 건전한 인정했다.신뢰 구간 및 위험 수치 예측의 정량화 정확도" (Harlow(1997년) 제14장).
  66. ^ Gigerenzer, G (November 2004). "Mindless statistics". The Journal of Socio-Economics. 33 (5): 587–606. doi:10.1016/j.socec.2004.09.033.
  67. ^ Nunnally, Jum (1960). "The place of statistics in psychology". Educational and Psychological Measurement. 20 (4): 641–650. doi:10.1177/001316446002000401. S2CID 144813784.
  68. ^ Lykken, David T. (1991). "What's wrong with psychology, anyway?". Thinking Clearly About Psychology. 1: 3–39.
  69. ^ a b Jacob Cohen (December 1994). "The Earth Is Round (p < .05)". American Psychologist. 49 (12): 997–1003. doi:10.1037/0003-066X.49.12.997. S2CID 380942. 이 문서는 APA에 의한 통계 관행의 재검토로 이어진다.코헨은 검토를 실시한 태스크 포스의 멤버였다.
  70. ^ a b c d Nickerson, Raymond S. (2000). "Null Hypothesis Significance Tests: A Review of an Old and Continuing Controversy". Psychological Methods. 5 (2): 241–301. doi:10.1037/1082-989X.5.2.241. PMID 10937333. S2CID 28340967.
  71. ^ Branch, Mark (2014). "Malignant side effects of null hypothesis significance testing". Theory & Psychology. 24 (2): 256–277. doi:10.1177/0959354314525282. S2CID 40712136.
  72. ^ Hunter, John E. (January 1997). "Needed: A Ban on the Significance Test". Psychological Science. 8 (1): 3–7. doi:10.1111/j.1467-9280.1997.tb00534.x. S2CID 145422959.
  73. ^ a b Wilkinson, Leland (1999). "Statistical Methods in Psychology Journals; Guidelines and Explanations". American Psychologist. 54 (8): 594–604. doi:10.1037/0003-066X.54.8.594. "저체온 검사"실제 p값, 나아가 신뢰구간을 보고하는 것보다 이분법적인 수용거부 결정이 더 나은 상황은 상상하기 어렵다.(p 599).위원회는 심리 보고에서 가설 테스트 금지에 대한 결정을 설명할 때 "포기"라는 경고 용어를 사용했다. (603페이지)
  74. ^ "ICMJE: Obligation to Publish Negative Studies". Archived from the original on July 16, 2012. Retrieved September 3, 2012. Editors should seriously consider for publication any carefully done study of an important question, relevant to their readers, whether the results for the primary or any additional outcome are statistically significant. Failure to submit or publish findings because of lack of statistical significance is an important cause of publication bias.
  75. ^ 귀무 가설 지지 기사 저널 웹사이트: JASNH 홈페이지.제1권 제1호는 2002년에 발행되었으며, 모든 기사는 심리학 관련 주제에 관한 것이다.
  76. ^ Howell, David (2002). Statistical Methods for Psychology (5 ed.). Duxbury. p. 94. ISBN 978-0-534-37770-0.
  77. ^ a b Kruschke, J K (July 9, 2012). "Bayesian Estimation Supersedes the T Test" (PDF). Journal of Experimental Psychology: General. 142 (2): 573–603. doi:10.1037/a0029146. PMID 22774788.
  78. ^ a b Kruschke, J K (May 8, 2018). "Rejecting or Accepting Parameter Values in Bayesian Estimation" (PDF). Advances in Methods and Practices in Psychological Science. 1 (2): 270–280. doi:10.1177/2515245918771304. S2CID 125788648.
  79. ^ Armstrong, J. Scott (2007). "Significance tests harm progress in forecasting". International Journal of Forecasting. 23 (2): 321–327. CiteSeerX 10.1.1.343.9516. doi:10.1016/j.ijforecast.2007.03.004. S2CID 1550979.
  80. ^ Kass, R. E. (1993). Bayes factors and model uncertainty (PDF) (Report). Department of Statistics, University of Washington.
  81. ^ Rozeboom, 윌리엄 W(1960년)."그 null-hypothesis 중요성 시험의 오류"(PDF).심리 보고서. 57(5):416–428.CiteSeerX 10.1.1.398.9002. doi:10.1037/h0042040.PMID 13744252."...통계의 과학적 추론에 적절한 적용이 돌이킬 수 없도록 역[그 아가씨는 베이스의]probabilities.의 광대한 심의에 전념하고 있다.." 선험적 확률 분포는 "적어도 가까운 미래에는 사람마다 다른 주관적 느낌으로서만" 이용할 수 있다는 것을 유감스럽게 인식하였다.
  82. ^ Berger, James (2006). "The Case for Objective Bayesian Analysis". Bayesian Analysis. 1 (3): 385–402. doi:10.1214/06-ba115. "객관적" 베이지안 분석의 경쟁 정의를 나열할 때, "통계학의 주요 목표는 데이터에서 학습하기 위한 완전히 일관된 베이지안 방법론을 찾는 것이다."저자는 이 목표를 달성할 수 없다는 견해를 밝혔다.
  83. ^ Aldrich, J (2008). "R. A. Fisher on Bayes and Bayes' theorem". Bayesian Analysis. 3 (1): 161–170. doi:10.1214/08-BA306.

추가 정보

외부 링크

온라인 계산기