F 테스트

F-test

F-검정검정 통계량이 귀무 가설에서 F-분포를 갖는 통계 검정입니다.데이터가 추출된 모집단에 가장 적합한 모형을 식별하기 위해 데이터 집합에 적합된 통계 모형을 비교할 때 가장 자주 사용됩니다.정확한 "F-검정"은 주로 모형이 최소 제곱을 사용하여 데이터에 적합되었을 때 발생합니다.그 이름은 조지 W. 스네데코르로널드 피셔를 기리기 위해 만들었다.Fisher는 처음에 [1]1920년대에 분산비로 통계량을 개발했습니다.

일반적인 예

F-검정을 사용하는 일반적인 예로는 다음과 같은 경우를 들 수 있습니다.

  • 주어진 정규 분포 모집단 집합의 평균이 모두 동일한 표준 편차를 갖는다는 가설입니다.이것은 아마도 가장 잘 알려진 F-검정이며 분산 분석(ANOVA)에서 중요한 역할을 합니다.
  • 제안된 회귀 모형이 데이터를 잘 적합시킨다는 가설입니다.자세한 내용은 적합성 결여 제곱합을 참조하십시오.
  • 회귀 분석에서 데이터 집합이 서로 내포된 두 가지 제안된 선형 모형 중 더 단순한 모형을 따른다는 가설입니다.

또한 선형 모델에서 다중 비교 조정을 위한 셰페의 방법과 같은 일부 통계 절차도 F-검정을 사용한다.

두 분산의 동일성에 대한 F-검정

F-검정은 비정규성[2][3]민감합니다.분산 분석(ANOVA)에서 대안 검정에는 Levene 검정, Bartlett 검정 Brown-Forsyte 검정이 포함됩니다.단, 이러한 테스트 중 하나가 평균 효과 테스트의 예비 단계로 균질성(즉, 분산의 균질성)의 기본 가정을 테스트하기 위해 수행되는 경우 실험별 유형 I [4]오류율이 증가한다.

공식과 계산

대부분의 F-검정은 데이터 집합의 변동성 분해를 제곱합으로 간주하여 발생합니다.F-검정의 검정 통계량은 변동의 다른 원천을 반영하는 두 개의 척도 제곱합에 대한 비율입니다.이러한 제곱합은 귀무 가설이 참이 아닐 때 통계량이 더 큰 경향이 있도록 구성됩니다.귀무 가설에서 통계량이 F-분포를 따르려면 제곱합은 통계적으로 독립적이어야 하며, 각 제곱합은 척도화된 δ²-분포를 따라야 합니다.데이터 값이 독립적이고 공통 분산을 갖는 정규 분포인 경우 후자의 조건이 보장됩니다.

다중 비교 분산 분석 문제

일원 분산 분석(ANOVA)의 F-검정은 여러 미리 정의된 그룹 내에서 양적 변수의 기대값이 서로 다른지 여부를 평가하는 데 사용됩니다.예를 들어, 의료 시험에서 네 가지 치료법을 비교한다고 가정합니다.분산 분석 F-검정을 사용하여 네 가지 처리 모두에서 동일한 평균 반응이 나온다는 귀무 가설과 비교하여 다른 처리보다 평균이 높거나 낮은지 여부를 평가할 수 있습니다.이것은 "omnibus" 테스트의 예입니다. 즉, 여러 가지 가능한 차이 중 하나를 감지하기 위해 단일 테스트를 수행합니다.또는 치료제 간에 쌍별 테스트를 수행할 수 있습니다(예를 들어 4가지 치료제를 사용한 의료 시험 예에서는 치료제 쌍 간에 6가지 테스트를 수행할 수 있습니다).분산 분석 F-검정의 장점은 비교할 처리를 미리 지정할 필요가 없으며 다중 비교를 위해 조정할 필요가 없다는 것입니다.ANOVA F-검정의 단점은 귀무 가설을 기각하면 어떤 처리가 다른 처리와 유의하게 다르다고 말할 수 없으며, F-검정이 수준 α에서 수행되면 평균 차이가 가장 큰 처리 쌍이 수준 α에서 유의하게 다르다고 말할 수 없다는 것이다.

일원 분산 분석 F-검정 통계량의 공식은 다음과 같습니다.

또는

"설명된 분산" 또는 "그룹 간 변동성"은 다음과 같습니다.

서 Y { style { { \ } denotes 、 n { style n { } 、 Y { \ { Y \ style K where where where where where where

"설명되지 않은 분산" 또는 "그룹 내 변동성"은 다음과 같습니다.

j K K 그룹(\ K) 그룹의 jth 이고 N N 전체 샘플 크기입니다.이 F-통계량은 귀무 가설에서 도 d K- ({{1}= - K{2}= F-분포를 따릅니다.그룹 간 변동성이 그룹 내 변동성에 비해 크면 통계량이 크며, 그룹의 모집단 평균 값이 모두 같은 경우에는 통계량이 크지 않습니다.

단방향 분산 분석 F-검정에 F { F}}만 있는 경우, 여기서 t는 tdisplaystyle t} 통계량입니다.

회귀 문제

모형 1이 모형 2 내에서 '내포'되는 두 가지 모형 1과 2를 고려합니다.모형 1은 제한된 모형이고 모형 2는 제한되지 않은 모형입니다.즉, 모델 1에는 p개의 파라미터1 있고 모델 2에는 p2 파라미터가 있으며2, 여기1 모델 1의 임의의 파라미터 선택에 대해 모델 2의 파라미터 선택에 의해 동일한 회귀곡선을 얻을 수 있다.

이와 관련하여 한 가지 일반적인 맥락은 모형이 단순 모형보다 데이터에 훨씬 더 잘 적합하는지 여부를 결정하는 것입니다. 즉, 설명 항은 절편 항뿐이므로 종속 변수에 대한 모든 예측 값이 해당 변수의 표본 평균과 동일하게 설정됩니다.모든 잠재적 설명 변수의 계수가 0으로 제한되므로 순진한 모형은 제한된 모형입니다.

또 다른 공통 컨텍스트는 데이터에 구조적 파단이 있는지 여부를 결정하는 것입니다. 여기서 제한 모형이 한 회귀 분석에서 모든 데이터를 사용하는 반면 제한되지 않은 모형이 두 개의 서로 다른 하위 집합에 대해 별도의 회귀 분석을 사용합니다.이 F-test의 사용은 Chow test라고 불립니다.

모수가 더 많은 모형은 모수가 더 적은 모형과 마찬가지로 데이터를 항상 적합시킬 수 있습니다.따라서 일반적으로 모형 2는 모형 1보다 데이터에 더 잘 적합됩니다(즉, 더 낮은 오차).그러나 종종 모형 2가 데이터에 유의하게 더 잘 적합되는지 여부를 확인하려고 합니다.이 문제에 대한 접근법 중 하나는 F-test를 사용하는 것입니다.

두 모형의 모수를 추정할 데이터 점이 n개 있으면 다음과 같이 F 통계량을 계산할 수 있습니다.

여기서i RSS는 모델 i의 나머지 제곱합입니다.회귀 모형이 가중치로 계산되었으면 RSS를 잔차 제곱의 가중 합인 the로2 대체합니다i.모형 2가 모형 1보다 유의하게 더 나은 적합을 제공하지 않는다는 귀무 가설에서 F자유도가 (p-p21, n-p2)인 F 분포를 가집니다.데이터에서 계산된 F가 원하는 일부 거짓 거부 확률에 대한 F-분포의 임계값보다 크면 귀무 가설이 기각됩니다(예: 0.05).F는 우도비 통계량의 단조 함수이므로 F-검정은 우도비 검정입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Lomax, Richard G. (2007). Statistical Concepts: A Second Course. p. 10. ISBN 0-8058-5850-4.
  2. ^ Box, G. E. P. (1953). "Non-Normality and Tests on Variances". Biometrika. 40 (3/4): 318–335. doi:10.1093/biomet/40.3-4.318. JSTOR 2333350.
  3. ^ Markowski, Carol A; Markowski, Edward P. (1990). "Conditions for the Effectiveness of a Preliminary Test of Variance". The American Statistician. 44 (4): 322–326. doi:10.2307/2684360. JSTOR 2684360.
  4. ^ Sawilowsky, S. (2002). "Fermat, Schubert, Einstein, and Behrens–Fisher: The Probable Difference Between Two Means When σ12 ≠ σ22". Journal of Modern Applied Statistical Methods. 1 (2): 461–472. Archived from the original on 2015-04-03. Retrieved 2015-03-30.

추가 정보

외부 링크