이원 분산 분석

Two-way analysis of variance

통계에서 이원 분산 분석(ANOVA)은 두 개의 서로 다른 범주형 독립 변수가 하나의 연속 종속 변수에 미치는 영향을 조사하는 일원 분산 분석의 확장이다. 이원 분산 분석은 각 독립 변수의 주효과를 평가할 뿐만 아니라 이들 변수 사이에 교호작용이 있는지 여부도 평가하는 것을 목적으로 한다.

역사

1925년에 로널드 피셔는 유명한 저서인 연구 노동자를 위한 통계적 방법(7장과 8장)에서 이원 분산 분석을 언급한다. 1934년에 프랭크 예이츠는 불균형한 사건에 대한 절차를 발표했다.[1] 그 이후, 광범위한 문학 작품이 제작되었다. 이 주제는 1993년 후지코시 야스노리에 의해 검토되었다.[2] 2005년에 Andrew Gelman다단계 모델로 간주되는 분산 분석의 다른 접근 방식을 제안했다.[3]

데이터 세트

종속 변수가 잠재적 변동원인 두 요인에 의해 영향을 받을 수 있는 데이터 세트를 상상해 보자. 첫 번째 요인은 수준( ,, {\i\\{1,이고, 두 번째 은 J } 수준( 각 조합, ) 은 총 처리에 대한 처리를 정의한다. 를 위한반복실험 횟수 , j ) {\displaystyle ()}을n n_{만큼 나타내며 을 이 치료에서 반복실험의 지수로 삼는다({ ,, , , , ,, , , , ,

데이터로부터 n + = = 1 j 1} + j= i1}^{{{i1}}}}}}}}}}}}}}}}}}}}}}}}}}}{{{{{{{{}}}}}}}}}}}}}}과(와) 반복실험의 총 = , n = + = j+ n{ijsum}n_

실험 설계는 각 처리의 반복실험 가 K 일 경우 균형이 잡힌다 이 경우 설계도 직교라고 하여 두 요인의 효과를 완전히 구별할 수 있다. We hence can write , and .

모델

예를 들어 히스토그램을 통해 n 데이터 지점 간의 변동을 관찰할 때 "확률을 사용하여 그러한 변동을 설명할 수 있다".[4] 따라서 값을 관측한 변수에 대한 {\y_{-th 번째 측정값,이며 양방향 ANOVA는 이 모든 변수를 일반적으로 평균 주위에 독립적으로 변화한다고 모델링함, i 일정한 분산, 2 \동성):

특히, 반응 변수의 평균은 다음과 같은 설명 변수의 선형 조합으로 모델링된다.

= i = + j+ j _

여기서 은(는) 총 평균이고 i (는) 첫 번째 요인(연계표의 i번째 행)에서 레벨 i의 첨가 주효과이며, 은 두 번째 면의 주효과는 같다.tor(임계값표의 j-th 열) 및 는 두 요인(임계값표의 cell, i행의 column j)의 k= . ,i , 에 대한 비임계상호작용 효과다

이원 분산 분석을 설명하는 또 다른 동등한 방법은 인자에 의해 설명되는 변동 외에도 일부 통계적 잡음이 남아 있다는 점을 언급하는 것이다. 설명되지 않은 변동량은 i j 라고하는 데이터 포인트당 하나의 랜덤 변수를 도입하여 처리한다. 이러한 개의 랜덤 변수는 평균으로부터의 편차로 보이며, 독립적이고 정규 분포를 따르는 것으로 가정한다.

.

가정

Gelman과 Hill에 이어 분산 분석의 가정, 그리고 보다 일반적으로 일반 선형 모형은 중요도가 감소한다.[5]

  1. 데이터 포인트는 조사 중인 과학 문제와 관련된다.
  2. 반응 변수의 평균은 인자에 의해 추가적으로(상호작용 항이 아닌 경우) 선형적으로 영향을 받는다.
  3. 오류는 독립적이다.
  4. 오차는 같은 분산을 가진다.
  5. 오류는 일반적으로 분산된다.

모수 추정

매개변수의 식별성을 보장하기 위해 다음과 같은 "sum-to-zero" 제약조건을 추가할 수 있다.

가설 검정

고전적 접근법에서 귀무 가설(요인에 영향이 없다는)을 검정하는 것은 제곱합을 계산해야 하는 유의성을 통해 달성된다.

교호작용 항이 유의한지 시험하는 것은 잠재적으로 많은 자유도 때문에 어려울 수 있다.[6]

참고 항목

메모들

  1. ^ Yates, Frank (March 1934). "The analysis of multiple classifications with unequal numbers in the different classes". Journal of the American Statistical Association. 29 (185): 51–66. doi:10.1080/01621459.1934.10502686. JSTOR 2278459.
  2. ^ Fujikoshi, Yasunori (1993). "Two-way ANOVA models with unbalanced data". Discrete Mathematics. 116 (1): 315–334. doi:10.1016/0012-365X(93)90410-U.
  3. ^ Gelman, Andrew (February 2005). "Analysis of variance? why it is more important than ever". The Annals of Statistics. 33 (1): 1–53. arXiv:math/0504499. doi:10.1214/009053604000001048.
  4. ^ Kass, Robert E (1 February 2011). "Statistical inference: The big picture". Statistical Science. 26 (1): 1–9. arXiv:1106.2895. doi:10.1214/10-sts337. PMC 3153074. PMID 21841892.
  5. ^ Gelman, Andrew; Hill, Jennifer (18 December 2006). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press. pp. 45–46. ISBN 978-0521867061.
  6. ^ Yi-An Ko; et al. (September 2013). "Novel Likelihood Ratio Tests for Screening Gene-Gene and Gene-Environment Interactions with Unbalanced Repeated-Measures Data". Genetic Epidemiology. 37 (6): 581–591. doi:10.1002/gepi.21744. PMC 4009698. PMID 23798480.

참조