정규성 검정
Normality test통계에서 정규성 검정은 데이터 세트가 정규 분포에 의해 잘 모델링되는지 여부를 결정하고 데이터 세트의 기반이 되는 랜덤 변수가 정규 분포를 따를 가능성이 얼마나 되는지 계산하는 데 사용된다.
더 정확히 말하면, 시험은 모형 선택의 한 형태로서 확률에 대한 해석에 따라 여러 가지 방법으로 해석될 수 있다.
- 기술 통계학 용어에서는 데이터에 대한 정규 모형의 적합도를 측정한다. 적합도가 낮으면 기초 변수를 판단하지 않고 정규 분포에 의해 데이터가 잘 모형화되지 않는다.
- 빈도수 통계통계학적 가설 검정에서 데이터는 정규 분포를 따른다는 귀무 가설에 대해 검정된다.
- 베이지안 통계에서, 한 사람은 se 당 "검정 정규성"을 "검정"하지 않고 오히려 주어진 모수 μ, μ, μ, μs (모든 μ, μs)로 정규 분포에서 추출된 데이터를 계산하고, 그것을 고려 중인 다른 분포에서 추출된 확률과 비교하며, 가장 단순하게 베이지 인자(상대적 유사성을 부여)를 사용한다.d) 또는 가능한 모델과 매개변수에 대한 사전 분포를 보다 정교하게 취하며 계산된 우도를 고려한 후방 분포를 계산한다.
정규성 검정은 표본 데이터가 정규 분포 모집단(일부 공차 이내)에서 추출되었는지 여부를 결정하는 데 사용된다.학생의 t-검정, 일원 분산 분석 및 이원 분산 분석과 같은 다수의 통계적 시험에는 정규 분포 표본 모집단이 필요하다.
그래픽 메서드
정규성 검사에 대한 비공식적인 접근법은 표본 데이터의 히스토그램을 정규 확률 곡선과 비교하는 것이다.데이터의 경험적 분포(히스토그램)는 종 모양이어야 하며 정규 분포와 유사해야 한다.이것은 표본이 작은지 보기 어려울 수 있다.이 경우 표본과 같은 평균과 분산을 갖는 정규 분포의 분량에 대한 데이터를 회귀 분석하여 진행할 수 있다.회귀선에 적합성이 부족하면 정규성에서 벗어나는 것을 의미한다(앤더슨 달링 계수 및 Minitab 참조).
정규성을 평가하기 위한 그래픽 도구는 정규 분포에 대한 표준화된 데이터의 정규 확률도(QQQ 그림)이다.여기서 표본 데이터와 정규 분량 사이의 상관관계(적합도의 측정값)는 데이터가 정규 분포를 통해 얼마나 잘 모델링되는지 측정한다.정규 데이터의 경우 QQ 그림에 표시된 점들은 높은 양의 상관 관계를 나타내는 대략적인 직선 상에 있어야 한다.이러한 그래프는 해석하기 쉽고 특이치를 쉽게 식별할 수 있다는 이점도 있다.
백오브러커 테스트
단순 백-투브 테스트는 최대 및 최소 샘플을 취하여 z-점수 또는 보다 적절한 t-통계학적(샘플이 표본 평균보다 높거나 낮은 표본 표준 편차의 수)을 계산하고 이를 68-95-99.7 규칙(3s 사건)과 비교한다.사건 및 15,000개 미만의 표본, 정규 분포는 표본 데이터의 편차의 최대 크기를 과소평가한다.
이 테스트는 큰 편차가 중요한 경우 첨도 위험에 직면하고 계산과 의사소통이 매우 쉬운 이점이 있는 경우에 유용하다. 비통계학자는 "정상 분포에서 6개 사건이 매우 드물다"고 쉽게 파악할 수 있다.
상용자 테스트
일변량 정규성 검정에는 다음이 포함된다.
- 다고스티노의 K-제곱 검정
- 자크-베라 테스트,
- 앤더슨-달링 테스트,
- Cramér-von Mises 기준,
- Kolmogorov-Smirnov 검정(이 검정은 귀무 가설에서 평균과 정규 분산을 가정하는 경우에만 작동함),
- 릴리퍼 검정(Kolmogorov-Smirnov 검정, 데이터로부터의 평균과 분산을 추정할 때 조정)
- 샤피로-Wilk test, 그리고
- 피어슨의 카이-제곱 테스트.
2011년 한 연구에 따르면 샤피로는윌크는 주어진 중요성에 대해 최고의 힘을 가지고 있으며, 샤피로-윌크, 콜모고로프-스미르노프, 릴리퍼스, 앤더슨-달링 테스트를 비교할 때 앤더슨-달링이 그 뒤를 바짝 따르고 있다.[1]
출판된 일부 작품에서는 자크-베라 테스트를 추천하지만,[2][3] 테스트에는 약점이 있다.특히 이 테스트는 꼬리가 짧은 분포에 대한 검정력이 낮으며, 특히 양면 분포에 대한 검정력이 낮다.[4]일부 저자들은 전반적인 성적이 좋지 않다는 이유로 그 결과를 그들의 연구에 포함시키기를 거절했다.[5]
역사적으로 세 번째와 네 번째 표준화된 순간(스프닝과 첨도)은 정상성에 대한 초기 시험의 일부였다.Lin-Mudholkar 시험은 특히 비대칭 대체를 대상으로 한다.[6]Jarque-Bera 테스트는 그 자체로 왜도 및 첨도 추정치에서 도출된다.Mardia의 다변량 왜도 및 첨도 테스트는 다변량 케이스에 대한 모멘트 테스트를 일반화한다.[7]다른 초기 시험 통계량은 표준 편차에 대한 평균 절대 편차와 표준 편차에 대한 범위의 비율을 포함한다.[8]
보다 최근의 정규성 시험에는 에너지 시험[9](Székeley 및 Rizzo)과 경험적 특성 함수(ECF)에 기반한 시험(예: Epps and Pulley,[10] Henze–Zirkler,[11] BHEP 시험)이[12] 포함된다.에너지 및 ECF 테스트는 일변량 또는 다변량 정규성 테스트에 적용되는 강력한 테스트로 일반 대안에 대해 통계적으로 일관된다.
정규 분포는 주어진 표준 편차에 대한 분포 중 가장 높은 엔트로피를 가진다.이 성질을 바탕으로 한 여러 정규성 검사가 있는데, 첫 번째 원인은 바시체크다.[13]
베이지안 시험
Kullback-Leibler의 전체 후분포와 분산 사이의 분산이 비정규성을 나타내지 않는다.그러나 이들 포스터의 기대율과 기대율은 샤피로-와 비슷한 결과를 낳는다.매우 작은 표본을 제외하고 비정보적 이전 표본을 사용하는 경우 Wilk 통계량.[14]
슈피겔할터는 베이즈 인자를 사용하여 정규성을 다른 종류의 분포 대안과 비교할 것을 제안한다.[15]이 접근법은 파렐과 로저스-스튜어트에 의해 확장되었다.[16]
적용들
정규성 검정의 한 가지 적용은 선형 회귀 모형의 잔차에 적용된다.[17]정규 분포를 따르지 않는 경우 잔차는 Z 검정 또는 t 검정, F 검정 및 카이 제곱 검정과 같은 정규 분포에서 파생된 다른 검정에서 사용해서는 안 된다.잔차가 정규 분포를 따르지 않으면 종속 변수 또는 하나 이상의 설명 변수가 잘못된 함수 형태를 가질 수도 있고 중요한 변수가 누락될 수도 있다.이러한 체계적 오류 중 하나 이상을 수정하면 정규 분포를 따르는 잔차가 발생할 수 있다. 즉, 잔차의 비정규성은 데이터 문제라기 보다는 모형 결점이 되는 경우가 많다.[citation needed]
참고 항목
메모들
- ^ Razali, Nornadiah; Wah, Yap Bee (2011). "Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests" (PDF). Journal of Statistical Modeling and Analytics. 2 (1): 21–33. Archived from the original (PDF) on 2015-06-30.
- ^ Judge, George G.; Griffiths, W. E.; Hill, R. Carter; Lütkepohl, Helmut; Lee, T. (1988). Introduction to the Theory and Practice of Econometrics (Second ed.). Wiley. pp. 890–892. ISBN 978-0-471-08277-4.
- ^ Gujarati, Damodar N. (2002). Basic Econometrics (Fourth ed.). McGraw Hill. pp. 147–148. ISBN 978-0-07-123017-9.
- ^ Thadewald, Thorsten; Büning, Herbert (1 January 2007). "Jarque–Bera Test and its Competitors for Testing Normality – A Power Comparison". Journal of Applied Statistics. 34 (1): 87–105. CiteSeerX 10.1.1.507.1186. doi:10.1080/02664760600994539.
- ^ Sürücü, Barış (1 September 2008). "A power comparison and simulation study of goodness-of-fit tests". Computers & Mathematics with Applications. 56 (6): 1617–1625. doi:10.1016/j.camwa.2008.03.010.
- ^ Lin, C. C.; Mudholkar, G. S. (1980). "A simple test for normality against asymmetric alternatives". Biometrika. 67 (2): 455–461. doi:10.1093/biomet/67.2.455.
- ^ 마디아, K. V. (1970년)응용 프로그램의 다변량 왜도 및 첨도 측정.바이오메트리카 57, 519–530.
- ^ Filliben, J. J. (February 1975). "The Probability Plot Correlation Coefficient Test for Normality". Technometrics. 17 (1): 111–117. doi:10.2307/1268008. JSTOR 1268008.
- ^ Székeley, G. J. 및 Rizzo, M. L.(2005) 다변량 정규성에 대한 새로운 검정, 다변량 분석 저널 93, 58–80.
- ^ Epps, T. W. 및 Pulley, L. B.(1983).경험적 특성 함수에 기초한 정규성에 대한 검정.바이오메트리카 70, 723–726.
- ^ Henze, N, Zirkler, B. (1990)다변량 정규성에 대한 불변성 및 일관성 검정 클래스.통계에서의 통신 - 이론 및 방법 19, 3595–3617.
- ^ Henze, N, Wagner, T. (1997년)다변량 정규성에 대한 BHEP 검정에 대한 새로운 접근법.다변량 분석 저널 62, 1-23.
- ^ Vasicek, Oldrich (1976). "A Test for Normality Based on Sample Entropy". Journal of the Royal Statistical Society. Series B (Methodological). 38 (1): 54–59. JSTOR 2984828.
- ^ 젊은 K. D. S.(1993) "정규성 가정을 확인하기 위한 베이시안 진단"통계 연산 및 시뮬레이션 저널, 47(3–4), 167–180
- ^ 슈피겔할터, D.J. (1980년)소형 표본에 대한 정규성에 대한 옴니버스 시험.바이오메트리카, 67, 493–496. 도이:10.1093/바이오메트/67.2.493
- ^ 패럴, P.J., 로저스-스튜워트, K.(2006) "정규성과 대칭성에 대한 시험의 종합적 연구: 슈피겔할터 시험의 연장"통계 연산 및 시뮬레이션 저널, 76(9), 803 – 816. doi:10.1080/10629360500109023
- ^ Portney, L.G. & Watkins, M.P. (2000). Foundations of clinical research: applications to practice. New Jersey: Prentice Hall Health. pp. 516–517. ISBN 0838526950.
{{cite book}}
: CS1 maint : 복수이름 : 작성자 목록(링크)
추가 읽기
- Ralph B. D'Agostino (1986). "Tests for the Normal Distribution". In D'Agostino, R.B.; Stephens, M.A. (eds.). Goodness-of-Fit Techniques. New York: Marcel Dekker. ISBN 978-0-8247-7487-5.
- Henry C. Thode, Jr. (2002). Testing for Normality. New York: Marcel Dekker, Inc. pp. 479. ISBN 978-0-8247-9613-6.