베이지안 정보 기준
Bayesian information criterion시리즈의 일부 |
베이지안 통계 |
---|
![]() |
이론. |
기술 |
통계학에서, 베이지안 정보 기준(BIC) 또는 슈바르츠 정보 기준(SIC, SBC, SBIC도 마찬가지)은 유한한 모델 집합 중 모델 선택을 위한 기준이다. 일반적으로 BIC가 낮은 모델이 선호된다.그것은 부분적으로 우도 함수에 기초하고 AIC(Akaike Information Criteria)와 밀접하게 관련되어 있다.
모형을 적합시킬 때 모수를 추가하여 우도를 높일 수 있지만, 그렇게 하면 과적합이 발생할 수 있습니다.BIC와 AIC 모두 모델의 파라미터 수에 대한 패널티 기간을 도입함으로써 이 문제를 해결하려고 합니다.벌칙 기간은 BIC가 [1]AIC보다 큽니다.
BIC는 기디언 E에 의해 개발되었습니다.슈바르츠는 1978년 [2]논문을 발표하여 베이지안에서의 채택에 대한 논거를 제시하였다.
정의.
BIC는 공식적으로 다음과 같이 정의됩니다[3][a].
어디에
- { = 의 우도 함수의 최대값( L^ ( ,){ } ( \ hat { L } )여기서 style은 {\을(\} 를 합니다.아이크우프 함수
- {\ x = 관측된 데이터
- {\ n =x {\ x의 데이터 포인트 수, 관측치 수 또는 이에 상당하는 표본 크기
- \ k= 모델에 의해 추정된 파라미터의 수.예를 들어 다중 선형 회귀 분석의 경우 추정된 파라미터는 절편,\q} 기울기 파라미터 및 오류의 상수 분산입니다. 즉, +2 \ k2}입니다.
Konishi와[5]: 217 Kitagawa는 BIC를 도출하여 데이터의 분포를 근사하고, 다음과 같은 모델 증거에서 시작하여 Laplace의 방법을 사용하여 매개변수를 통합한다.
서 ( M ) { \pi ( \M ) 는 모델M {\M}의 선두입니다.
The log-likelihood, , is then expanded to a second order Taylor series about the MLE, , assuming it is twice differentiable as follows:
서I ( ){ { } \ )는 관측치당 평균 관측 정보이며, prime (\ ')는 - 의 전치( \ { \ { \ theta } )를 나타냅니다.R( , ) { R ( , \ )}이 무시할 수 있고 ( ) { ( \ \ M) }가 { \ 에 비교적 선형이면 과 같이 통합할 수 있습니다
n n이 하면 I )(\및 \는(1)이므로할 수 있습니다.따라서,
여기서 BIC는 위와 같이 되며 L^ {\ {L은 (는) 베이지안 후방 모드이거나 (b) MLE를 사용하며, 이전는 \M는 MLE에서 0이 아닙니다.그리고 후부는
사용.
여러 모델에서 선택할 때는 일반적으로 BIC 값이 낮은 모델이 선호됩니다.BIC는 오차 분산 2 _의 증가 함수이며 k의 증가 함수입니다.즉, 종속 변수의 설명되지 않은 변동과 설명 변수의 수가 BIC 값을 증가시킵니다.그러나 BIC가 낮다고 해서 반드시 한 모델이 다른 모델보다 나은 것은 아닙니다.BIC는 근사를 수반하기 때문에 단순한 발견적 접근법일 뿐입니다.특히 BIC의 차이는 변환된 베이즈 요인처럼 취급해서는 안 된다.
BIC를 사용하여 추정된 모형을 비교할 수 있는 것은 종속 변수의[b] 수치 값이 비교되는 모든 모형에서 동일할 때뿐이라는 점에 유의하십시오.F-검정 또는 우도비 [citation needed]검정을 사용하여 모형을 비교하는 경우와 달리 비교 중인 모형을 내포할 필요는 없습니다.
특성.
이 섹션은 확인을 위해 추가 인용문이 필요합니다.(2011년 11월 (이 및 을 확인) |
- BIC는 일반적으로 자유 매개변수를 아카이케 정보 기준보다 더 강하게 처벌한다. 단, n의 크기와 n과 k의 상대적 크기에 따라 달라진다.
- 그것은 이전과는 무관하다.
- 데이터 예측 측면에서 모수화된 모형의 효율성을 측정할 수 있습니다.
- 복잡성이 모델의 매개 변수 수를 나타내는 모델의 복잡성에 불이익을 줍니다.
- 최소 설명 길이 기준과 거의 동일하지만 음수 기호가 있습니다.
- 특정 데이터 세트에 존재하는 고유한 복잡도에 따라 클러스터 수를 선택하는 데 사용할 수 있습니다.
- 이탈 정보 기준 및 아카이케 정보 기준과 같은 다른 불이익 우도 기준과 밀접하게 관련되어 있다.
제한 사항
BIC는 두 가지 주요 제한[6] 사항을 겪고 있습니다.
- 위의 근사치는 모델에 포함된 파라미터의 k(\ k보다 훨씬 큰 샘플 n(\ n에만 유효합니다.
- BIC는 고차원에서의 [6]가변 선택(또는 형상 선택) 문제와 같은 복잡한 모델 컬렉션을 처리할 수 없습니다.
가우스 특수 케이스
모델 오차 또는 교란이 독립적이고 정규 분포에 따라 동등하게 분포되고 실제 분산에 대한 로그 우도의 도함수가 0이라는 경계 조건 하에서, 이는 (모델에 의존하지 않고 n에만 의존하는 가법 상수까지)[7] 다음과 같이 된다.
서 § {\ _는 오류 분산입니다.이 경우의 오차 분산은 다음과 같이 정의됩니다.
잔존 제곱합(RSS)의 관점에서 BIC는
포화 모델에 대해 여러 선형 모델을 테스트할 때 BIC는 편차 2^{로 다음과 같이 [8]다시 작성할 수 있습니다.
서 kk는 테스트에 사용되는 모델 파라미터의 수입니다.
「 」를 참조해 주세요.
메모들
레퍼런스
- ^ 리뷰 페이퍼를 참조해 주세요.를 클릭합니다Stoica, P.; Selen, Y. (2004), "Model-order selection: a review of information criterion rules", IEEE Signal Processing Magazine (July): 36–47, doi:10.1109/MSP.2004.1311138, S2CID 17338979.
- ^ 를 클릭합니다Schwarz, Gideon E. (1978), "Estimating the dimension of a model", Annals of Statistics, 6 (2): 461–464, doi:10.1214/aos/1176344136, MR 0468014.
- ^ Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). "'All models are wrong...': an introduction to model uncertainty" (PDF). Statistica Neerlandica. 66 (3): 217–236. doi:10.1111/j.1467-9574.2012.00530.x. S2CID 7793470.
- ^ Claeskens, G.; Hjort, N. L. (2008), Model Selection and Model Averaging, Cambridge University Press
- ^ Konishi, Sadanori; Kitagawa, Genshiro (2008). Information criteria and statistical modeling. Springer. ISBN 978-0-387-71886-6.
- ^ a b Giraud, C. (2015). Introduction to high-dimensional statistics. Chapman & Hall/CRC. ISBN 9781482237948.
- ^ Priestley, M.B. (1981). Spectral Analysis and Time Series. Academic Press. ISBN 978-0-12-564922-3. (p.375).
- ^ 를 클릭합니다Kass, Robert E.; Raftery, Adrian E. (1995), "Bayes Factors", Journal of the American Statistical Association, 90 (430): 773–795, doi:10.2307/2291091, ISSN 0162-1459, JSTOR 2291091.
추가 정보
- Bhat, H. S.; Kumar, N (2010). "On the derivation of the Bayesian Information Criterion" (PDF). Archived from the original (PDF) on 28 March 2012.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - Findley, D. F. (1991). "Counterexamples to parsimony and BIC". Annals of the Institute of Statistical Mathematics. 43 (3): 505–514. doi:10.1007/BF00053369. S2CID 58910242.
- Kass, R. E.; Wasserman, L. (1995). "A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion". Journal of the American Statistical Association. 90 (431): 928–934. doi:10.2307/2291327. JSTOR 2291327.
- Liddle, A. R. (2007). "Information criteria for astrophysical model selection". Monthly Notices of the Royal Astronomical Society. 377 (1): L74–L78. arXiv:astro-ph/0701113. Bibcode:2007MNRAS.377L..74L. doi:10.1111/j.1745-3933.2007.00306.x. S2CID 2884450.
- McQuarrie, A. D. R.; Tsai, C.-L. (1998). Regression and Time Series Model Selection. World Scientific.