베이즈 추정자

Bayes estimator

추정 이론과 결정 이론에서 베이즈 추정기 또는 베이즈 작용은 손실 함수의 후방 기대치(즉, 후방 기대 손실)를 최소화하는 추정기 또는 결정 규칙이다.마찬가지로, 효용 함수의 사후 기대치를 극대화한다.베이지안 통계 내에서 추정기를 공식화하는 다른 방법은 최대 사후 추정이다.

정의.

알 수 없는 파라미터{\({ 사전 분포{\({\})가 있다고 가정합니다.들어 ^ ( x ) style {\ {theta }} = }(x의 추정치로 . L {\ 제곱오차와 같은 손실함수입니다 of ( \ style \ \ ) ^ ( , ) (\E _ { \ } ( ( \ , { \ \ theta {\ 。여기서 기대치 stylestylestylestylestylestyle utionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionutionution 모든 추정자 중 베이즈 위험을 최소화할 경우 베이즈 추정자로됩니다마찬가지로 각(\ x에 대해 후방 E,, x {{ {\})}를 최소화하는 추정기도 Bayes 위험을 최소화하므로 Bayes [1]추정치이다.

앞의 것이 부적절할 경우 각 displaystyle 후방 예상 손실을 최소화하는 추정기를 일반화 베이즈 추정기(Generalized Bayes estimator)[2]라고 한다.

최소 평균 제곱 오차 추정

베이지안 추정에 사용되는 가장 일반적인 위험 함수는 제곱 오차라고도 하는 평균 제곱 오차(MSE)입니다.MSE는 다음과 같이 정의됩니다.

where the expectation is taken over the joint distribution of and .

후방 평균

MSE를 위험으로 사용하여 미지의 모수에 대한 Bayes 추정치는 단순히 사후 [3]분포의 평균이다.

이를 최소 평균 제곱 오차(MMSE) 추정기라고 합니다.

켤레 전차에 대한 Bayes 추정기

한 사전 확률 분포를 다른 분포보다 선호해야 할 고유한 이유가 없는 경우, 단순성을 위해 켤레 사전 분포를 선택하는 경우가 있습니다.사전공역사는 어떤 파라메트릭 패밀리에 속하는 사전분포로서 정의되며, 그 결과 후방분포도 같은 패밀리에 속한다.Bayes 추정기와 통계 특성(분산, 신뢰 구간 등)은 모두 후방 분포에서 파생될 수 있기 때문에 이는 중요한 특성이다.

켤레 프리어는 현재 측정의 후방을 다음 측정의 이전 값으로 사용하는 순차적 추정에 특히 유용합니다.순차적 추정에서, 켤레 사전이 사용되지 않는 한, 후방 분포는 각 추가 측정으로 더 복잡해지고, 베이즈 추정기는 일반적으로 수치 방법에 의존하지 않고 계산할 수 없다.

다음은 켤레 프리어의 몇 가지 예입니다.

  • \ x \)가 Normal, the the 、 N ( \ x \ N ( \ {}) 、 、 { { 、 \ \ \ ^ { ) )
  • 1,.. , n { _ { , x { } id 포아송 ~ ( )\ x _ { } \ \ P ( \ ), 、 is is 、 ) \b )der MSE는 다음에 의해 지정됩니다.
  • 1, x 하게 ~U ( , )(\ \U ( , \)isdisplaydisplaydisplaydisplaydisplay 、 Pareto distributed ) \ sim \ \ta \ta \ \ tyle \ tyled MSE의 Bayes 추정치는 다음과 같다.

대체 리스크 기능

위험 함수는 추정치와 알려지지 않은 모수 사이의 거리를 측정하는 방법에 따라 선택된다.MSE는 주로 단순성 때문에 가장 일반적으로 사용되는 위험 함수입니다.그러나 대체 위험 기능도 가끔 사용됩니다.다음은 그러한 대안의 몇 가지 예이다.후방 일반화 분포 함수를 FF)로.

후방 중위수 및 기타 분위수

  • 0(\a의 "선형" 손실 함수. 이는 베이즈 추정치의 후방 중앙값을 산출한다.
  • 다른 "선형" 손실 함수입니다.이 함수는 다른 "" a> {\ a,b> 0 과추정 또는 서브추정에 할당합니다.후방 분포에서 분위수를 산출하고 이전 손실 함수의 일반화입니다.

후방 모드

  • 다음 손실 함수는 더 까다롭습니다. 후방 분포의 곡률 및 특성에 따라 후방 모드 또는 그에 가까운 점을 산출합니다.모드를 근사치( L 0 \ L )로 사용하려면 K > { K > }의 작은 값을 사용하는 것이 좋습니다.

평균 제곱 오차가 가장 널리 사용되고 검증되지만 다른 손실 함수를 생각할 수 있습니다.기타 손실 함수는 통계, 특히 견고한 통계에서 사용됩니다.

일반화 베이즈 추정기

이전 pp는 지금까지 다음과 같은 점에서 진정한 확률 분포로 가정되어 왔다.

단, 경우에 따라서는 이것이 제한적인 요건이 될 수 있습니다.예를 들어, 모든 실수가 동일한 분포(모든 실수의 집합 R 포함)는 존재하지 않습니다.그러나, 어떤 의미에서, 그러한 "분포"는 비정보적 사전, 즉 미지의 매개변수의 특정 값에 대한 선호를 의미하지 않는 사전 분포에 대한 자연스러운 선택으로 보인다. p p)=을 정의할 수 있지만, 무한 질량을 가지므로 적절한 확률 분포는 아니다.

확률분포가 아닌 이러한 p ( p ( \ )}는 부적절한 prior라고 불립니다.

부적절한 사전의 사용은 베이즈 리스크가 정의되어 있지 않다는 것을 의미합니다(사전 리스크는 확률 분포가 아니기 때문에 우리는 그 아래에서 예상을 취할 수 없습니다).그 결과, Bayes 리스크를 최소화하는 Bayes 추정치에 대해 말하는 것은 더 이상 의미가 없습니다.그럼에도 불구하고, 많은 경우에, 사람들은 후분포를 정의할 수 있다.

베이즈의 정리는 모든 분포가 적절한 경우에만 적용될 수 있기 때문에 이것은 베이즈의 정리의 적용이 아닌 정의이다.그러나 결과 "후진"이 유효한 확률 분포가 되는 것은 드문 일이 아닙니다.이 경우, 후방 예상 손실은

일반적으로 잘 정의되고 유한합니다.적절한 사전의 경우 Bayes 추정기는 사후 예상 손실을 최소화한다는 점을 기억하십시오.사전이 부적절한 경우, 후방 기대 손실을 최소화하는 추정기를 일반화 베이즈 추정기라고 [2]한다.

대표적인 예로는 - )의 손실함수를 가진 로케이션파라미터의 추정({\theta이 있습니다서 \ \}는 로케이션파라미터입니다.를 들어 p( ) ( -) ) \ ( x \ ) f ( x \theta ) \ta ) \ta ) \ ) \ta 입니다.

특히 더 이상 주관적인 정보를 사용할 수 없는 경우에는 p ( ) { p ) 을 사용하는 것이 일반적입니다.이것은 산출된다.

그래서 사후 예상 손실은

일반화된 Bayes 추정치는 x(\ x에 대해 이 식을 하는 값 a입니다.이는 데이터 전송 속도를 최소화하는 것과 같습니다.

( - ) ( - ) 、 { \ ( a - ) f ( x - ) \ theta}。{ x . } (1)

이 경우 일반화된 Bayes 추정치는 x+ (\ x이라는 형식을 가지며, 어떤 0(\에 대해서도 마찬가지입니다.이를 확인하려면 x 0 최소값으로 .다음으로 x 이 다르면 최소화할 필요가 있습니다.

( - ) ( - ) ( a - 1 -)f ( - ) .( \ \ ( a - \) f ( x _ { } - \ \ - { 1 - { 1

이것은 (1)과 동일합니다. {\ a되었습니다.따라서 최소화하는 식은 a- x 0 { { { a - _ {1} =_ { } a a a thus thus thus thus thus thus 。따라서 최적 추정기는 다음과 같은 형태를 갖는다.

경험적 베이즈 추정기

경험적 베이즈 방법을 통해 도출된 베이즈 추정기를 경험적 베이즈 추정기라고 합니다.경험적 베이즈 방법은 베이즈 추정기의 개발에서 관련 매개변수의 관측치로부터 보조 경험적 데이터를 사용할 수 있게 한다.이는 추정된 모수가 공통의 사전에서 얻어진다는 가정 하에 수행됩니다.예를 들어, 서로 다른 모수에 대한 독립적인 관찰이 수행되는 경우, 특정 모수의 추정 성능은 때때로 다른 관측치의 데이터를 사용하여 향상될 수 있습니다.

경험적 베이즈 추정에는 모수적 접근법과 비모수적 접근법이 있다.파라메트릭 경험적 베이는 소량의 데이터에 [4]더 적합하고 정확하기 때문에 일반적으로 선호된다.

다음은 모수 경험적 베이즈 추정의 간단한 예입니다. 1, ( i i f \_{ ){ 1+ 1 ( style _{i 하여 x n+ (\displaystyle \1 추정할 수 있습니다.i에는, 불명확한 파라메타에 의존하는 공통의 선행 \pi 있다고 합니다.를 들어 "\ 알 수 없는 "{\ \_{\},\!} 및 분산 {\ \_{\},\!}의 정상이라고 가정합니다.} 과거의 관측치를 사용하여 평균과분산을 다음과 같이 판단할 수 있습니다

우선, 최대우도 접근법을 하여x , x(\},\m \_{ m style \ _ 추정한다.

다음으로 총 기대의 법칙을 사용하여 계산하고 총 분산의 법칙을 사용하여 계산합니다.

f ( _ f ( ){ \ _{ 이미 알려진 것으로 간주되는 조건부 f ( i f \ {의 순간입니다. f ( ) \ _ { f } ( \ ) \ }, f2 ( ) ( \ \ { f }^{ ( \ ) )라고 가정합니다.

마지막으로, 우리는 이전의 추정된 순간을 얻는다.

예를 들어 x i ~N ( i ,1 x}\ N ( \_ { \sim N ) 、 n+ ~ ( ^) 、 ^ }}}^{ 서 x+ 1(\ n +(\ _ Bayes 추정치를 계산할 수 있습니다.

특성.

수용성

베이즈 리스크가 유한한 베이즈 규칙은 일반적으로 허용된다.다음은 수용성 이론의 몇 가지 구체적인 예입니다.

  • Bayes 규칙이 고유할 경우 [5]허용됩니다.예를 들어 위에서 설명한 바와 같이 평균 제곱 오차(MSE)에서 베이즈 규칙은 고유하므로 허용됩니다.
  • θ가 이산 세트에 속할 경우 모든 Bayes 규칙이 허용됩니다.
  • θ가 연속(비이산) 세트에 속하고 θ마다 θ의 위험함수 R(θ, θ)이 연속일 경우 모든 Bayes 규칙이 허용된다.

반면, 일반화된 Bayes 규칙에서는 부적절한 우선 사항의 경우 Bayes 위험을 정의하지 않는 경우가 많습니다.이 규칙들은 종종 받아들여질 수 없고 그 허용 가능성의 검증은 어려울 수 있다.예를 들어, 위의 "Generalized Bayes Estimator" 섹션에서 설명한 위치 파라미터 θ의 일반화 Bayes 추정기는p > (\ p에 대해 허용되지 않습니다. 이는 Stein's 현상이라고 합니다.

점근 효율

「 」를 미지의 랜덤 변수로 해, 1, 2,}, 밀도 iid 샘플이라고 .「 , _ { n 」측정 횟수의 증가에 따른 based 추정기.우리는 이 추정기 시퀀스의 점근적 성능, 즉 n에 대한 n \n}의 성능을 분석하는 데 관심이 있다.

이를 위해 θ는 0 _의 결정론적 파라미터로 간주하는 것이 일반적이며, 특정 [6]조건 하에서 큰 시료( n 값)의 경우 θ의 후방밀도는 거의 정규값이다.즉, n의 경우 후방에 대한 이전 확률의 영향은 무시할 수 있다.또한 θ가 MSE 위험 하의 Bayes 추정기라면 점근적으로 치우치지 않고 정규 분포수렴한다.

여기서 I())는0 θ의0 피셔 정보입니다.따라서 MSE 아래의 Bayes 추정기 θ는n 점근적으로 효율적이다.

점근적으로 정규적이고 효율적인 또 다른 추정치는 최대우도 추정기(MLE)입니다.최대우도 추정기와 Bayes 추정기 간의 관계는 다음과 같은 간단한 예제를 통해 확인할 수 있습니다.

예제: 이항 분포에서 p 추정

이항 표본 x~b(,,n)에 기초한 θ의 추정기를 고려합니다. 여기서 θ는 성공 확률을 나타냅니다.γ는 앞의 켤레에 따라 분포된다고 가정하면, 이 경우 베타 분포 B(a, b)는 B(a+x, b+n-x)로 알려져 있다.따라서 MSE의 Bayes 추정치는

이 경우 MLE는 x/n이기 때문에

마지막 방정식은 n → µ의 경우, (설명된 문제에서) Bayes 추정기가 MLE에 가깝다는 것을 암시한다.

한편, n이 작을 경우, 이전 정보는 여전히 의사결정 문제와 관련이 있으며 추정치에 영향을 미친다.이전 정보의 상대적 가중치를 확인하려면 a=b라고 가정합니다. 이 경우 각 측정에는 1비트의 새로운 정보가 입력됩니다. 위의 공식은 이전 정보가 새로운 정보의 a+b비트와 동일한 가중치를 갖는다는 것을 나타냅니다.응용 프로그램에서는 이전 배포의 세부 사항에 대해 거의 알지 못하는 경우가 많습니다. 특히, B(a, b)와 정확히 일치한다고 가정할 이유가 없습니다.이 경우, 이 계산의 한 가지 가능한 해석은 "평균값 0.5와 표준편차 d를 갖는 비병리학적 사전분포가 존재하며, 이전 정보의 가중치는 새로운 정보의 1/(4d2)-1비트와 같다"는 것이다.

동일한 현상의 또 다른 예는 이전 추정치와 측정치가 정규 분포를 따르는 경우이다.앞의 것이 편차 δ로 B에 중심이고 측정치가 편차 δ로 b에 중심인 경우, 후방은 + + + b {\ {\alpha }{\frac }{\flac }{\}{\alpha +\에 중심이며, 가중치가 β²이다.또한 후방 편차의 제곱은 δ²+δ²이다.즉, 이전 측정과 측정의 조합은 고려해야 할 추가 측정과 정확히 동일한 방식으로 이루어집니다.

예를 들어, δ=θ/2인 경우 결합된 4개의 측정값의 편차는 이전 측정값의 편차와 일치합니다(측정 오차는 독립적임).그리고 사후 공식의 무게α, β는 이것과 일치한다: 앞의 무게는 측정 무게의 4배이다.이것을 n개의 측정값과 평균 v의 측정값으로 결합하면 후방의 4+ + 4 + nv { \ { + n } V + { \ { n { 4 + n v ; 특히 전자는 4개의 측정값과 같은 역할을 한다.일반적으로 이전 측정의 무게는 (δ/δ)²입니다.

이항 분포의 예와 비교해 보십시오. 앞의 예에서는 (δ/δ)²-1 측정값의 무게가 있습니다.정확한 무게는 분포의 세부 사항에 따라 달라지지만, 'σ'이 되면 차이가 작아집니다.

Bayes 추정기의 실제 예제

인터넷 영화 데이터베이스는 "진정한 베이지안 추정치"[7]를 제공한다고 주장되는 최고 등급 250개의 타이틀을 포함하여 사용자의 영화 등급을 계산하고 비교하기 위한 공식을 사용합니다.다음 베이지안 공식은 처음에 상위 250점의 가중 평균 점수를 계산하기 위해 사용되었지만, 공식은 그 이후로 바뀌었다.

여기서:

{\ = 가중 정격
{\ = 1 ~ 10 사이의 수치로서 동영상의 평균 등급(평균) = (등급)
{\ = 영화 투표수/투표수 = (최소)
{\ = 이전 추정치에 주어진 가중치(이 경우 평균 등급이 통계적 타당성에 도달하기 위해 필요하다고 간주되는 IMDB의 투표 수)
{\ = 전체 풀의 평균 투표(현재 7.0)

W는 무게 벡터(v, m)를 가진 R과 C의 가중 산술 평균에 불과하다는 점에 유의하십시오.시청률이 m를 넘으면 평균 시청률의 신뢰도가 전편 평균 투표의 신뢰도를 웃돌고(C), 가중 베이지안 시청률(W)이 직선 평균에 가까워진다(R).v(영화 등급 수)가 0에 가까울수록 W는 C가깝습니다. 여기서 W는 가중 등급이고 C는 모든 영화의 평균 등급입니다.따라서 쉽게 말하면, 영화에 캐스팅되는 등급/투표 수가 적을수록 해당 영화의 가중 등급은 모든 영화의 평균으로 기울어지는 반면, 등급/투표 수가 많은 영화는 순산술 평균 등급에 근접하는 등급을 갖게 됩니다.

IMDb의 접근법은 소수의 시청률(모두 10점)만 있는 영화는 예를 들어, 50만 이상의 시청률에서 9.2의 평균으로 "대부"를 상회하지 않도록 보장한다.

「 」를 참조해 주세요.

메모들

  1. ^ 레만과 카셀라, 정리 4.1.1
  2. ^ a b 레만과 카셀라, 정의 4.2.9
  3. ^ Jaynes, E.T. (2007). Probability Theory: The Logic of Science (5. print. ed.). Cambridge [u.a.]: Cambridge Univ. Press. p. 172. ISBN 978-0-521-59271-0.
  4. ^ Berger(1980), 섹션 4.5.
  5. ^ 레만과 카셀라(1998), 정리 5.2.4.
  6. ^ 레만과 카셀라(1998), 섹션 6.8
  7. ^ IMDb Top 250

레퍼런스

외부 링크