결합전

Conjugate prior

베이지안 확률론에서 후분포 p(θ x)가 선행 확률분포 p(θ)와 동일한 확률분포 패밀리에 있는 경우, 전·후분포를 결합분포라고 하며, 전자를 우도함수 p(x θ)에 앞서 결합분포라고 한다.

결합 전은 뒤에 닫힌 형태 표현을 주는 대수학적 편의다. 그렇지 않으면 수치적 통합이 필요할 수 있다. 또한 결합 전자는 우도 함수가 이전 분포를 업데이트하는 방법을 보다 투명하게 보여줌으로써 직관을 제공할 수 있다.

이 개념은 "콘주게이트 이전"이라는 용어뿐만 아니라 하워드 라이파로버트 쉴라이퍼가 베이시안 의사결정 이론에 대한 연구에서 소개되었다.[1] 비슷한 개념이 조지 알프레드 바르나드에 의해 독자적으로 발견되었다.[2]

일반적으로 이전의 결합 형태는 분포의 확률 밀도 또는 확률 질량 함수의 검사에 의해 결정될 수 있다. 예를 들어, [0,1]의 확률을 알 수 없는 버눌리 시험에서 의 성공 횟수로 구성된 랜덤 변수를 고려하십시오 이 랜덤 변수는 이항 분포를 따르며, 폼의 확률 질량 함수를 갖는다.

일반적인 결합 전은 파라미터가 포함된 베타 분포( 이다.

where and are chosen to reflect any existing belief or information ( = 1 and = 1 would give a uniform distribution) and Β(, ) is the Beta function acting 정규화 상수로서.

이 맥락에서 을(를) 하이퍼 파라미터(이전의 파라미터)라고 하며, 이를 기본 모델의 파라미터(여기 q)와 구별하기 위해 사용한다. 하이퍼 파라미터의 치수성이 원래 분포의 모수의 치수보다 1이 크다는 것은 결합 전자의 전형적인 특징이다. 모든 모수가 스칼라 값인 경우 이는 모수보다 하나의 하이퍼 파라미터가 더 있다는 것을 의미한다. 그러나 이는 벡터 값과 행렬 값 매개변수에도 적용된다. (지수 계열에 대한 일반 기사를 참조하고 다변량 정규 분산공분산 행렬 이전의 Wishart 분포도 고려한다.를 들어, 큰 차원성이 관련된 경우).

그런 다음 이 랜덤 변수를 표본으로 추출하여 s 성공과 f 실패를 얻으면

이 분포는 파라미터를 포함한 또 다른 베타 분포( + s, + f)이다. 이 후방 분포는 하이퍼 파라미터가 단순히 각각의 추가 정보를 제공하는 대로 추가함으로써 더 많은 표본을 위한 선행으로 사용될 수 있다.

해석

사이비 관측

종종 결합 사전 분포의 하이퍼 파라미터가 매개변수로 지정된 성질을 가지고 일정 수의 의사 관찰을 관찰한 것과 일치한다고 생각하는 것이 유용하다. 예를 들어 베타 분포 값은 최적 설정 또는 \ 성공-1 실패에 해당하는 것으로 생각할 수 있다.최적의 매개변수 설정을 선택하기 위해 후면 평균을 하는 경우 스타일 } 성공 실패. 일반적으로 거의 모든 조합 이전 분포에 대해 하이퍼 파라미터는 의사 관찰의 관점에서 해석될 수 있다. 이것은 종종 지저분한 업데이트 방정식 뒤에 있는 직관력을 제공할 뿐만 아니라, 이전의 합리적인 하이퍼 파라미터 선택에도 도움이 될 수 있다.


고유[citation needed] 기능과의 유사성

결합 전자는 연산자 이론에서 "조화 연산자"가 연산자로서 선행에서 후방으로 변화하는 과정을 생각하면서 잘 이해되는 방식으로 작용하는 분포라는 점에서 고유특성과 유사하다.

고유 기능 및 결합 프리터에는 모두 운용자가 보존하는 유한 차원 공간이 있다. 즉, 출력은 입력과 동일한 형태(동일한 공간)이다. 이는 다른 방법으로 무한 차원 공간(모든 함수의 공간, 모든 분포의 공간)을 고려하기 때문에 분석을 크게 단순화한다.

그러나 공정은 유사할 뿐 동일하지는 않다:분포의 공간이 선형 결합에서 닫히지 않고 볼록한 조합만 있을 뿐 후부는 스칼라 배수가 아닌 이전과 동일한 형태일 뿐이므로 조건화는 선형적이지 않다.

연산자의 적용에 따라(이러한 기능에 대해서는 연산자가 대각선으로 되어 있기 때문에) 고유 기능의 선형 결합이 어떻게 진화하는가를 쉽게 분석할 수 있듯이, 결합 전자의 볼록 결합이 어떻게 조건화 속에서 진화하는가를 쉽게 분석할 수 있다; 이것을 하이퍼프라이저를 사용하여, 혼합물을 사용하는 것에 대응한다.단일 결합 전이 아닌 결합 전자의 튜어 밀도.

동력학계

결합 전자의 조건화는 일종의 (분명한 시간) 역동적인 시스템을 정의하는 것으로 생각할 수 있다: 주어진 하이퍼 파라미터 집합에서 들어오는 데이터는 이러한 하이퍼 파라미터들을 업데이트하므로 하이퍼 파라미터의 변화를 일종의 "시간 진화"로서 "학습"에 해당하는 시스템의 "시간 진화"로 볼 수 있다. 다른 지점에서 시작하면 시간에 따라 다른 흐름이 나타난다. 이는 다시 선형 연산자에 의해 정의되는 동적 시스템과 유사하지만, 서로 다른 샘플이 다른 추론을 야기하기 때문에, 이는 단순히 시간에 따라 달라지는 것이 아니라 시간에 따른 데이터에 따라 결정된다는 점에 주목한다. 관련 접근 방법은 재귀적 베이시안 추정데이터 동화를 참조하십시오.

실제 사례

당신의 도시에서 렌터카 서비스가 운영된다고 가정해보자. 운전자들은 시내 경계선 안 어디든 내려서 차를 픽업할 수 있다. 앱을 통해 차를 찾고 빌릴 수 있다.

하루 중 언제든지 집 주소에서 짧은 거리 내에 렌터카를 찾을 수 있는 가능성을 찾고 싶다고 가정해 보십시오.

3일 동안 앱을 보고 집 주소에서 짧은 거리 내에 다음과 같은 차량 수를 찾으십시오: =[ ,, =

데이터가 포아송 분포에서 나온다고 가정할 경우 모델 매개변수 = 3+ + 2 최대우도 추정치를 사용하여 최소한 하나의 카 가용성이 있을 확률을 계산할 수 있다e on a given day:

관측된 데이터 을(를) 생성했을 가능성이 가장 높은 포아송 분포입니다. 그러나 데이터는 = 3 또는= 등 다른 포아송 분포에서 왔을 수도 있다 실제로 관측된 데이터를 생성할 수 있는 포아송 분포의 수가 무한대인데, 상대적으로 데이터 포인트가 적으면 어떤 정확한 포아송 분포가 이 데이터를 생성했는지에 대해 상당히 불확실할 수 있다. 직관적으로 우리는 우리가 관찰한 를 고려할 때, 각각의 포아송 분포에 대해 ( > 의 확률의 가중 평균을 대신 취해야 한다

Generally, this quantity is known as the posterior predictive distribution where is a new data point, is the observed 데이터와 은(는) 모델의 매개 변수다. Using Bayes' theorem we can expand therefore (\mathbf )}{p {x} (\ {x일반적으로 이 적분은 계산하기 어렵다 단, 결합 사전 p () p을 선택하면 닫힌 형태 식을 파생할 수 있다 아래 표의 후측 예측란이다.

포아송 분포의 비율에 대한 사전 분포로 감마 분포를 선택한 경우, 후방 예측은 아래 표의 마지막 열에서 볼 수 있는 음의 이항 분포다. 감마 분포는 우리가 선택해야 하는 두 개의 하이퍼 파라미터 , 에 의해 파라미터화된다. 감마 분포의 그림을 보면 = 을(를) 선택하는데 이는 평균 자동차 수보다 합리적인 선행인 것으로 보인다. 이전 하이퍼 파라미터의 선택은 본질적으로 주관적이며 사전 지식을 바탕으로 한다.

Given the prior hyperparameters and we can compute the posterior hyperparameters and

Given the posterior hyperparameters we can finally compute the posterior predictive of

이 훨씬 더 보수적인 추정치는 모형 모수의 불확실성을 반영하는데, 이는 후방 예측을 고려한다.

결합 분포 표

n은 관측치의 수를 나타내도록 한다. 아래의 모든 경우에서 데이터는 n 포인트 ,, n 다변수 사례에서 랜덤 벡터가 되는)로 구성된다고 가정한다.

우도 함수가 지수 패밀리에 속할 경우, 종종 지수 패밀리에도 결합 전이 존재한다. 지수 패밀리를 참조하십시오. 결합 분포.

우도 함수가 이산형 분포인 경우

우도 모델 매개변수 결합 선행분포 이전 하이퍼모수 후방 하이퍼 파라미터[note 1] 하이퍼 파라미터 해석 후방예측[note 2]
베르누이 p (probability) 베타. 성공, 실패[note 3]
이항체 p (probability) 베타. 성공, 실패[note 3]
(이항 분포)
음성 이항 분포
알려진 고장 번호, r
p (probability) 베타. 총 성공, 실패[note 3](예: r (가) 고정되어 있다고 가정함)

(이항 음성 이항 분포)

포아송 λ (율) 감마 총 발생
(음 이항 분포)
[주4] β {\displaystyle 간격의 총 발생 횟수
(음 이항 분포)
범주형 p (변환 벡터), k (범주 수, 즉 p의 크기) 디리클레 +( 1,… , ), 여기서 i 는 범주 i의 관측치 수입니다. 범주 발생
다항체 p (변환 벡터), k (범주 수, 즉 p의 크기) 디리클레 범주 발생
(Dirichlet-multinomial)
초기하학
알려진 총 모집단 크기, N
M(대상 부재 수) 베타 이항체[3] 성공, 실패[note 3]
기하학 p0 (probability) 베타. } β {\displaystyle [note 3] 실패

우도 함수가 연속형 분포인 경우

우도 모델 매개변수 결합 선행분포 이전 하이퍼모수 후방 하이퍼 파라미터[note 1] 하이퍼 파라미터 해석 후방예측[note 5]
정상
알려진 대로 with로2
μ(μ) 정상 평균은 정밀도(모든 개별 정밀도의 합계) 1 / 1 표본 평균 {\을(를) 사용하여 관측치에서 추정했다. [4]
정상
정밀한 τ으로
μ(μ) 정상 평균은 전체 정밀도(모든 개별 정밀도의 합계) 표본 평균 {\로 관측치로부터 추정되었다. [4]
정상
알려진 평균 μ로
σ2 (variance) 역감마 [주6] 표본 분산 / / α /α / \ }을(를) 사용한 \ 관측치로부터 분산을 추정했다(즉,편차 평균 [4]
정상
알려진 평균 μ로
σ2 (variance) 축척 역치 제곱 표본 분산 {\ 관측치로부터 분산을 추정했다 [4]
정상
알려진 평균 μ로
τ (precision) 감마 [주4] 정밀도는 표본 분산 properties (를) 가진 } 관측치로부터 추정되었다즉, 편차는 평균[\ }). [4]
정상[주 7] μσ2
교환성 가정
정규-반전 감마선
  • (가) 표본 평균임
평균은 표본 평균 을 가진 ∆ 관측치로부터 추정되었다 분산은 평균 제곱 편차 에서 추정되었다. [4]
정상 μτ
교환성 가정
노멀감마
  • (가) 표본 평균임
평균은 샘플 평균 을 가진 관측치로부터 추정되었고 정밀도는 샘플 평균 을 가진 {\ 관측치로부터 추정되었으며,편차 2 {\이었다. [4]
공분산 행렬이 알려진 다변량 정규 분포 σ μ(μ 벡터) 다변량 정규 분포
  • 가) 표본 평균임
평균은 전체 정밀도(모든 개별 정밀도의 합계) 0- {\ 표본 평균 0 }}을 사용하여 추정했다. [4]
다변량 정규 분포(알려진 정밀 행렬 λ) μ(μ 벡터) 다변량 정규 분포
  • 가) 표본 평균임
평균은 총 정밀도(모든 개별 정밀도의 합계) 및 표본 평균 {\mu}}을 사용하여 추정했다. [4]
알려진 평균 μ다변량 정규 분포 σ(공분산 행렬) 역-위샤르트 공분산 행렬은 관측치로부터 추정되었으며, 쌍들의 편차 곱셈 [4]
알려진 평균 μ다변량 정규 분포 λ (정밀 행렬) 위스타트 공분산 행렬은 의 편차곱 V - 1 {\displaystyle 관측치로부터 되었으며} [4]
다변량 정규 분포 μ(평균 벡터) 및 μ(공분산 행렬) 노멀 인버스 위샤트
  • 가) 표본 평균임
은 표본 평균 을 사용한 관측치로부터 추정되었으며 공분산 행렬은 평균 관측치로부터 추정되었으며, 표본 평균 μ 0{}}}}}}}}}}}}}}}을 사용한 관측치 쌍들의 합계를 사용했다. 편차 제품 = [4]
다변량 정규 분포 μ(평균 벡터) 및 λ(정밀 행렬) 노멀위샤르트
  • 가) 표본 평균임
은 표본 평균 을 사용한 관측치로부터 추정되었으며 공분산 행렬은 평균 관측치로부터 추정되었으며, 표본 평균 μ 0{}}}}}}}}}}}}}}}을 사용한 관측치 쌍들의 합계를 사용했다. 편차 제품 - [4]
유니폼 파레토 최대값 의 관측치
파레토
알려진 최소 x로m
k (shape) 감마 관측치(각 관측치 대 최소 x m {\크기 순서에 대한 의 관측치(각 관측치 대 x_m
바이불
알려진 모양 β
θ (척도) 역감마[3] 관측치의 β'번째 검정력을 합한 sum 관측치
로그 정규 분포 후측 초모수 데이터에 자연 로그 적용 후 정규 분포와 동일하다. 자세한 내용은 Fink(1997, 페이지 21–22)를 참조하십시오.
지수적 λ (율) 감마 [주4] - 관측치를 합하여
(로맥스 분포)
감마
알려진 모양 α로
β(속도) 감마 / 합계가 인 관측치 [주 8]
역 감마
알려진 모양 α로
β(절대 축척) 감마 / 합계가 인 관측치
감마
알려진 속도 β로
α(shape) 또는 관측치( 인 제품으로 {\displaystystyle \ \ }을 추정하는 경우
감마[3] α(shape), β(inverse) (inverse) 눈금) 은(는) p한 r r 관측치로부터 추정되었으며, \(는) 합 사용하여 되었다.
베타. α, β \는) p q {\ 과(와) k {\ k} 관측치를 통해 추정되었다

참고 항목

메모들

  1. ^ a b 프리타임(')이 추가된 이전 하이퍼 파라미터와 동일한 기호로 표시된다. 예를 들어 (가) 로 표시됨
  2. ^ 관측된 데이터 점이 주어진 지점 x~ 후방 예측 분포로, 파라미터는 소외된다. 소수점이 있는 변수는 매개변수의 후측값을 나타낸다.
  3. ^ a b c d e f g 베타 분포의 매개변수에 대한 정확한 해석은 분포에서 점 추정치를 추출하는 데 사용되는 함수에 따라 달라진다. The mean of a beta distribution is which corresponds to successes and failures, while the mode is which corresponds t- 성공- 실패. 베이시안들은 일반적으로 후방 모드보다는 후방 평균을 점 추정치로 사용하는 것을 선호하며, 2차 손실 함수로 정당화되며, 을(를) 사용하는 것이 수학적으로 더 하며- 1 {\\daypoint point \point \cappoint \ \positionalpoint \point \point \point \iecision \iecision \}은는) 균일한 B (,1이전이 0의 성공과 0의 실패에 해당한다는 장점이 있다. 디리클레 분포에도 동일한 이슈가 적용된다.
  4. ^ a b c β는 비율 또는 역 척도다. 감마 분포의 파라미터화에서, α = 1/3 및 k = α.
  5. ^ 관측된 데이터 점이 주어진 지점 x~ 후방 예측 분포로, 파라미터는 소외된다. 소수점이 있는 변수는 매개변수의 후측값을 나타낸다. 은(는) 정규 분포학생의 t-분포를 각각 참조하거나 다변량 사례에서 다변량 정규 분포다변량 t-분포를 참조한다.
  6. ^ 역 감마 측면에서 (는) 척도 파라미터다.
  7. ^ 알 수 없는 평균과 분산에 대한 다른 결합 전이지만, 이들 사이의 고정된 선형 관계가 있는 다른 결합은 정상 분산-평균 혼합물에서 발견되며, 일반화된가우스 분포는 결합 혼합물이다.
  8. ^ () {CG(는) 복합 감마분포, () {\여기서는 일반화된 베타 프라임 분포다.

참조

  1. ^ 하워드 라이파로버트 슐라이퍼. 적용된 통계적 의사결정 이론. 1961년 하버드 대학 경영대학원 연구부.
  2. ^ 제프 밀러 외 연구진 수학의 일부 단어의 초기 알려진 사용, "사전 분포". 2005년 11월 13일 개정된 전자 문서는 2005년 12월 2일을 회수했다.
  3. ^ a b c Fink, Daniel (1997). "A Compendium of Conjugate Priors" (PDF). CiteSeerX 10.1.1.157.5540. Archived from the original (PDF) on May 29, 2009.
  4. ^ a b c d e f g h i j k l m Murphy, Kevin P. (2007), Conjugate Bayesian analysis of the Gaussian distribution (PDF)
  5. ^ Liu, Han; Wasserman, Larry (2014). Statistical Machine Learning (PDF). p. 314.