범주형 분포
Categorical distribution파라미터 | > { k > }카테고리 수(표준) 1, p { 이벤트확률 ( i0 , p ){ ( p { } \ 0 , , \ p _ { i } =1} | ||
---|---|---|---|
지지하다 | |||
PMF | (1) ( ) i(\ p)=
| ||
모드 |
확률 이론과 통계학에서 범주 분포(일반화된 베르누이 분포, 다누이 분포라고도[1] 함)는 K개의 가능한 범주 중 하나를 취할 수 있는 랜덤 변수의 가능한 결과를 설명하는 이산 확률 분포이다.이러한 결과의 본질적인 순서는 없지만, 분포를 기술하는 데 편의를 위해 숫자 라벨이 종종 부착된다(예: 1에서 K).K-차원 범주형 분포는 K-원 사건에 대한 가장 일반적인 분포이며, 크기 K 표본 공간에 대한 다른 이산 분포는 특수한 경우입니다.가능한 각 결과의 확률을 지정하는 모수는 각 모수가 0에서 1 사이여야 하며 모든 합이 1이어야 한다는 사실에 의해서만 제한됩니다.
범주형 분포는 범주형 랜덤 변수, 즉 주사위 굴림과 같은 두 개 이상의 결과가 가능한 이산 변수에 대한 베르누이 분포의 일반화이다.반면에 범주형 분포는 다중 도면이 아닌 단일 도면의 잠재적 결과 확률을 제공한다는 점에서 다항 분포의 특별한 경우이다.
용어.
때때로 범주형 분포는 "이산 분포"라고 불립니다.그러나 이것은 하나의 특정 분포 패밀리가 아니라 일반적인 분포 클래스를 가리킵니다.
기계학습이나 자연어 처리와 같은 일부 분야에서는 범주형 분포와 다항 분포가 결합되어 있으며, "범주형 분포"가 더 정확할 [2]때 "다항 분포"를 말하는 것이 일반적이다.이 부정확한 사용은 범주형 분포의 결과를 1 ~ K 범위의 정수가 아닌 "1-of-K" 벡터(1과 0을 포함하는 다른 모든 요소를 포함하는 벡터)로 표현하는 것이 때때로 편리하다는 사실에서 비롯됩니다. 이 형식에서 범주형 분포는 다항식 di와 동일합니다.단일 관측치에 대한 분포(아래 참조)입니다.
그러나 범주형 분포와 다항 분포를 혼동하면 문제가 발생할 수 있습니다.예를 들어, 디리클레 다항 분포에서 디리클레 분포가 계층적 베이지안 모델에서 축소된 깁스 샘플링의 결과로 자연어 처리 모델에서 일반적으로 발생하는 디리클레 다항 분포에서, 범주형 분포와 다항 분포를 구별하는 것은 매우 중요하다.동일한 디리클레-다항 분포로 동일한 변수의 공동 분포는 도메인이 개별 범주형 노드 위에 있는지 또는 각 특정 범주에서 노드의 다항식 카운트에 걸쳐 있는 분포로 특징지어지는지에 따라 두 가지 다른 형태를 가진다(베르눌 집합 간의 구별과 유사함).li 분산 노드 및 단일 이항 분산 노드).두 형태 모두 매우 유사하게 보이는 확률 질량 함수(PMF)를 가지며, 두 형태 모두 범주 내 노드의 다항식 개수를 참조합니다.그러나 다항식 PMF에는 범주형 PMF에서 1과 같은 상수인 추가 요인인 다항식 계수가 있습니다. 이 둘을 혼동하면 이 추가 요인이 관심 분포에 대해 일정하지 않은 설정에서 잘못된 결과를 초래하기 쉽습니다.인자는 Gibbs 표본 추출에 사용된 완전한 조건과 변동 방법의 최적 분포에서 자주 일정하다.
분포의 공식화
범주형 분포는 표본 공간이 개별적으로 식별된 k개 항목의 집합인 이산 확률 분포입니다.이는 범주형 랜덤 변수에 대한 베르누이 분포의 일반화입니다.
분포의 하나의 공식에서 표본 공간은 유한한 정수열로 간주된다.레이블로 사용되는 정확한 정수는 중요하지 않습니다. {0, 1, ..., k - 1} 또는 {1, 2, ..., k} 또는 기타 임의의 값 집합일 수 있습니다.다음 설명에서는 편의상 {1, 2, ..., k}을(를) 사용하지만, 이는 {0, 1)을 사용하는 베르누이 분포의 규칙과 일치하지 않습니다.이 경우 확률 질량 함수 f는 다음과 같습니다.
서 p ( , ,k ) { { p } ( p {1} , , _ { k } , { p _ { i } \ \ \ { 1 } { _ i } = 1} = 1 p_k }} = 1 } 1 . {
더 복잡해 보이지만 수학적인 조작을 용이하게 하는 또 다른 공식은 Iverson [3]괄호를 사용하여 다음과 같습니다.
여기서 {는 x {\ x이면 1로 평가되고 그렇지 않으면 0으로 평가됩니다.이 공식에는 다음과 같은 다양한 장점이 있습니다.
- 독립적이고 균등하게 분포된 범주형 변수 집합의 우도 함수를 쓰는 것이 더 쉽습니다.
- 범주형 분포와 관련된 다항 분포를 연결합니다.
- 이것은 왜 디리클레 분포가 범주형 분포 이전의 켤레인지 보여주고 모수의 사후 분포를 계산할 수 있도록 합니다.
그러나 다른 공식은 범주형 분포를 다항 분포(표본 항목 수)의 매개변수 n이 1로 고정된 다항 분포의 특수한 경우로 취급함으로써 범주형 분포와 다항 분포 간의 연결을 명시한다.이 공식에서 샘플 공간은 정확히 하나의 요소가 값 1을 가지며 다른 요소가 값 0을 갖는 특성을 갖는 차원 k의 1-of-K[4] 부호화 랜덤 벡터 x의 집합이라고 볼 수 있다.값이 1인 특정 요소는 선택된 카테고리를 나타냅니다.이 공식에서 확률 질량 함수 f는 다음과 같다.
서 p i})는 요소 i가 될 확률을 , i _}=입니다.이것은 [4][note 1]비숍이 채택한 공식이다.
특성.
- 분포는 각 숫자 i: ( ) ( X = i ) = P ( X ) i 1, k ( = 1 \ \ style \ _ } { i }}} . the the the the the the the the the the i i i i i i i i i i i i i i i i i the {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\가능한 확률 집합은 표준(- ){ -dimensional simplex에 있는 확률 집합입니다. k = 2의 경우 베르누이 분포가 1-displayx, 1, {\ 의 확률로 감소합니다
- 분포는 k 0-1 변수 중 정확히 하나가 [5]값 1을 갖는 "다변량 베르누이 분포"의 특수한 경우입니다.
- 스타일를 범주형 분포에서 실현합니다.요소로 구성된 랜덤 벡터 Y를 정의합니다.
- 여기서 I는 표시기 함수입니다.그런 다음 Y에는 n { n인 다항 분포의 특수한 경우인 분포가 있습니다.p.\를 사용하여 범주형 분포로 구성된 이고 동일한 랜덤 변수Y의 는 n.\ n 및 와 함께 다량 분포됩니다.
- 범주형 분포의 켤레 사전 분포는 디리클레 [2]분포입니다.상세한 것에 대하여는, 다음의 항을 참조해 주세요.
- n개의 독립적 관측치의 충분한 통계량은 각 범주에서 총 시행 횟수(=n)가 고정된 관측치의 카운트 집합(또는 동등한 비율)입니다.
- Iverson 괄호함수 [ { 또는 Kronecker 델타 함수 x ,{ _에 해당하는 값 i를 갖는 관측치의 지시 함수는 p {}와 함께 베르누이 분포한다.
사전 켤레를 이용한 베이지안 추론
베이지안 통계학에서 디리클레 분포는 범주형 분포(그리고 다항 분포)의 공역 사전 분포입니다.이것은 알 수 없는 모수 벡터 p를 가진 범주형 분포를 가진 데이터 포인트로 구성된 모델에서, 그리고 (표준 베이지안 스타일에서) 우리는 이 모수를 랜덤 변수로 처리하여 디리클레 분포를 사용하여 정의된 사전 분포를 제공하는 것을 선택하고, 그 다음 모수의 사후 분포를 인베스타티 후에 제공한다는 것을 의미한다.ng 관찰된 데이터로부터 얻은 지식은 또한 디리클레이다.직관적으로, 이러한 경우 데이터 포인트를 관찰하기 전에 파라미터에 대해 알려진 것부터 시작하여 데이터 포인트를 기반으로 지식을 갱신할 수 있으며, 이전 것과 동일한 형태의 새로운 분포를 얻을 수 있다.이와 같이 파라미터에 대한 지식은 수학적 난관에 부딪히지 않고 새로운 관찰을 한 번에 하나씩 포함시킴으로써 순차적으로 갱신할 수 있다.
형식적으로는 다음과 같이 표현할 수 있다.주어진 모델
다음으로 다음이 유지됩니다.[2]
이 관계는 N개의 표본이 주어진 범주형 분포의 기본 모수 p를 추정하기 위해 베이지안 통계에서 사용됩니다.직관적으로, 우리는 초우선 벡터α를 의사 산, 즉 우리가 이미 본 각 범주의 관측치 수를 나타내는 것으로 볼 수 있다.그런 다음 후방 분포를 도출하기 위해 모든 새로운 관측치(벡터 c)에 대한 카운트를 추가한다.
추가적인 직관은 후방 분포의 예상 값에서 나온다(디리클레 분포에 대한 기사 참조).
즉, 후방 분포에 의해 생성된 다양한 이산 분포 중에서 범주 i를 볼 수 있는 기대 확률은 이전 분포의 유사 카운트를 포함하여 데이터에서 실제로 볼 수 있는 범주의 발생 비율과 동일하다는 것입니다.이것은 매우 직관적이다. 예를 들어 세 가지 가능한 범주가 있고 범주 1이 관측된 데이터의 40%에 나타난다면 후방 분포에서도 범주 1이 평균 40%에 해당할 것으로 예상할 수 있다.
(이 직관은 이전 분포의 효과를 무시하고 있습니다.또한 후부는 분포에 대한 분포입니다.후방 분포는 일반적으로 문제의 모수를 설명하며, 이 경우 모수 자체는 이산 확률 분포, 즉 데이터를 생성한 실제 범주 분포이다.예를 들어, 40:5:55 비율의 세 범주가 관측 데이터에 있는 경우, 이전 분포의 영향을 무시하면, 실제 모수 즉 관측 데이터를 생성한 실제 기본 분포는 (0.40,0.05,0.55)의 평균 값을 가질 것으로 예상되며, 이는 실제로 후자가 밝힌 것이다.그러나 실제 분포는 실제로 (0.35,0.07,0.58) 또는 (0.42,0.04,0.54) 또는 그 밖의 다양한 인근 가능성이 될 수 있습니다.여기에 포함된 불확실성의 양은 총 관측 수에 의해 제어되는 후방의 분산에 의해 지정된다. 즉, 관측된 데이터가 많을수록 실제 매개변수에 대한 불확실성은 줄어든다.)
(기술적으로는 이전 i\ _는 i의 사전 을 것으로 간주해야 한다.) 업데이트된 후방 매개변수 + i _는 를 이는 α (,1,… ){{\ }}=(의 디리클레 분포가 완전히 평평한 모양이라는 사실을 반영한다. 즉, p의 가능한 값의 심플렉스에 대한 균일한 분포이다.논리적으로, 이런 종류의 평평한 분포는 어떤 종류의 관찰에도 해당되지 않는 완전한 무지를 나타냅니다.,-1 항을 무시하고 α 벡터가 의사산 집합을 직접 나타낸다고 생각하면 후방의 수학적 업데이트는 정상적으로 동작한다.또한 이를 통해 i\ _ 값을 1보다 작게 하는 문제가 발생하지 않습니다.)
MAP 추정
위 모델에서 모수 p의 최대 a-후향 추정치는 단순히 후방 디리클레 분포의 모드이다.[2]
많은 실제 응용 에서 + 1(\ \forall _의 조건을 보증하는 유일한 방법은 모든 i에 i > 1\alpha _ >1을 설정하는 것입니다.
한계우도
위 모형에서 관측치의 한계 우도(즉, 이전 모수가 소외된 상태에서 관측치의 공동 분포)는 디리클레-다항 [2]분포이다.
이 분포는 계층적 베이지안 모델에서 중요한 역할을 하는데, 깁스 샘플링이나 변동 베이즈와 같은 방법을 사용하여 이러한 모델에 대한 추론을 수행할 때 디리클레 사전 분포는 종종 소외되기 때문이다.상세한 것에 대하여는, 이 배포의 문서를 참조해 주세요.
후방 예측 분포
위 모델에서 새로운 관측치의 후방 예측 분포는 N개의 범주형 관측치 집합X(\가 주어졌을 때 새로운 x~ style 가 취할 분포이다.디리클레 다항 분포 기사에서 보듯이, 이것은 매우 단순한 형태를 가지고 [2]있다.
이 공식과 이전 공식 사이에는 다양한 관계가 있습니다.
- 특정 범주를 볼 수 있는 후방 예측 확률은 해당 범주에서 이전 관측치의 상대적 비율과 동일하다(이전 유사 관측치 포함).이것은 논리적으로 타당합니다.직감적으로, 그 카테고리의 빈도에 따라서 특정의 카테고리가 표시됩니다.
- 후방 예측 확률은 후방 분포의 기대 값과 동일합니다.이에 대해서는, 이하에 자세하게 설명합니다.
- 결과적으로, 이 공식은 단순히 "범주를 보는 후방 예측 확률은 해당 범주의 총 관측 카운트에 비례한다" 또는 "범주의 예상 카운트는 범주의 총 관측 카운트와 같다"로 표현될 수 있으며, 여기서 "관측 카운트"는 pri의 유사 관측 카운트를 포함하도록 취해진다.또는.
p의 후방 예측 확률과 후방 분포의 기대치 사이의 동등성에 대한 이유는 위의 공식의 재검사에서 명백하다.후방 예측 분포 기사에서 설명한 바와 같이 후방 예측 확률 공식은 후방 분포와 관련하여 취해진 기대치의 형태를 가진다.
위의 중요한 행은 세 번째입니다.두 번째는 기대치의 정의에서 직접 나온 것이다.세 번째 줄은 범주형 분포에 고유하며, 범주형 분포에서 특정 값 i를 보는 기대값이 관련 모수i p에 의해 직접 지정된다는 사실에서 비롯됩니다.네 번째 줄은 단순히 모수의 후방 분포와 관련하여 취해진 기대에 대해 더 높은 표기를 사용하여 세 번째 표기를 다른 표기로 다시 쓰는 것이다.
데이터 지점을 하나씩 관찰하고 매번 데이터 지점을 관찰하고 업데이트하기 전에 예측 확률을 고려하십시오.주어진 데이터 점에 대해 주어진 범주를 가정하는 해당 점의 확률은 해당 범주에 이미 있는 데이터 점의 수에 따라 달라집니다.이 시나리오에서는 카테고리의 발생 빈도가 높은 경우 새로운 데이터 포인트가 그 카테고리에 가입할 가능성이 높아져 같은 카테고리가 더욱 강화됩니다.이런 유형의 시나리오는 종종 선호 애착 모델(또는 "부익부익부")이라고 불립니다.이는 많은 실제 프로세스를 모델링하며, 이러한 경우 처음 몇 개의 데이터 포인트에 의해 이루어진 선택은 나머지 데이터 포인트에 큰 영향을 미칩니다.
후방 조건부 분포
Gibbs 샘플링에서는 일반적으로 각 변수가 다른 모든 변수에서 조건화된 다변수 Bayes 네트워크의 조건부 분포에서 도출할 필요가 있다.Dirichlet prior(예: 혼합물 구성 요소를 포함한 혼합 모델 및 모델)를 가진 범주형 변수를 포함하는 네트워크에서, Dirichlet 분포는 종종 네트워크에서 "collaps out"(마지노선화됨)되며, 이는 주어진 사전(구체적으로 그들의 공동 분포)에 의존하는 다양한 범주형 노드 간의 의존성을 도입한다.디리클레 다항 분포)입니다.이렇게 하는 이유 중 하나는 이러한 경우에 주어진 다른 범주형 노드의 분포가 정확히 나머지 노드의 후방 예측 분포이기 때문이다.
즉, 노드 X\의 경우 해당 노드가 으로 되고 나머지가 X로 되는 경우
서 ci( -) { c { }^{ ( - ) }는 노드n 이외의 노드 중 카테고리i 를 가지는 노드의 수입니다.
샘플링
여러 가지 방법이 있지만 범주형 분포에서 표본을 추출하는 가장 일반적인 방법은 역변환 표본 추출 유형을 사용합니다.
분포가 알 수 없는 정규화 상수를 갖는 "비례" 식으로 표현된다고 가정합니다.샘플을 채취하기 전에 다음과 같은 값을 준비합니다.
- 각 범주에 대한 분포의 정규화되지 않은 값을 계산합니다.
- 이들을 합산하고 각 값을 이 합으로 나누어 정규화한다.
- 카테고리에 일종의 순서를 부여한다(예를 들어 1에서 k까지의 인덱스에 의해, 여기서 k는 카테고리의 수).
- 각 값을 이전 모든 값의 합으로 대체하여 누적분포함수(CDF)로 변환합니다.이것은 O(k)시간 내에 실행할 수 있습니다.첫 번째 카테고리의 결과 값은 0이 됩니다.
그런 다음 값을 샘플링해야 합니다.
- 0과 1 사이에서 균등하게 분포된 숫자를 선택합니다.
- CDF에서 값이 방금 선택한 수보다 작거나 같은 가장 큰 수를 찾습니다.이 작업은 바이너리 검색을 통해 시간 O(log(k) 내에 수행할 수 있습니다.
- 이 CDF 값에 대응하는 카테고리를 반환합니다.
동일한 범주형 분포에서 많은 값을 끌어내야 하는 경우 다음 방법이 더 효율적입니다.이 값은 O(n) 시간 내에 n개의 표본을 그립니다(이항[6] 분포에서 값을 그리는 데 O(1) 근사치를 사용한다고 가정함).
function draw_piciical(n) // 여기서 n은 범주형 분포 r = 1 ~ k // 여기서 k는 이항(n, p[i] // 여기서 p[i]는 j ~ v[s+] 배열에 대한 범주 i의 확률입니다. 여기서 p[i]는 1 ~ v[s+] z///hich 결과는 n = n - v r = r - p[i] shuffle (순서 변경) z 반환 요소
Gumbel 분포를 통한 샘플링
기계학습에서는 으로 R k의 제약없는 표현을 통해 p1,…, k {\}}를 매개 변수화합니다.여기서 구성 요소는 다음과 같습니다.
서α(\는 실제 상수입니다. 표현을 통해 p , k 1},\는 softmax 함수를 사용하여 복구할 수 있습니다.이 함수는 위에서 설명한 기술을 사용하여 샘플링할 수 있습니다.그러나 Gumbel [7]분포의 표본을 사용하는 보다 직접적인 샘플링 방법이 있습니다.1, k { 를 표준 Gumbel 분포로부터 독립된 k 로 합니다.
원하는 범주형 분포의 표본이 됩니다.( ii})가 표준균등분포의 샘플인 - i)(\{i}=-\는 표준검벨분포의 샘플이다.)
「 」를 참조해 주세요.
관련 분포
메모들
- ^ 그러나 Bishop은 범주형 분포라는 용어를 명시적으로 사용하지 않습니다.
레퍼런스
- ^ 머피, K.P. (2012년)기계 학습: 확률론적 관점, 페이지 35. MIT 프레스. ISBN0262018020.
- ^ a b c d e f 밍카, T. (2003) 베이지안 추론, 엔트로피 및 다항 분포.테크니컬 리포트 Microsoft Research.
- ^ 밍카, T. (2003), op. cit.밍카는 Iverson 괄호와 비슷하지만 일반적이지 않은 크로네커 델타 함수를 사용합니다.
- ^ a b Bishop, C. (2006) 패턴 인식 및 머신 러닝, 스프링어.ISBN 0-387-31073-8.
- ^ Johnson, N.L., Kotz, S., Balakrishnan, N. (1997년) 이산 다변량 분포, Wiley.ISBN 0-471-12844-9 (105페이지)
- ^ Agresti, A., Wiley-Intercience, 2007, ISBN 978-0-471-22618-5, 25페이지
- ^ Adams, Ryan. "The Gumbel–Max Trick for Discrete Distributions".