그룹화된 디리클레 분포

Grouped Dirichlet distribution

통계에서 그룹화된 디리클레 분포(GDD)는 디리클레 분포의 다변량 일반화(Ng et al. 2008)에 의해 처음 설명되었다.[1]그룹화된 디리클레 분포는 일부 관측치가 다른 '크리스프' 범주의 집합에 속할 수 있는 범주형 데이터의 분석에서 발생한다.예를 들어, 두 가지 다른 조건에서 사례와 대조군으로 구성된 데이터 세트를 가질 수 있다.완전한 데이터로 질병 상태의 교차 분류는 세포 확률을 가진 2(사례/통제)-x-(조건/조건 없음) 표를 형성한다.

치료 치료 금지
컨트롤 θ1 θ2
경우들 θ3 θ4

그러나 데이터에 통제나 사례로 알려진 비응답자가 포함된 경우 질병 상태의 교차 분류는 2-x-3 표를 형성한다.마지막 열의 확률은 각 행의 처음 두 열의 확률을 합한 것이다. 예를 들어,

치료 치료 금지 실종
컨트롤 θ1 θ2 θ12
경우들 θ3 θ4 θ34

GDD는 그러한 집적 조건에서 세포 확률을 완전히 추정할 수 있도록 한다.[1]

확률 분포

Consider the closed simplex set and . Writing for the first elements of a member of 두 파티션에 x 의 분포에 다음이 제공하는 밀도 함수가 있음

서 B () 다변량 베타 함수다.

Ng 외.[1]는 계속해서 - {밀도로 그룹화된 Diriclet 분포를 정의했다.

where is a vector of integers with .정규화 상수는 다음과 같다.

저자들은 의학의 세 가지 다른 적용의 맥락에서 이러한 분포를 계속 사용하였다.

참조

  1. ^ a b c Ng, Kai Wang (2008). "Grouped Dirichlet distribution: A new tool for incomplete categorical data analysis". Journal of Multivariate Analysis. 99: 490–509.