통계에서 그룹화된 디리클레 분포(GDD)는 디리클레 분포의 다변량 일반화(Ng et al. 2008)에 의해 처음 설명되었다.[1]그룹화된 디리클레 분포는 일부 관측치가 다른 '크리스프' 범주의 집합에 속할 수 있는 범주형 데이터의 분석에서 발생한다.예를 들어, 두 가지 다른 조건에서 사례와 대조군으로 구성된 데이터 세트를 가질 수 있다.완전한 데이터로 질병 상태의 교차 분류는 세포 확률을 가진 2(사례/통제)-x-(조건/조건 없음) 표를 형성한다.
| 치료 | 치료 금지 |
컨트롤 | θ1 | θ2 |
경우들 | θ3 | θ4 |
그러나 데이터에 통제나 사례로 알려진 비응답자가 포함된 경우 질병 상태의 교차 분류는 2-x-3 표를 형성한다.마지막 열의 확률은 각 행의 처음 두 열의 확률을 합한 것이다. 예를 들어,
| 치료 | 치료 금지 | 실종 |
컨트롤 | θ1 | θ2 | θ1+θ2 |
경우들 | θ3 | θ4 | θ3+θ4 |
GDD는 그러한 집적 조건에서 세포 확률을 완전히 추정할 수 있도록 한다.[1]
확률 분포
Consider the closed simplex set
and
. Writing
for the first
elements of a member of
두 파티션에
x 의 분포에 다음이 제공하는 밀도 함수가 있음

서 B () 는
다변량 베타 함수다.
Ng 외.[1]는 계속해서
- {의 밀도로 그룹화된 Diriclet 분포를 정의했다.

where
is a vector of integers with
.정규화 상수는 다음과 같다.

저자들은 의학의 세 가지 다른 적용의 맥락에서 이러한 분포를 계속 사용하였다.
참조
- ^ a b c Ng, Kai Wang (2008). "Grouped Dirichlet distribution: A new tool for incomplete categorical data analysis". Journal of Multivariate Analysis. 99: 490–509.