일반화된 디리클레 분포

통계학에서 일반화된 디리클레 분포(GD)는 더 일반적인 공분산 구조와 모수의 거의 두 배의 숫자를 가진 디리클레 분포의 일반화입니다.GD 분포를 갖는 랜덤 벡터는 완전히 ^[1]중립입니다.

$p_{1},\ldots ,p_{k-1}$ 1 $p_{1},\ldots ,p_{k-1}$ $p_{1},\ldots ,p_{k-1}$ $p_{1},\ldots ,p_{k-1}$ - $p_{1},\ldots ,p_{k-1}$ $p_$ 의 $p_{1},\ldots ,p_{{k-1}}$ 밀도 함수는

\left[\sum _{j=1}^{k-1}B(a_{i},b_{i})\right]^{-1}p_{k}^{b_{k-1}-1}\prod_{i=1}^{k-1}\left[p_{i}^{i}^{a_{i}\left(\sum_j=i}^{j\right){b}{b_{i}{i}{i}{i}{i}{i}{i}{i}{i}{i}{i

여기서 p ${\textstyle p_{k}=1-\sum _{i=1}^{k-1}p_{i}}$ ${\textstyle p_{k}=1-\sum _{i=1}^{k-1}p_{i}}$ - ${\textstyle p_{k}=1-\sum _{i=1}^{k-1}p_{i}}$ i = ${\textstyle p_{k}=1-\sum _{i=1}^{k-1}p_{i}}$ k - ${\textstyle p_{k}=1-\sum _{i=1}^{k-1}p_{i}}$ ({ $textstyle p_{k$ }= $1-\sum$ _{i $=1}^{k-1}p_{i$ 를 ${\textstyle p_{k}=1-\sum _{i=1}^{k-1}p_{i}}$ 합니다. $B(x,y)$ 서 $B(x,y)$ B ( $B(x,y)$ ) B $(x, y$ )는 $B(x,y)$ 베타 함수를 나타냅니다.이는 $2\leqslant i\leqslant k-1$ - $\leqslanti\$ leqslanti\ $leqslant k-1$ ( $2\leqslant i\leqslant k-1$ $b_{0}$ $0b_{0}$ 은 $b_{0}$ 임의)에 대해 $b_{i-1}=a_{i}+b_{i}$ - $b_{i-1}=a_{i}+b_{i}$ $2\leqslant i\leqslant k-1$ $b_{i-1}=a_{i}+b_{i}$ + $bb_$ }= $a_{i}+b_{i}$ 인 $b_{{i-1}}=a_{i}+b_{i}$ $b_{i-1}=a_{i}+b_{i}$ 표준 디리클레 분포로 감소합니다.

예를 들어, k=4라면, $p_{1},p_{2},p_{3}$ $p_{1},p_{2},p_{3}$ $p_{1},p_{2},p_{3}$ $p_$ 의 $p_{1},p_{2},p_{3}$ $p_{1},p_{2},p_{3}$ 함수는

\left[\cisco _{i=1}^{3}B(a_{i},b_{i})\right]^{-1}p_{2}^{a_{2}-1}p_{3}-1}p_{4}^{b_{3}-1}\left(p_{2}+p_{3}p_{4}p_{4}+p_{4}p_{4}p_{4}p_{4.}\right)^{b_{1}-\left(a_{2}+b_{2)}\right)}\left(p_{3}+p_{4}}\right)^{b_{2}-\left(a_{3}+b_{3)}\right)}

$p_{1}+p_{2}+p_{3}<1$ 서 $p_{1}+p_{2}+p_{3}<1$ 1 + $p_{1}+p_{2}+p_{3}<1$ + $p_{1}+p_{2}+p_{3}<1$ $p_{1}+p_{2}+p_{3}<1$ < $p_{1}+p_{2}+p_{3}<1$ $p_{1}$ + $p_{2}$ + $p_{3}$ < $1$ 및 $p_{1}+p_{2}+p_{3}<1$ $p_{4}=1-p_{1}-p_{2}-p_{3}$ $p_{4}=1-p_{1}-p_{2}-p_{3}$ $=$ 1 - $p_{4}=1-p_{1}-p_{2}-p_{3}$ - $p_{4}=1-p_{1}-p_{2}-p_{3}$ 2 $p_{4}=1-p_{1}-p_{2}-p_{3}$ - $p_{4}=1-p_{1}-p_{2}-p_{3}$ 3 $p_$ } = $1-p_{1}-p_{2}-p_{3$

코너와 모시만은 다음과 같은 이유로 PDF를 정의합니다.무작위 변수 z 1, …, z k - 1 z_{1},\ldots,z_{k-1}을 정의합니다. z 1 = p 2 / (1 - (p 1 + p 2 ), z 3 = p 3 / (1 - (p 1 + p 2 ), z = p / (1 - (p 1 + p + p 1 ), z = p 1 (p 1 + p - 1 ), z _ left _ 2 _ = {p 1 (p - p - (p 1 ) \ p - (p - p - p - p - p - p - p - p - p - p - p - 1, $z_{i}=p_{i}/\left(1-\left(p_{1}+\cdots +p_{i-1}\right)\right$ $p_{1},\ldots ,p_{k}$ 다음 $p_{1},\ldots ,p_{k}$ $p_{1},\ldots ,p_{k}$ $p_{1},\ldots ,p_{k}$ $p_$ 는 $p_{1},\ldots ,p_{k}$ $z_{i$ $}$ 가 $z_{i}$ 매개 변수 $a_{i},b_{i}$ $bia_$ }, $b_{i$ $=$ $i=1,\ldots ,k-1$ …, $i=1,\ldots ,k-1$ - $i=1,\ldots ,k-1$ i = $1,\ldots,k-1$ 을 갖는 독립적인 베타인 경우 위의 매개 변수화된 대로 일반화된 디리클레 분포를 가집니다.

웡이 준 대체 양식

Wong은^[2] x $x_{1}+\cdots +x_{k}\leq 1$ + $x_{1}+\cdots +x_{k}\leq 1$ + $x_{1}+\cdots +x_{k}\leq 1$ $x_{1}+\cdots +x_{k}\leq 1$ ≤ $x_{1}+\cdots +x_{k}\leq 1$ ({ $displaystyle x_$ {1} +\ $cdots +x_{k}\leq$ 1 $)$ 에 $x_{1}+\cdots +x_{k}\leq 1$ 약간 더 간결한 형태를 제공합니다.

\displaystyle \displaystyle \displaystyle _{i=1}^{k}{\frac {x_{i}^{\alpha_{i}-\cdots -x_{i}\right)^{B(\alpha_{i},\cdots _{i}}{B(\alpha_{i})}}}}

여기서 γ j = β j - α j + 1 - β j + 1 \lamma _{j}=\lamma _{j}-\alpha _{j+1}-\lamma _{j+1}은 1 ≤ j ≤ k - 1 \leq j \leq k-1 및 γ k gamma k = \lamma _{k} k ∑ k에 대한 분포를 정의합니다온노르와 모시만은 $k-1$ $k-1$ ${\textstyle x_{k}=1-\sum _{i=1}^{k-1}x_{i}}$ 1 ${\textstyle x_{k}=1-\sum _{i=1}^{k-1}x_{i}}$ - ∑ ${\textstyle x_{k}=1-\sum _{i=1}^{k-1}x_{i}}$ $=$ ${\textstyle x_{k}=1-\sum _{i=1}^{k-1}x_{i}}$ - ${\textstyle x_{k}=1-\sum _{i=1}^{k-1}x_{i}}$ ${\textstyle x_{k}=1-\sum _{i=1}^{k-1}x_{i}}$ $i$ \{ ${\textstyle x_{k}=1-\sum _{i=1}^{k-1}x_{i}}$ $x_{k$ }= $1-\sum$ _ ${i=1}^{k-1}x_{i$ 인 $k-1$ k - 1 k-1 $공간$ 을 $k-1$ 사용합니다.

일반 모멘트 함수

$X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ $=$ ( $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ …, $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ ~ $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ k ( $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ …, $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ $X=\left(X_{1},\ldots ,X_{k}\right)\sim GD_{k}\left(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k}\right)$ =\ $left(X_{1},\ldots, X_{k}\right)\sim GD_{k}\left(\alpha_{1},\alpha_{k};\ldots,\{k},\right$

E\left[X_{1}^{r_{1}}X_{2}^{r_{2}}\cdotsX_{k}\right]=\prod_{j=1}^{k}{\frac \Gamma \left(\alpha_{j}+\cdots_{j}\right)\Gamma \left(\alpha_{j}+r_{j}\right)\Gamma \left(\beta _{j}+\delta _{j}\right)}{\Gamma \left(\alpha _{j}\right)\Gamma \left(\beta_{j}\right)\Gamma \left(\alpha _{j}+\beta _{j}+r_{j}+\delta _{j}\right)}}

여기서 $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ $j=1,2,\cdots ,k-1$ $\delta _{k}=0$ $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ 2 $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ $j=1,2,\cdots ,k-1$ $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ k - 1 j $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ + $1$ + $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ + $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ + $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ + $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ k \ $\delta _{k}=0$ $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ _ {j} = $r_{j+$ 1} + $r_{j$ +2 $}$ +\cdots + $r_{$ k $\delta _{j}=r_{j+1}+r_{j+2}+\cdots +r_{k}$ }는 $j=1,2,\cdots ,k-1$ $=$ $j=1,2,\cdots ,k-1$ 2, $δ$ $j=1,2,\cdots ,k-1$ $j=1,2,\cdots ,k-1$ - 1 j = 1, 2, \ $cdots$ , k-1 $j=1,2,\cdots ,k-1$ , $k-1$ 및 $\delta _{k}=0$ k = 0 \ $cdots$ _{k} $\delta _{k}=0$ $0$ 입니다.

E\left(X_{j}\right)=nbfrac{alpha_{j}}{\alpha_{j}+\alpha_{j}}{m=1}^{j-1}{\frac{{m}}{\alpha_{m}+\alpha_{m}}}}.

표준 디리클레 분포로 감소

위에서 설명한 바와 $b_{i-1}=a_{i}+b_{i}$ , 2 $2\leq i\leq k$ ≤ $2\leq i\leq k$ $2\leq i\leq k$ {\ $displaystyle 2\leqi\$ leq $2\leq i\leq k$ k $b_{i-1}=a_{i}+b_{i}$ 에 대해 $b_{i-1}=a_{i}+b_{i}$ $b_{i-1}=a_{i}+b_{i}$ - $= a$ + $b$ b_{ $i}$ + $b_{i}$ 이면 $b_{{i-1}}=a_{i}+b_{i}$ 분포는 표준 디리클레로 감소합니다.이 조건은 일반화된 분포의 추가 모수를 0으로 설정하면 원래 분포가 발생하는 일반적인 경우와 다릅니다.그러나 GDD의 경우 매우 복잡한 밀도 함수를 생성합니다.

베이지안 분석

X = (X1, …, Xk ) ~ GD k (α1, …, αk; β1, …, βk) X=\left(X_{1},\ldots, X_{k}\right)\sim GD_{k}\sim GD_{k}\sim GD_{k}\left(\alpha_{1};\ldots,\ldots,\right),\ldots,\ldots,\ldots,\lots,\lots,\, $Y_{k}\right).$ $X|Y$ $1\leq j\leq k$ ≤ $1\leq j\leq k$ $1\leq j\leq k$ $1\leq j\leq k$ \ \ $displaystyle 1$ \ $leq j$ \ ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ k $1\leq j\leq k$ ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ - ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ ∑ ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ $=$ ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ i \ $textstyle y$ _ { k + $1$ = ${\textstyle y_{k+1}=n-\sum _{i=1}^{k}y_{i}}$ - \ $sum$ _ { $i$ = $1$ }^ { $k$ } $y$ X $Y$ 의 $X|Y$ $X|Y$ 후부에 $1\leq j\leq k$ Y j = $y$ j $Y_$ { j Y_{ j} = $y_y_y$ { $j$ $}$ 는 $Y_{j}=y_{j}$ 일반화된 디리클렛 분포입니다.

\"표시 스타일 X\mid Y\sim GD_{k}\left({\alpha '}_{1},\ldots,{\alpha '}_{k};{\beta '}_{1},\ldots,{\beta '}_{k}\right)}

${\alpha '}_{j}=\alpha _{j}+y_{j}$ 서 $1\leqslant k.$ ${\alpha '}_{j}=\alpha _{j}+y_{j}$ ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ $α$ $1\leqslant k.$ + ${\alpha '}_{j}=\alpha _{j}+y_{j}$ j ({alpha $'_{j$ }=\ $alpha$ _{ $j$ } + $y_{j$ }) ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ β ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ j + ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ i $=$ + ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ + ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ i ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ { $j}$ = \ $la$ _ ${j}$ + { $i = j$ + $1}^{k$ + $1$ $}$ $y$ { $1\leqslant k.$ ${\beta '}_{j}=\beta _{j}+\sum _{i=j+1}^{k+1}y_{i}$ $qlant$ k $1\leqslant k.$ quant k $1\leqslant k.$ }.

샘플링 실험

Wong은 디리클레 분포와 일반화된 디리클레 분포가 어떻게 다른지에 대한 예로 다음 시스템을 제공합니다.그는 큰 항아리에 k $k+1$ + $k+1$ k + $1$ 다른 $k+1$ 색의 공이 $k+1$ 있다고 가정합니다.각 색상의 비율은 알 수 없습니다.항아리에 $색상$ $jj$ 가 $j$ 있는 볼의 비율을 X $=$ ( $X=(X_{1},\ldots ,X_{k})$ , $X=(X_{1},\ldots ,X_{k})$ … , $X=(X_{1},\ldots ,X_{k})$ k ) X=( $X_{1},\ldots,X_{k})$ 라고 $X=(X_{1},\ldots ,X_{k})$ $X=(X_{1},\ldots ,X_{k})$ .

실험 1.분석가 $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ 은 $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ X ~ $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ 1 $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ k, $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ k + $X\sim D(\alpha _{1},\ldots ,\alpha _{k},\alpha _{k+1})$ $\sim$ D $(\alpha$ _ ${1},\ldots,\alpha$ _{ $k},\alpha$ _{ $k+1})($ $즉$ , X는 $X$ $\alpha _{i}$ $\alpha _{i}$ i \ $alpha$ _{ $i}$ 를 갖는 디리클렛입니다.그런 다음 분석가는 $k+1$ k + $k+1$ + $1$ 유리 $k+1$ 상자를 $k+1$ $\alpha _{i}$ i \ $alpha$ _ ${i}$ 개의 $\alpha _{i}$ $색상$ $ii$ 대리석을 $상자$ $i$ 에 $\alpha _{i}$ ( $\alpha _{i}$ i \ $alpha$ _ ${i}$ 는 $\alpha _{i}$ 정수 $\geq 1$ 1 \ $geq$ $\geq 1$ 1이라고 가정합니다).그런 다음 분석가 1이 항아리에서 공을 꺼내 색상(예: $color$ $jj$ 을 관찰한 $후$ $상자$ jj에 넣습니다. 상자가 투명하고 안에 있는 구슬의 색상이 보이기 때문에 올바른 상자를 식별할 수 있습니다.이 $과정$ 은 $n$ n개의 공이 그려질 $n$ 까지 계속됩니다.그런 다음 사후 분포는 각 상자의 구슬 수가 모수인 디리클레입니다.

실험 2.분석가 2는 $X$ X가 $X$ 일반화된 디리클레 분포를 따른다고 $믿습니다$ : $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ ~ $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ ( $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ 1 $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ …, $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ ; $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ 1 $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ …, $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ k ) $\sim$ GD $(\alpha$ _ { $1},\alpha$ _ { $k};\beta$ _ { $1},\ldots,\beta _$ k $X\sim GD(\alpha _{1},\ldots ,\alpha _{k};\beta _{1},\ldots ,\beta _{k})$ 모든 매개 변수는 다시 양의 정수로 가정됩니다.분석가는 k $k+1$ + $k+1$ k + $1$ 나무 $k+1$ 상자를 $k+1$ .그 상자들은 두 개의 영역을 가지고 있습니다: 하나는 공을 위한 것이고 다른 하나는 구슬을 위한 것입니다.공은 색을 띠지만 구슬은 색을 띠지 않습니다.그런 다음 j $=$ $j=1,\ldots ,k$ $j=1,\ldots ,k$ k j = $1,\ldots,$ 에 $j=1,\ldots ,k$ , 그는 $\alpha _{j}$ j \ $alpha$ _ ${j}$ $j$ 의 $\alpha _{j}$ 색 j $j$ j $j$ $\beta _{j}$ β $j$ \ $alpha$ _ ${j}$ 개의 $\beta _{j}$ $k+1$ 을 $상자$ j $j$ j에 넣습니다. 그는 상자 $k+1$ $k+1$ + $k+1$ $k+1$ + $k+1$ k + $1$ k + $k+1$ 1그런 다음 분석가가 항아리에서 공을 꺼냅니다.상자가 나무이기 때문에 분석가는 어떤 상자에 공을 넣어야 할지 알 수 없습니다(위의 실험 1에서와 같이). 또한 기억력이 좋지 않고 어떤 상자에 어떤 색의 공이 들어 있는지 기억할 수 없습니다.그는 공을 넣을 수 있는 정확한 상자를 찾아야 합니다.그는 1번 박스를 열고 그 안에 있는 공들을 드로잉된 공과 비교함으로써 이것을 합니다.색상이 다르면 상자가 잘못된 것입니다.분석가는 상자 1에 대리석(sic)을 넣고 상자 2로 진행합니다.그는 상자 안의 공이 그려진 공과 일치할 때까지 이 과정을 반복하고, 그 시점에서 상자 안의 공(sic)을 일치하는 다른 색의 공과 함께 넣습니다.그런 다음 분석가는 항아리에서 다른 공을 뽑고 $n개$ 의 $n$ 공이 그려질 $n$ 까지 반복합니다.그런 다음 사후는 각 상자에서 매개 $\alpha$ $α$ \alpha가 $\alpha$ 공의 $\beta$ β \ $beta$ 가 $\beta$ 구슬의 수인 일반화된 디리클레입니다.

실험 2에서는 실험 1과 달리 상자의 순서를 변경하면 사소한 효과가 발생합니다.

참고 항목

레퍼런스

^ R. J. 코너와 J. E. 모시만 1969.디리클레 분포를 일반화한 비율에 대한 독립성 개념.미국 통계학회지, 제64권, 194~206페이지
^ T.T. Wong 1998.베이지안 분석에서 일반화된 디리클레 분포.응용수학과 계산, 권97, 165-181

[1] R. J. 코너와 J. E. 모시만 1969.디리클레 분포를 일반화한 비율에 대한 독립성 개념.미국 통계학회지, 제64권, 194~206페이지

[2] T.T. Wong 1998.베이지안 분석에서 일반화된 디리클레 분포.응용수학과 계산, 권97, 165-181

[1]

[2]

Search