계층적 디리클레 프로세스

Hierarchical Dirichlet process

통계학기계학습에서 계층적 디리클레 프로세스(HDP)는 그룹화된 데이터를 클러스터링하는 비모수적 베이지안 접근방식이다.[1][2]그것은 각 데이터 그룹에 대해 디리클레 프로세스를 사용하며, 모든 그룹에 대한 디리클레 프로세스가 디리클레 프로세스에서 자체로 추출한 기본 분포를 공유한다.이 방법은 그룹 간 클러스터 공유를 통해 그룹이 통계적 강도를 공유할 수 있도록 한다.디리클레 공정에서 끌어오는 염기 분포는 중요한데, 왜냐하면 디리클레 공정에서 끌어오는 것은 원자 확률 측정이며, 원자는 모든 집단 수준 디리클레 공정에서 나타날 것이기 때문이다.각 원자는 군집에 해당하므로 군집은 모든 그룹에서 공유된다.Yee Whye Teh, Michael I. Jordan, Matthew J. Beal, David Blei가 2002년에 발행한 무한히 숨겨진 마르코프 모델의 공식화 및 일반화로 2006년 미국통계협회 저널에 게재되었다.[1][3]

모델

이 모델 설명서는 원본에서 가져온 것이다.[1]HDP는 그룹화된 데이터의 모델이다.이것이 의미하는 것은 데이터 항목이 여러 개의 구별되는 그룹으로 이루어진다는 것이다.예를 들어, 주제에서 모델 단어는 문서로 구성되며, 각 문서는 단어(데이터 항목)의 가방(그룹)으로 구성된다.= ,. , 별 인덱싱 그룹 각 그룹이 데이터 항목 ,.. . j 로 구성된다고 가정해 보십시오.

HDP는 데이터 항목에 대한 사전 분포를 관리하는 기본 분포 H과(와) 사전 분포의 수와 그룹 간 공유량을 결정하는 여러 가지 농도 매개 변수에 의해 파라미터화된다. th 그룹은 Dirichlet 프로세스에 의해 주어진 분포를 갖는 랜덤 확률 측정 과(와) 연관되어 있다.

여기서 그룹과 연관된 농도 매개변수이고, G {\ 모든 그룹에서 공유하는 염기 분포다.즉, 공통 베이스 분포는 다음과 같이 분포된 디리클레 공정이다.

농도 매개 변수 0 (와) 기본 분포 를) 사용하여 마지막으로 각 데이터 항목 x 을(를) 잠재적 매개 변수 relate 와 연관시킨다

첫 번째 줄은 각 j 에 의해 주어진 사전 분포를 가지고 있다고 말하고 두 번째 줄은 각 데이터 항목에 연관된 파라미터에 의해 파라미터화된 분포 ( 를 가지고 있다고 기술한다.위의 결과 모델을 HDP 혼합물 모델이라고 하며, HDP는 계층적으로 연결된 Dirichlet 프로세스 세트를 참조하고, 혼합물 모델은 Dirichlet 프로세스와 데이터 항목과 관련된 방법을 참조한다.

HDP가 클러스터링 모델을 어떻게 구현하고 클러스터가 그룹 간에 어떻게 공유되는지를 이해하기 위해 Diriclet 프로세스에서 도출하는 호출은 확률 1을 갖는 원자 확률 측정이다.이는 공통 베이스 분포 G 에 다음과 같이 기록할 수 있는 형식이 있음을 의미한다.

여기서 원자는 무한히 많으며 k= ,,.. 이며 전체 기저 H{\ 무한히 지원된다고 가정한다.각 원자는 질량 k 과(와) 연관되어 있다 이 확률 측정이므로 질량은 1로 합해야 한다. 그 자체가 그룹별 Diriclet 프로세스의 기본 분포이므로, 각 G 은(는) G_}의 원자에 의해 주어지는 원자를 가지며 그 자체가 다음과 같은 형태로 작성될 수 있다.

따라서 원자의 집합은 모든 그룹에 걸쳐 공유되며, 각 그룹은 고유한 그룹별 원자 질량을 가진다.이러한 표현을 관측된 데이터와 다시 연관시키면 각 데이터 항목이 혼합물 모델에 의해 설명된다는 것을 알 수 있다.

여기서 원자 는 혼합물 성분 매개변수의 역할을 하고, 질량 은 혼합 비율의 역할을 한다.결론적으로, 각 데이터 그룹은 혼합물 모델을 사용하여 모델링되며 혼합물 성분은 모든 그룹에서 공유되지만 혼합 비율은 그룹별로 다르다.군집화 용어에서, 우리는 각 혼합물 구성요소를 모든 그룹에 걸쳐 공유된 군집과 각 그룹이 서로 다른 군집들의 조합으로 구성된 고유한 혼합 비율을 갖는 데이터 항목의 군집화를 모델링하는 것으로 해석할 수 있다.

적용들

HDP 혼합물 모델은 잠복 디리클레 할당에 대한 자연 비모수 일반화로서, 주제 수는 한없이 제한되고 데이터로부터 배울 수 있다.[1]여기서 각 그룹은 낱말 한 봉지로 구성된 문서로, 각 클러스터는 주제, 각 문서는 주제의 혼합물이다.HDP는 또한 무한히 숨겨진 마르코프 모델의 핵심 구성요소로서,[3] 주 수가 무한히 제한되지 않고 데이터로부터 학습할 수 있도록 하는 숨겨진 마르코프 모델의 비모수적인 일반화다.[1][4]

일반화

HDP는 여러 방향으로 일반화될 수 있다.디리클레 프로세스는 Pitman-Yor 프로세스감마 프로세스로 대체될 수 있으며, 이로 인해 계층적 Pitman-Yor 프로세스와 계층적 감마 프로세스가 발생한다.계층은 한 계층에 여러 수준의 그룹이 배열되어 있어 더 깊을 수 있다.이러한 배열은 Pitman-Yor 프로세스의 다단계 계층 구조를 갖는 시퀀스에 대한 베이시안 비모수 모델인 시퀀스 메모라이저에서 이용되었다.또한 BMDL(Bayesian Multi-Domain Learning) 모델은 특정 암 유형에 대한 표본 수가 적더라도 정확한 암 하위 유형을 위한 계층적 음이항 인자화에 기반한 과분산 계수 데이터의 도메인 의존적 잠재표현을 도출한다.[5]

참고 항목

참조

  1. ^ a b c d e Teh, Y. W.; Jordan, M. I.; Beal, M. J.; Blei, D. M. (2006). "Hierarchical Dirichlet Processes" (PDF). Journal of the American Statistical Association. 101 (476): pp. 1566–1581. CiteSeerX 10.1.1.5.9094. doi:10.1198/016214506000000302.
  2. ^ Teh, Y. W.; Jordan, M. I. (2010). Hierarchical Bayesian Nonparametric Models with Applications (PDF). Bayesian Nonparametrics. Cambridge University Press. pp. 158–207. CiteSeerX 10.1.1.157.9451. doi:10.1017/CBO9780511802478.006. ISBN 9780511802478.
  3. ^ a b Beal, M.J., Ghahramani, Z.와 Rasmussen, C.E. (2002)"무한히 숨겨진 마르코프 모델"(PDF).신경 정보 처리 시스템의 발전 14:577–585.케임브리지, MA: MIT 프레스.
  4. ^ 폭스, 에밀리 B 등"스피커 디아라이징 적용이 가능한 끈적끈적한 HDP-HM"적용통계연보(2011): 1020-1056.
  5. ^ 하지라메자날리, E. & 다다데네, S. Z. & 카르발레이가레, A. & Zou, Z.& Qian, X. "차세대 시퀀싱 카운트 데이터에서 서브타입 발견을 위한 베이시안 멀티 도메인 학습"(PDF). 제32차 신경정보처리시스템 회의(NIPS 2018), 캐나다 몬트레알.