혼합 모형

Mixture model

통계에서 혼합물 모형은 관측된 데이터 집합이 개별 관측치가 속하는 하위 집단을 식별하도록 요구하지 않고 전체 모집단 내에서 하위 집단의 존재를 나타내기 위한 확률론적 모델이다. 공식적으로 혼합물 모형은 전체 모집단에서 관측치의 확률 분포를 나타내는 혼합물 분포에 해당한다. 그러나 "혼합물 분포"와 관련된 문제는 하위 모집단의 특성으로부터 전체 모집단의 특성을 도출하는 것과 관련이 있지만, "혼합물 모델"은 하위 모집단 정체성 정보 없이 풀링된 모집단에 대한 관측만 주어진 하위 모집단의 특성에 대한 통계적 추론을 하는 데 사용된다.티온

혼합물모델은합성 데이터 모델, 즉 성분이 상수 값(1100%등)으로 합치도록 제약된 데이터와 혼동해서는 안 된다. 그러나 합성 모델은 모집단의 구성원이 무작위로 표본 추출되는 혼합물 모델이라고 생각할 수 있다. 반대로 혼합물 모델은 총 크기 판독 모집단이 1로 정규화된 구성 모델이라고 생각할 수 있다.

구조

일반 혼합물 모형

전형적인 유한차원 혼합물 모델은 다음과 같은 성분으로 구성된 계층적 모델이다.

  • 각각 K 성분의 혼합물에 따라 분포하는 관측된 N개의 랜덤 변수, 동일한 모수 분포 계열(예: 모든 정규 분포, 모든 Zipfian 등)에 속하지만 다른 모수를 갖는 성분
  • K-차원 범주형 분포에 따라 분포된 각 관측치의 혼합물 성분의 정체성을 지정하는 N개의 랜덤 잠재 변수
  • K 혼합물 가중치 집합, 즉 합계가 1인 확률.
  • 각각 해당 혼합물 성분의 모수를 지정하는 K 모수의 집합. 많은 경우, 각 "변수"는 실제로 변수의 집합이다. 예를 들어 혼합물 성분이 가우스 분포인 경우 각 성분에 대해 평균분산이 있을 것이다. 혼합물 성분이 범주형 분포인 경우(예: 각 관측치가 크기 V의 유한한 알파벳에서 가져온 토큰인 경우), V 확률의 벡터가 1에 합산된다.

또한 베이지안 설정에서 혼합물 가중치와 모수는 그 자체가 랜덤 변수가 되며, 이전 분포는 변수 위에 배치된다. 이러한 경우 가중치는 일반적으로 디리클레 분포(정형 분포 이전의 결합)에서 도출된 K차원 랜덤 벡터로 간주되며, 매개변수는 각각의 결합 전율에 따라 분포한다.

수학적으로 기본적인 모수 혼합물 모델은 다음과 같이 설명할 수 있다.

베이지안 설정에서 모든 파라미터는 다음과 같이 랜덤 변수와 연관된다.

이 특성화는 FH를 사용하여 각각 관측치와 모수에 대한 임의 분포를 설명한다. 전형적으로 H는 F보다 이전의 결합이 될 것이다. F의 가장 일반적인 두 가지 선택은 가우스 아카 "정상"(실제 가치 관측치의 경우)과 범주형(이연성 관측치의 경우)이다. 혼합물 성분의 분포에 대한 다른 일반적인 가능성은 다음과 같다.

  • 이항 분포(예: 총 발생 횟수가 정해진 "긍정적 발생 횟수"(예: 성공, 예스 표 등)
  • 다항 분포(이항 분포와 유사하지만 다방향 발생 횟수에 대한 다항 분포(예: 조사에서 예/아니오/아마도)
  • 음의 이항 분포, 이항 유형 관측치에 대한 분포이지만 여기서 관심 있는 양은 지정된 성공 횟수가 발생하기 전의 실패 횟수
  • 포아송 분포(특정 기간 동안의 사건 발생 횟수)는 고정된 발생률로 특징지어지는 사건
  • 다음 사건이 발생하기 전 시간에 대한, 고정된 발생률로 특징지어지는 사건의 지수 분포
  • 로그 정규 분포, 소득 또는 가격과 같이 기하급수적으로 증가한다고 가정되는 양의 실수
  • 개별 가우스 분포인 상관된 결과 벡터에 대한 다변량 정규 분포(다변량 가우스 분포라고 함)
  • 다변량 학생의 t-분포, 꼬리가 굵은 상관관계[1] 결과 벡터용
  • 베르누이가 분배한 값의 벡터(예: 흑백 이미지에 해당하며 각 값은 픽셀을 나타냄). 아래의 필기 인식 예를 참조하십시오.

구체적인 예

가우스 혼합물 모형

플레이트 표기법을 사용한 비-베이시안 가우스 혼합물 모델 정사각형이 작을수록 고정된 모수를 나타내며, 원이 크면 랜덤 변수를 나타낸다. 채워진 모양은 알려진 값을 나타낸다. 표시 [K]는 크기 K의 벡터를 의미한다.

전형적인 비-베이시안 가우스 혼합물 모델은 다음과 같다.

플레이트 표기법을 사용한 베이시안 가우스 혼합물 모델 정사각형이 작을수록 고정된 모수를 나타내며, 원이 크면 랜덤 변수를 나타낸다. 채워진 모양은 알려진 값을 나타낸다. 표시 [K]는 크기 K의 벡터를 의미한다.

가우스 혼합물 모델의 베이지안 버전은 다음과 같다.

디리클레 공정에서 정규 분포를 추출하는 베이지안 가우스 혼합물 모델을 사용하여 1차원 데이터에 대한 군집화 공정의 애니메이션. 군집의 히스토그램은 다른 색상으로 표시된다. 모수 추정 프로세스 동안 데이터에서 새로운 클러스터가 생성되고 증가한다. 범례는 클러스터 색상과 각 클러스터에 할당된 데이터 포인트 수를 보여준다.

다변량 가우스 혼합물 모형

베이시안 가우스 혼합물 모델은 일반적으로 알 수 없는 모수(볼드체로 표시됨) 또는 다변량 정규 분포의 벡터에 적합하도록 확장된다. 다변량 분포(: x 에서는 가우스 혼합물 모델을 사용하여 모수 벡터(예: 이미지 내의 여러 신호 또는 패치의 관측치)를 모델링할 수 있다.

μ 나는{\displaystyle{\boldsymbol{\mu_{나는}Σ 나는}}{\displaystyle{\boldsymbol{\Sigma_{나는}은 어디ith 벡터 성분 정상적인 분포에 의해 추로 ϕ 나는}{\displaystyle \phi_{나는}다는}}}와 공분산 매트릭스}. 전은 mu 베이즈 평가 전에, 이 통합하는 것을 의미한다.그것은추정할 매개 변수 {\ 조건화된 x {\displaystyle 알려진 분포 p )로 iplayed. 이 공식으로 후분포 ( p{\ x도 형식의 가우스 혼합 모델이다.

새로운 매개변수 i~ , 를) EM 알고리즘을 사용하여 업데이트한 [2] 전자파 기반 매개변수 업데이트는 잘 확립되어 있지만, 이러한 매개변수에 대한 초기 추정치를 제공하는 것은 현재 활발한 연구 영역이다. 이 공식은 완전한 후방 분포에 폐쇄형 솔루션을 산출한다는 점에 유의하십시오. 랜덤 변수 의 추정치는 후분포의 평균 또는 최대값과 같은 여러 추정기 중 하나를 통해 구할 수 있다.

예를 들어 이러한 분포는 패치형 이미지 및 클러스터 형태를 가정하는 데 유용하다. 영상표현의 경우 공분산 행렬 Sigmbol{\에 따라 각 가우스 분포가 기울어지거나 확장되거나 휘어질 수 있다 세트의 가우스 분포는 영상의 각 패치(일반적으로 크기가 8x8픽셀)에 적합하다. 특히 클러스터 주위의 모든 점 분포(k-means 참조)는 가우스 성분은 정확하게 제공될 수 있지만, 주어진 영상 분포나 데이터 군집을 정확하게 모델링하기 위해서는 K=20 성분이 거의 필요하지 않다.

범주형 혼합물 모형

플레이트 표기법을 사용한 비-베이지안 범주형 혼합물 모델. 정사각형이 작을수록 고정된 모수를 나타내며, 원이 크면 랜덤 변수를 나타낸다. 채워진 모양은 알려진 값을 나타낸다. 표시 [K]는 [V]와 마찬가지로 K 크기의 벡터를 의미한다.

범주형 관측치가 있는 전형적인 비 베이지안 혼합물 모델은 다음과 같다.

  • , : 위와 같이
  • = ,: 위와 같이
  • = = … N: N N 위와 같다.
  • : 범주형 관측치의 V:}차원(예: 단어 크기
  • = = … V: V 관측 항목 에 대한 확률
  • = : V, , 1 1로 합해야 한다.

랜덤 변수:


판 표기법을 사용한 베이지안 범주형 혼합물 모델 정사각형이 작을수록 고정된 모수를 나타내며, 원이 크면 랜덤 변수를 나타낸다. 채워진 모양은 알려진 값을 나타낸다. 표시 [K]는 [V]와 마찬가지로 K 크기의 벡터를 의미한다.

범주형 관측치가 있는 전형적인 베이지안 혼합물 모형은 다음과 같다.

  • , : 위와 같이
  • = ,: 위와 같이
  • = = … N: N N 위와 같다.
  • : 범주형 관측치의 V:}차원(예: 단어 크기
  • = = … V: V 관측 항목 에 대한 확률
  • = : V, , 1 1로 합해야 한다.
  • : 에 대해 {\ 공유 농도 하이퍼 파라미터
  • : 의 농도 하이퍼 파라미터

랜덤 변수:


금융모형

정규 분포는 다른 평균과 분산을 사용하여 표시됨

금융수익은 보통 상황과 위기상황에서 다르게 행동하는 경우가 많다. 반환 데이터에 대한 혼합물 모형은[3] 타당해 보인다. 때때로 사용된 모델은 점프-확산 모델이거나 두 정규 분포를 혼합한 모델이다. 자세한 내용은 금융 경제#도전비판을 참조하십시오.

집값

우리가 N개의 다른 집들의 가격을 관찰한다고 가정하자. 동네마다 다른 유형의 주택은 가격이 크게 다르겠지만, 특정 동네의 특정 유형의 주택(예: 적당히 고급화된 동네의 방 3개짜리 주택)의 가격은 평균을 중심으로 상당히 밀접하게 군집하는 경향이 있을 것이다. 그러한 가격의 가능한 한 가지 모델은 K 서로 다른 구성요소를 가진 혼합물 모델에 의해 가격이 정확하게 설명되고, 각 구성요소는 알 수 없는 평균과 분산을 가진 정규 분포로 분포되며, 각 구성요소는 주택 유형/주변 조합의 특정 조합을 명시한다고 가정하는 것이다. 예를 들어 기대 최대화 알고리즘을 사용하여 이 모델을 관측된 가격에 맞추면 주택 유형/근처에 따라 가격을 클러스터링하고 각 유형/근처에 가격 스프레드를 나타내는 경향이 있다. (양성이 보장되고 기하급수적으로 증가하는 경향이 있는 가격이나 소득과 같은 값의 경우, 로그 정규 분포가 실제 정규 분포보다 더 나은 모형일 수 있다는 점에 유의하십시오.)

문서의 항목

문서가 크기 V의 총 어휘와 다른 N개의 단어로 구성되어 있다고 가정해 보십시오. 여기서 각 단어는 K 가능한 주제 중 하나에 해당된다. 그러한 단어의 분포는 K 서로 다른 V-차원 범주형 분포의 혼합으로 모델링될 수 있다. 이런 종류의 모델은 일반적으로 주제 모델이라고 불린다. 이러한 모델에 적용되는 기대 극대화는 일반적으로 과도한 매개변수때문에(다른 것들 중) 현실적인 결과를 도출하지 못할 것이라는 점에 유의하십시오. 좋은 결과를 얻기 위해서는 일반적으로 어떤 종류의 추가적인 가정이 필요하다. 일반적으로 두 종류의 추가 구성요소가 모델에 추가된다.

  1. 희박한 분포(소수의 단어만이 유의하게 0이 아닌 확률을 갖는 경우)를 장려하기 위해 1보다 유의하게 낮게 설정된 농도 매개변수사용하여 주제 분포를 설명하는 매개변수 위에 이전 분포를 배치한다.
  2. 자연 군집화를 이용하기 위해 단어들의 주제 정체성 위에 일종의 추가적인 제약이 있다.
  • 예를 들어, 마르코프 체인은 주제 정체성(즉, 각 관측치의 혼합 성분을 지정하는 잠재 변수)에 배치될 수 있으며, 이는 근처의 단어가 유사한 주제에 속한다는 사실에 해당된다. (이러한 결과로 숨겨진 마르코프 모델, 특히 동일한 상태에 머물러 있는 전환을 선호하는 상태 전환 위에 사전 배포가 배치되는 모델)
  • 또 다른 가능성은 잠재된 Dirichlet 할당 모델이다. 이 모델은 단어를 D의 다른 문서로 나누고 각 문서에서는 어떤 빈도와 함께 소수의 주제만 발생한다고 가정한다.

필기 인식

다음의 예는 크리스토퍼 M의 예에 근거한다. 비숍, 패턴 인식머신러닝.[4]

우리가 0~9사이에 손으로 쓴 숫자를 스캔한 것으로 알려진 N×N 흑백 이미지가 주어진다고 상상해보라, 그러나 우리는 어느 숫자가 쓰여져 있는지 모른다. = 개의 다른 성분으로 혼합 모델을 만들 수 있는데, 여기서 각 성분은 베르누이 분포 크기 2 N개 벡터(픽셀당 1개)이다. 이러한 모델은 라벨이 부착되지 않은 자리의 숫자 집합에서 기대치 최대화 알고리즘으로 훈련될 수 있으며, 쓰여지는 자수에 따라 영상을 효과적으로 클러스터링할 수 있다. 그런 다음 파라미터를 일정하게 유지하고, 가능한 각 자릿수에 대한 새 영상의 확률을 계산하고(사소한 계산), 가장 높은 확률을 생성한 숫자를 반환함으로써 동일한 모델을 사용하여 다른 영상의 자릿수를 인식할 수 있다.

발사체 정확도 평가(순환 오류 가능성, CEP)

혼합물 모델은 (공중, 육상 또는 해상 방어 애플리케이션에서와 같이) 표적에 여러 발사체를 지시하는 문제에 적용되며, 이 경우 발사체의 물리적 및/또는 통계적 특성이 복수의 발사체 내에서 다르다. 한 가지 목표를 향해 여러 종류의 탄약 또는 여러 위치에서 쏜 것이 그 예일 수 있다. 발사체 형식의 조합은 가우스 혼합 모델로 특징지어질 수 있다.[5] 또한, 발사체 그룹에 대해 잘 알려진 정확도의 척도는 평균적으로 발사체 그룹의 절반이 목표 지점 반경 R의 원 안에 들어가는 R숫자인 CEP이다. 혼합물 모델은 R 값을 결정하는 데 사용될 수 있다(또는 추정). 혼합물 모델은 다양한 유형의 발사체를 적절하게 캡처한다.

직접 및 간접 적용

위의 재무적 예는 혼합물 모델의 직접적인 적용으로, 각 관측치가 몇 가지 다른 출처 또는 범주 중 하나에 속하도록 기본적인 메커니즘을 가정하는 상황이다. 그러나 이러한 기본적인 메커니즘은 관찰할 수 있을 수도 있고 없을 수도 있다. 이러한 형태의 혼합물에서 각 선원은 성분 확률밀도함수로 설명되며, 혼합물의 무게는 관측치가 이 성분에서 나올 확률이다.

혼합물 모델을 간접적으로 적용할 때 우리는 그러한 메커니즘을 가정하지 않는다. 혼합물 모델은 단순히 수학적인 융통성을 위해 사용된다. 예를 들어 두 정규 분포를 서로 다른 평균으로 혼합하면 표준 모수 분포에 의해 모델링되지 않은 두 모드의 밀도가 발생할 수 있다. 또 다른 예는 기본 가우스 꼬리보다 더 뚱뚱한 꼬리를 모형화하는 혼합물 분포의 가능성에 의해 제시되며, 이는 더 극단적인 사건을 모형화하는 데 필요한 후보일 수 있다. 역동적인 일관성과 결합할 때, 이 접근법은 지역 변동성 모델의 맥락에서 변동성 미소와 함께 금융 파생상품 가치평가에 적용되었다. 이것은 우리의 적용을 규정한다.

예측 유지 관리

혼합물 모델 기반 클러스터링은 예측 유지 보수 시 기계 상태를 식별하는 데도 주로 사용된다. 밀도 그림은 고차원 형상의 밀도를 분석하는 데 사용된다. 다중 모델 밀도가 관찰되는 경우, 유한 집합의 정상 혼합물에 의해 유한 집합의 밀도가 형성되는 것으로 가정한다. 다변량 가우스 혼합물 모델은 형상 데이터를 k 그룹 수로 군집화하는 데 사용되며 k는 기계의 각 상태를 나타낸다. 기계 상태는 정상 상태, 전원 끄기 상태 또는 결함 상태일 수 있다.[6] 형성된 각 군집은 스펙트럼 분석과 같은 기법을 사용하여 진단할 수 있다. 최근 몇 년 동안, 이것은 초기 고장 감지 같은 다른 분야에서도 널리 사용되고 있다.[7]

퍼지 영상 분할

회색 히스토그램이 있는 영상 분할에서 가우스 혼합물의 예

이미지 처리와 컴퓨터 비전에서는 기존의 이미지 분할 모델이 하나의 픽셀에만 할당되는 경우가 많다. 퍼지 또는 부드러운 분할에서 어떤 패턴은 어떤 단일 픽셀에 대해서도 특정한 "소유"를 가질 수 있다. 패턴이 가우스인 경우 퍼지 분할은 자연스럽게 가우스 혼합물이 된다. 다른 분석 도구 또는 기하학적 도구(예: 확산 경계에 걸친 위상 전환)와 결합하면, 공간적으로 정규화된 혼합물 모델은 보다 현실적이고 계산적으로 효율적인 분할 방법을 이끌어낼 수 있다.[8]

포인트 세트 등록

가우스 혼합물 모델(GMM)과 같은 확률론적 혼합물 모델을 사용하여 이미지 처리 및 컴퓨터 비전 분야의 포인트 세트 등록 문제를 해결한다.의 점 집합 등록의 경우, 한 점 집합은 혼합물 모형의 중심점으로 간주되고, 다른 점 집합은 데이터 점(관찰)으로 간주된다. State-of-the-art 방법이 예를 들어. 일관성 있는 점 드리프트(CPD)[9]학생의 티분포 혼합물 모델의 최근 연구 결과(수송 이동 관리)[10]하이브리드 혼합물 models[11]의 우수성(예를 들어 학생의 t-Distritubtion과 Watsondistribution/Bingham 유통 공간 위치와axes 방향 separ을 위해 생각을 증명하고 있다.ately)com고유한 견고성, 정확성 및 차별적 용량 측면에서 CPD 및 TMM에 의존한다.

식별 가능성

식별가능성은 고려 중인 클래스(패밀리)의 모델 중 하나에 대해 고유한 특성화가 존재하는 것을 말한다. 추정 절차는 잘 정의되지 않을 수 있으며 모델을 식별할 수 없는 경우 점근 이론이 유지되지 않을 수 있다.

Jn = 2를 갖는 모든 이항 분포의 클래스가 되도록 한다. 그러면 J의 두 멤버의 혼합물은

p2 = 1 - p0 - p1. 명백하게 p01 p가 주어진 경우 세 개의 모수( (, θ1, θ2)가 결정되기 때문에 위의 혼합물 모델을 고유하게 결정할 수 없다.

정의

동일한 클래스의 모수 분포의 혼합을 고려하십시오. 내버려두다

모든 성분 분포의 등급이다. 그런 다음 J의 볼록한 선체 KJ:

K는 모든 구성원이 고유하면 식별할 수 있다고 하며, 즉, K에서 2개의 멤버 p와 p given가 각각 k 분포와 k distributions 분포의 혼합물인 경우, 우리는 p = p를 가지고 있는데, 우선 k = k′, 그리고 둘째로 모든 i에 대해i a = a aii, = = i 합계를 다시 정렬할 수 있는 경우에만 해당된다.

모수 추정 및 시스템 식별

모수 혼합물 모형은 우리가 분포 Y를 알고 X에서 표본을 추출할 수 있을 때 종종 사용되지만, 우리i a와 θi 값을 결정하고자 한다. 그러한 상황은 우리가 몇몇 뚜렷한 하위 집단으로 구성된 모집단에서 표본을 추출하는 연구에서 발생할 수 있다.

확률 혼합물 모델링을 데이터 누락 문제로 생각하는 것이 일반적이다. 이를 이해하는 한 가지 방법은 검토 중인 데이터 포인트에 데이터를 모형화하는 데 사용하는 분포 중 하나에 "구성원"이 있다고 가정하는 것이다. 우리가 시작했을 때, 이 멤버십은 알려지지 않았거나 누락되었다. 추정 작업은 데이터 포인트와의 연결이 개별 모델 분포의 멤버십으로 표현되는 상태에서 선택한 모델 기능에 적절한 모수를 고안하는 것이다.

혼합물 분해 문제에 대한 다양한 접근방식이 제안되었으며, 이들 중 많은 접근방식은 기대 최대화(EM) 또는 최대 후천적 추정(MAP)과 같은 최대우도 방법에 초점을 맞추고 있다. 일반적으로 이 방법들은 시스템 식별과 매개변수 추정의 문제를 별도로 고려한다. 혼합물 내 성분의 수와 기능적 형태를 결정하는 방법은 해당 매개변수 값을 추정하는 방법과 구별된다. 몇몇 주목할 만한 출발은 Tarter와 Lock에[12] 요약된 그래픽 방법과 최근에 최소 메시지 길이(MML) 기법인 Figueeredo와 Jain과[13] 맥윌리엄과 Loh(2009)가 제안한 모멘트 일치 패턴 분석 루틴이다.[14]

기대 최대화(EM)

기대 최대화(EM)는 주어진 수의 성분과 혼합물의 매개변수를 결정하기 위해 사용되는 가장 일반적인 기법이다. 이것은 이 문제에 대한 최대우도 추정의 특정한 방법이다. EM은 Dempster 외 (1977)의 다음과 같은 반복 알고리즘에서와 같이 폐쇄형 표현이 가능한 유한 정상 혼합물에 특히 매력적이다.[15]

후연확률로

따라서 모수에 대한 현재 추정치에 기초하여 상태 s에서 생성되는 특정 관측치 x(t) 대한 조건부 확률은 표본 크기가 되는 각 t = 1, N에 대해 결정된다. 그런 다음 새로운 성분 가중치가 평균 조건부 확률에 해당하고 각 성분 평균과 공분산이 전체 표본의 평균과 공분산의 성분별 가중 평균이 되도록 매개변수를 업데이트한다.

Dempster는[15] 또한 각각의 연속적인 전자파 반복이 다른 구배 기반 최대화 기법에 의해 공유되지 않는 특성인 가능성을 감소시키지 않을 것이라는 것을 보여주었다. 또한 전자파에는 확률 벡터 및 충분히 큰 표본 크기의 경우 공분산이 반복하는 양의 정의가 자연스럽게 내재된다. 명시적으로 제약된 방법에는 적절한 값을 확인하고 유지하기 위한 추가 계산 비용이 발생하기 때문에 이는 핵심적인 장점이다. 이론적으로 전자파란 1차 알고리즘이며, 따라서 고정점 솔루션으로 서서히 수렴된다. 레드너와 워커(1984)는 [full citation needed]이 점을 초선형 및 2차 순서 뉴턴과 준 뉴턴 방법을 옹호하고 그들의 경험적 시험에 기초하여 전자파에서 느린 수렴을 보고하는 것으로 한다. 그들은 매개변수 값 자체의 수렴이 아니더라도 우도의 수렴이 빠르다는 것을 인정한다. 전자파 및 기타 알고리즘의 상대적 장점은 다른 문헌에서 논의되었다.[16]

전자파 사용에 대한 다른 일반적인 반대는 초기 값에 대한 민감도를 보일 뿐만 아니라 지역 최대치를 충동적으로 식별하는 경향이 있다는 것이다.[17][18] 하나는 매개변수 공간의 몇 가지 초기 지점에서 전자파를 평가하여 이러한 문제를 해결할 수 있지만 이는 계산적으로 비용이 많이 들고 (초기 구성요소가 본질적으로 중첩되어 초기 추정에 대한 덜 이질적인 기초를 제공하도록 강요되는) 우데아 및 나카노(1998)의 전자파 처리 방법과 같은 다른 접근법이 선행될 수 있다.경유의

피게이레도와 자인은[13] 경계(예: 규칙성 조건 파괴, Ghosh 및 Sen(1985)에서 구한 '의미 없는' 매개변수 값과의 수렴은 모델 성분 수가 최적/참을 초과할 때 자주 관찰된다는 점에 주목한다. 이러한 근거로 그들은 최초 n이 기대 최적값을 크게 초과하도록 선택되는 추정과 식별에 대한 통일된 접근방식을 제안한다. 이들의 최적화 루틴은 이를 뒷받침할 정보가 충분하지 않을 경우 후보 구성요소를 효과적으로 제거하는 최소 메시지 길이(MML) 기준을 통해 구성된다. 이러한 방법으로 n의 감소를 체계화하고 추정과 식별을 공동으로 고려할 수 있다.

기대-최대화 알고리즘을 사용하여 모수 혼합물 모델 분포(aii parameters)의 파라미터를 계산할 수 있다. 기대 단계최대화 단계라는 두 단계를 가진 반복 알고리즘이다. 전자파 혼합물 모델링의 실제 예SOCR 시연에 포함된다.

기대 단계

혼합물 모델의 모수에 대한 초기 추측으로, 각 구성 분포에서 각 데이터 점의 "부분 구성원 자격"은 각 데이터 점의 구성원 자격 변수에 대한 기대값을 계산하여 계산한다. 즉, 각 데이터 점 xj 분포 Yi 대해 멤버십 값 yi, j 다음과 같다.

최대화 단계

그룹 멤버십에 대한 기대값을 사용하면 플러그인 추정치는 배포 모수에 대해 다시 계산된다.

혼합 계수 ai N 데이터 점에 대한 멤버십 값의 평균이다.

성분 모델 매개변수 θi 멤버십 값을 사용하여 가중치를 부여한 데이터 포인트 xj 사용하여 기대 극대화에 의해 계산된다. 예를 들어 θ이 평균 μ인 경우

ai θ에i 대한 새로운 추정치로, 새로운 멤버십 값을 재평가하기 위해 기대 단계를 반복한다. 모델 매개변수가 수렴될 때까지 전체 절차를 반복한다.

마르코프 체인 몬테카를로

전자파 알고리즘의 대안으로 혼합물 모델 매개변수는 베이지스의 정리에서 표시한 후향 샘플링을 사용하여 추론할 수 있다. 이것은 여전히 불완전한 데이터 문제로 간주되는데, 데이터 포인트의 멤버십에 의해 결측 데이터가 된다. Gibbs 샘플링이라고 알려진 2단계 반복 절차를 사용할 수 있다.

두 가지 가우스 분포의 혼합에 대한 이전의 예는 이 방법이 어떻게 작용하는지를 증명할 수 있다. 이전과 같이 혼합물 모형에 대한 모수의 초기 추측이 이루어진다. 각 요소 분포에 대한 부분 멤버십을 계산하는 대신, 각 데이터 포인트의 멤버십 값은 베르누이 분포로부터 도출된다(즉, 첫 번째 또는 두 번째 가우스 분포에 할당된다). 베르누이 매개변수 θ은 구성분포 중 하나에 기초하여 각 데이터 포인트에 대해 결정된다.[vague] 분포에서 추첨을 통해 각 데이터 포인트에 대한 구성원 자격 연관성을 생성한다. 그런 다음 플러그인 추정기를 전자파 M 단계에서와 같이 사용하여 새로운 혼합물 모델 매개변수 집합을 생성하고 이항 드로잉 단계를 반복할 수 있다.

모멘트 매칭

모멘트 매칭 방법은 1894년 칼 피어슨의 정석 작업에 기인하는 혼합물 파라미터를 결정하는 가장 오래된 기술 중 하나이다. 이 접근법에서 혼합물의 모수는 복합 분포가 주어진 값과 일치하는 모멘트를 갖도록 결정된다. 많은 경우, 모멘트 방정식에 대한 해법 추출은 비교 대수학 또는 계산 문제를 나타낼 수 있다. 더욱이 데이별[19] 수치 분석에 따르면 그러한 방법은 전자파 대비 비효율적일 수 있다. 그럼에도 불구하고 크레이그마일, 티터링턴(1998)과 왕과 같은 이 방법에 새로운 관심이 생겼다.[20]

McWilliam과 Loh(2009)는 전자파 계산이 불가능할 정도로 큰 치수 시스템에서 초-큐보이드 일반 혼합물 코풀라의 특성을 고려한다. 여기서 패턴 분석 루틴은 일변량 및 (어떤 의미에서는) 이변량 모멘트의 집합과 일치하는 다변량 꼬리 의존성을 생성하기 위해 사용된다. 그런 다음, 이 방법의 성능은 Kolmogorov-Smirnov 시험 통계량과 함께 지분 로그 수익 데이터를 사용하여 평가된다.

스펙트럼법

혼합물 모델 추정의 일부 문제는 스펙트럼 방법을 사용하여 해결할 수 있다. 특히 데이터 점 xi 고차원 실공간에서 점이고 숨겨진 분포가 로그-콘케이브(가우스 분포 또는 지수 분포 등)인 경우 유용하게 된다.

혼합물 모델을 학습하는 스펙트럼 방법은 데이터 점을 포함하는 행렬의 특이값 분해 사용에 기초한다. 아이디어는 상위 k 단수 벡터를 고려하며, 여기서 k는 학습할 분포의 수입니다. 각 데이터 점의 투영은 벡터가 동일한 분포에서 유래한 점을 매우 가깝게 그룹화하는 반면 다른 분포의 점들은 멀리 떨어져 있다.

스펙트럼 방법의 한 가지 독특한 특징은 분포가 특정 분리 조건(예: 너무 가깝지 않음)을 만족하면 추정 혼합물이 높은 확률로 참 혼합물에 매우 근접한다는 것을 증명할 수 있다는 것이다.

그래픽 메서드

Tarter와 Lock은[12] 성분 내 분산을 줄이기 위해 경험적 주파수 그림에 커널 함수를 적용하는 혼합물 식별에 대한 그래픽 접근방식을 설명한다. 이러한 방법으로 다른 수단을 가진 구성요소를 더 쉽게 식별할 수 있다. 이 λ-method는 구성 요소의 수나 기능적 형태에 대한 사전 지식이 필요하지 않지만, 그 성공은 어느 정도 구성 요소 구조에 대한 가정을 암묵적으로 포함하고 있는 커널 파라미터의 선택에 의존한다.

기타 방법

그들 중 일부는 아마도 무한 분산을 포함하는 무거운 꼬리 분포의 혼합물을 배울 수 있을 것이다(아래 문서 링크 참조). 이 설정에서는 특이치의 존재로 인해 예상 단계가 달라지기 때문에 전자파 기반 방법이 작동하지 않는다.

시뮬레이션

분포 Fi, i=1 ~ n의 혼합물인 N 크기의 표본을 확률 pi(sum=pi = 1)로 시뮬레이션하려면:

  1. i= 1=에서 n까지의 크기 n과 확률 pi 범주형 분포로부터 N의 난수를 생성한다. 이것들은 각각의 N 값들 중 어느 i 나올지 알려준다. ith 범주에 할당된 임의 번호의 양을 m으로i 표시한다.
  2. i i에 대해 F 분포에서 m 난수i 생성한다.

확장

베이지안 설정에서 혼합물 모델을 정의하는 그래픽 모델에 추가 수준을 추가할 수 있다. 예를 들어, 공통의 잠재된 디리클레 할당 주제 모델에서 관찰은 D의 다른 문서에서 도출된 단어 집합이며 K 혼합물 구성요소는 문서 간에 공유되는 주제를 나타낸다. 각 문서에는 다른 혼합물 가중치 집합이 있으며, 이 가중치는 해당 문서에 일반적인 주제를 명시한다. 모든 혼합물 가중치 집합은 공통 하이퍼 파라미터들을 공유한다.

매우 일반적인 확장은 혼합물 성분 정체성을 정의하는 잠재 변수마르코프 체인에 연결하는 것이다. 이 변수는 동일한 분포의 독립된 랜덤 변수라고 가정하는 것이 아니라 말이다. 결과 모델은 숨겨진 마르코프 모델이라고 불리며 가장 일반적인 순차적 계층적 모델 중 하나이다. 숨겨진 마르코프 모델의 수많은 확장 버전이 개발되었다. 자세한 내용은 결과 문서를 참조하십시오.

역사

비록 일반적인 참조 칼 피어슨(1894년)[21]의 일에 명시적으로 주소로 제1저자로 만들어져배합한 분포를 나타내고 혼합물 분해의 그 구성 요소이고 매개 변수의 그 증명은 문제가 문헌에서 먼 1846년(케틀레. LambertAdolpheJacques. McLachlan,[17]2000년)로 인용되고 있다.이 감하다암컷 해안 게의 개체군에서 이마 대 몸 길이 비율의 비정규적인 속성을 특징짓는 데 있어서 전치 문제. 이 작업의 동기는 1893년(타터와 록에서[12])에 이러한 비율의 히스토그램의 비대칭성이 진화적 분열을 신호할 수 있다고 추측했던 동물학자 월터 프랭크 라파엘 웰던에 의해 제공되었다. Pearson의 접근방식은 경험적 모멘트가 모형의 모형에 일치하도록 혼합물의 5개 모수를 선택하여 데이터에 두 개의 정규 분포를 혼합한 일변량 혼합물을 적합시키는 것이었다.

그의 연구는 두 개의 잠재적으로 구별되는 하위 집단을 식별하고 모멘트 일치 도구로서 혼합물의 유연성을 입증하는 데 성공했지만, 이 공식은 당시 상당한 계산적 난제를 내포한 9도(비논어) 다항식의 해법이 필요했다.

후속 연구는 이러한 문제들을 해결하는 데 초점을 맞췄지만, 현대 컴퓨터의 출현과 MLE(Maximum Possibility) 매개변수화 기법의 대중화가 이루어졌을 때 비로소 연구가 본격적으로 시작되었다.[22] 그 이후로 어업 연구, 농업, 식물학, 경제학, 의학, 유전학, 심리학, 팔래온학, 전기영양학, 금융, 지질학, 동물학 등의 분야에 걸친 방대한 연구기구가 있었다.[23]

참고 항목

혼합물

계층적 모형

특이치 탐지

참조

  1. ^ 소티리오스 P. 차티스, 디미트리오스 1세 코스모풀로스, 테오도라 A. Varvarigou, "t 분포를 기반으로 한 견고한 잠재 공간 모델을 이용한 신호 모델링 및 분류," IEEE 신호 처리 거래, vol. 56, 3, 페이지 949–963, 2008년 3월. [1]
  2. ^ Yu, Guoshen (2012). "Solving Inverse Problems with Piecewise Linear Estimators: From Gaussian Mixture Models to Structured Sparsity". IEEE Transactions on Image Processing. 21 (5): 2481–2499. arXiv:1006.3056. Bibcode:2012ITIP...21.2481G. doi:10.1109/tip.2011.2176743. PMID 22180506. S2CID 479845.
  3. ^ Dinov, ID. "예상 최대화 혼합물 모델링 튜토리얼". 캘리포니아 디지털 라이브러리, 통계 온라인 계산 리소스, 종이 EM_MM, http://repositories.cdlib.org/socr/EM_MM,, 2008년 12월 9일
  4. ^ Bishop, Christopher (2006). Pattern recognition and machine learning. New York: Springer. ISBN 978-0-387-31073-2.
  5. ^ Spall, J. C.와 Maryak, J. L. (1992년). "비 I.i.d 데이터에서 발사체 정확도를 위한 가능한 베이시안 계량기" 미국통계학회지 제87권(419), 페이지 676–681. JSTOR 2290205
  6. ^ Amruthnath, Nagdev; Gupta, Tarun (2018-02-02). Fault Class Prediction in Unsupervised Learning using Model-Based Clustering Approach. Unpublished. doi:10.13140/rg.2.2.22085.14563.
  7. ^ Amruthnath, Nagdev; Gupta, Tarun (2018-02-01). A Research Study on Unsupervised Machine Learning Algorithms for Fault Detection in Predictive Maintenance. Unpublished. doi:10.13140/rg.2.2.28822.24648.
  8. ^ Shen, Jianhong (Jackie) (2006). "A stochastic-variational model for soft Mumford-Shah segmentation". International Journal of Biomedical Imaging. 2006: 2–16. Bibcode:2006IJBI.200649515H. doi:10.1155/IJBI/2006/92329. PMC 2324060. PMID 23165059.
  9. ^ Myronenko, Andriy; Song, Xubo (2010). "Point set registration: Coherent point drift". IEEE Trans. Pattern Anal. Mach. Intell. 32 (12): 2262–2275. arXiv:0905.2635. doi:10.1109/TPAMI.2010.46. PMID 20975122. S2CID 10809031.
  10. ^ Ravikumar, Nishant; Gooya, Ali; Cimen, Serkan; Frangi, Alexjandro; Taylor, Zeike (2018). "Group-wise similarity registration of point sets using Student's t-mixture model for statistical shape models". Med. Image. Anal. 44: 156–176. doi:10.1016/j.media.2017.11.012. PMID 29248842.
  11. ^ Bayer, Siming; Ravikumar, Nishant; Strumia, Maddalena; Tong, Xiaoguang; Gao, Ying; Ostermeier, Martin; Fahrig, Rebecca; Maier, Andreas (2018). "Intraoperative brain shift compensation using a hybrid mixture model". Medical Image Computing and Computer Assisted Intervention – MICCAI 2018. Granada, Spain: Springer, Cham. pp. 116–124. doi:10.1007/978-3-030-00937-3_14.
  12. ^ a b c Tarter, Michael E. (1993), Model Free Curve Estimation, Chapman and Hall
  13. ^ a b Figueiredo, M.A.T.; Jain, A.K. (March 2002). "Unsupervised Learning of Finite Mixture Models". IEEE Transactions on Pattern Analysis and Machine Intelligence. 24 (3): 381–396. CiteSeerX 10.1.1.362.9811. doi:10.1109/34.990138.
  14. ^ McWilliam, N.; Loh, K. (2008), Incorporating Multidimensional Tail-Dependencies in the Valuation of Credit Derivatives (Working Paper) [2]
  15. ^ a b Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. CiteSeerX 10.1.1.163.7580. JSTOR 2984875.
  16. ^ Xu, L.; Jordan, M.I. (January 1996). "On Convergence Properties of the EM Algorithm for Gaussian Mixtures". Neural Computation. 8 (1): 129–151. doi:10.1162/neco.1996.8.1.129. hdl:10338.dmlcz/135225. S2CID 207714252.
  17. ^ a b McLachlan, G.J. (2000), Finite Mixture Models, Wiley
  18. ^ Botev, Z.I.; Kroese, D.P. (2004). Global likelihood optimization via the cross-entropy method with an application to mixture models. Proceedings of the 2004 Winter Simulation Conference. Vol. 1. p. 517. CiteSeerX 10.1.1.331.2319. doi:10.1109/WSC.2004.1371358. ISBN 978-0-7803-8786-7. S2CID 6880171.
  19. ^ Day, N. E. (1969). "Estimating the Components of a Mixture of Normal Distributions". Biometrika. 56 (3): 463–474. doi:10.2307/2334652. JSTOR 2334652.
  20. ^ Wang, J. (2001), "Generating daily changes in market variables using a multivariate mixture of normal distributions", Proceedings of the 33rd Winter Conference on Simulation: 283–289
  21. ^ Améndola, Carlos; et al. (2015). "Moment varieties of Gaussian mixtures". Journal of Algebraic Statistics. 7. arXiv:1510.04654. Bibcode:2015arXiv151004654A. doi:10.18409/jas.v7i1.42. S2CID 88515304.
  22. ^ McLachlan, G.J.; Basford, K.E. (1988), "Mixture Models: inference and applications to clustering", Statistics: Textbooks and Monographs, Bibcode:1988mmia.book.....M
  23. ^ 티터링턴, 스미스 & 마코프 1985년

추가 읽기

혼합물 모델에 관한 책

가우스 혼합물 모델의 적용

  1. Reynolds, D.A.; Rose, R.C. (January 1995). "Robust text-independent speaker identification using Gaussian mixture speaker models". IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379.
  2. Permuter, H.; Francos, J.; Jermyn, I.H. (2003). Gaussian mixture models of texture and colour for image database retrieval. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings (ICASSP '03). doi:10.1109/ICASSP.2003.1199538.
  3. Lemke, Wolfgang (2005). Term Structure Modeling and Estimation in a State Space Framework. Springer Verlag. ISBN 978-3-540-28342-3.
  4. Brigo, Damiano; Mercurio, Fabio (2001). Displaced and Mixture Diffusions for Analytically-Tractable Smile Models. Mathematical Finance – Bachelier Congress 2000. Proceedings. Springer Verlag.
  5. Brigo, Damiano; Mercurio, Fabio (June 2002). "Lognormal-mixture dynamics and calibration to market volatility smiles". International Journal of Theoretical and Applied Finance. 5 (4): 427. CiteSeerX 10.1.1.210.4165. doi:10.1142/S0219024902001511.
  6. Spall, J. C.; Maryak, J. L. (1992). "A feasible Bayesian estimator of quantiles for projectile accuracy from non-i.i.d. data". Journal of the American Statistical Association. 87 (419): 676–681. doi:10.1080/01621459.1992.10475269. JSTOR 2290205.
  7. Alexander, Carol (December 2004). "Normal mixture diffusion with uncertain volatility: Modelling short- and long-term smile effects" (PDF). Journal of Banking & Finance. 28 (12): 2957–80. doi:10.1016/j.jbankfin.2003.10.017.
  8. Stylianou, Yannis; Pantazis, Yannis; Calderero, Felipe; Larroy, Pedro; Severin, Francois; Schimke, Sascha; Bonal, Rolando; Matta, Federico; Valsamakis, Athanasios (2005). GMM-Based Multimodal Biometric Verification (PDF).
  9. Chen, J.; Adebomi, 0.E.; Olusayo, O.S.; Kulesza, W. (2010). The Evaluation of the Gaussian Mixture Probability Hypothesis Density approach for multi-target tracking. IEEE International Conference on Imaging Systems and Techniques, 2010. doi:10.1109/IST.2010.5548541.

외부 링크

  • Nielsen, Frank (23 March 2012). "K-MLE: A fast algorithm for learning statistical mixture models". k-MLE: A fast algorithm for learning statistical mixture models. 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 869–872. arXiv:1203.5181. Bibcode:2012arXiv1203.5181N. doi:10.1109/ICASSP.2012.6288022. ISBN 978-1-4673-0046-9. S2CID 935615.
  • 전자파혼합물 모델링의 SOCR 시연
  • 혼합물 모델링 페이지(및 유한 혼합물 모델에 적용되는 최소 메시지 길이에 대한 속물 프로그램) D.L. Dowe에 의해 유지 관리.
  • PyMix – Python의 다양한 혼합 모델 기반 데이터 마이닝 애플리케이션을 위한 Python 혼합물 패키지, 알고리즘 및 데이터 구조
  • sklearn.mixture – 가우스 혼합물 모델(및 그것으로부터 샘플링)을 배우기 위한 파이썬 패키지, 이전에 SciPy와 함께 포장되어 현재 SciKit으로 패키지되어 있음
  • GMM 구현을 위한 GMM.m Matlab 코드
  • GPUmix C++는 GPGPU를 사용하여 100배 빠른 가속도의 EM과 MCMC를 이용한 베이지안 혼합물 모델을 구현한다.
  • [3] 전자파 알고리즘을 이용한 GMM 구현을 위한 Matlab 코드
  • [4] jMEF: 지수 계열의 혼합물을 학습하고 처리하기 위한 자바 오픈 소스 라이브러리(Bregman 다이버전스와 함께 이중성을 사용) 매트랩 래퍼 포함.
  • 가우스 혼합물 모델(GMM) 추정을 위한 기대 최대화(EM) 알고리즘의 매우 빠르고 깨끗한 C 구현.
  • mclust는 혼합물 모델링을 위한 R 패키지다.
  • dpgmm Pure Python Diriclet 프로세스 가우스 혼합물 모델 구현(변수).
  • 가우스 혼합물 모델 블로그는 파이톤에서 구현된 기대 극대화를 통해 훈련된 가우스 혼합물 모델에 대한 블로그 게시물.