기대 최대화 알고리즘

Expectation–maximization algorithm

통계학에서 기대-최대화(EM) 알고리즘은 모델이 관측되지 않은 잠재 변수에 따라 달라지는 통계 모델에서 매개변수의 (국소) 최대우도 또는 최대 사후(MAP) 추정치를 찾는 반복 방법이다.전자파 반복은 매개변수에 대한 현재 추정치를 사용하여 평가한 로그 우도 예상에 대한 함수를 생성하는 기대(E) 단계와 E 단계에서 발견된 예상 로그 우도를 최대화하는 매개변수를 계산하는 최대화(M) 단계를 번갈아 수행한다.이러한 모수 추정치는 다음 E 단계에서 잠재 변수의 분포를 결정하는 데 사용됩니다.

올드 페이스풀 분출 데이터의 EM 클러스터링.랜덤 초기 모형(축의 척도가 다르기 때문에 매우 평평하고 넓은 두 개의 구로 표시됨)은 관측된 데이터에 적합합니다.첫 번째 반복에서는 모델이 크게 변경되지만 간헐천의 두 가지 모드로 수렴됩니다.ELKI를 사용하여 시각화.

역사

전자파 알고리즘은 Arthur Dempster, Nan Laird Donald Rubin에 [1]의해 1977년 고전적인 논문에서 설명되고 그 이름이 붙여졌습니다.그들은 이 방법이 초기 저자들에 의해 "특별한 상황에서 여러 번 제안되었다"고 지적했다.가장 이른 것 중 하나는 세드릭 [2]스미스에 의한 대립 유전자의 빈도를 추정하는 유전자 계수법이다.또 하나는 H.O.에 의해 제안되었다. 1958년에는 하틀리가, 1977년에는 하틀리와 호킹이, 뎀프스터-레어드-루빈지의 많은 아이디어의 [3]기원이 되었다.하틀리의 생각은 어떤 그룹화된 이산 분포로도 확장될 수 있다.지수족에 대한 전자파 방법에 대한 매우 상세한 처리는 Per Martin-Löf [7][8][9][10][11][12][13]및 Anders Martin-Löf와의 협업 이후 Rolf Sundberg가 논문과 여러 논문에서[4][5][6] 발표했다.1977년 Dempster-Laird-Rubin 논문은 이 방법을 일반화하고 광범위한 종류의 문제에 대한 수렴 분석을 스케치했다.Dempster-Laird-Rubin 논문은 통계 분석의 중요한 도구로서 전자파 방법을 확립했다.

Dempster-Laird-Rubin 알고리즘의 수렴 분석에 결함이 있어 C에 의해 올바른 수렴 분석이 발표되었습니다. 1983년 [14]F. Jeff Wu.Wu의 증명은 뎀프스터-Laird-Rubin이 [14]주장한 처럼 지수 패밀리 외부에서 전자파 방법의 수렴을 확립했다.

서론

전자파 알고리즘은 방정식을 직접 해결할 수 없는 경우 통계 모델최대우도 파라미터를(로컬) 찾는 데 사용됩니다.일반적으로 이러한 모형에는 알려지지 않은 모수 및 알려진 데이터 관측치 외에도 잠재 변수가 포함됩니다.즉, 결측값이 데이터 사이에 존재하거나 관측되지 않은 데이터 포인트가 추가로 존재한다고 가정함으로써 모델을 더 간단하게 공식화할 수 있다.예를 들어, 각 관측된 데이터 점에 대응하는 관측되지 않은 데이터 점 또는 각 데이터 점이 속한 혼합물 성분을 지정하는 잠재 변수가 있다고 가정하면 혼합물 모델을 보다 간단하게 설명할 수 있습니다.

최대우도해를 찾는 것은 일반적으로 모든 미지의 값, 파라미터 및 잠재변수에 관한 우도함수도함수를 취하여 동시에 결과 방정식을 풀어야 한다.잠재적 변수가 있는 통계 모델에서는 일반적으로 이 작업이 불가능합니다.대신, 그 결과는 전형적으로 매개 변수에 대한 해답이 잠복 변수의 값을 요구하며, 그 반대의 경우도 마찬가지이지만, 한 방정식을 다른 방정식으로 대체하면 해결할 수 없는 방정식이 생성됩니다.

전자파 알고리즘은 이 두 방정식을 수치적으로 푸는 방법이 있다는 관찰로부터 진행됩니다.알 수 없는 두 집합 중 하나에 대해 임의의 값을 선택하고, 두 번째 집합을 추정하기 위해 이 값을 사용한 다음, 이러한 새 값을 사용하여 첫 번째 집합을 더 잘 추정하고, 결과 값이 모두 고정점으로 수렴될 때까지 두 집합을 계속 번갈아 사용할 수 있습니다.이것이 효과가 있을지는 확실하지 않지만, 이러한 맥락에서 증명될 수 있습니다.또한 그 점에서 우도 도함수가 (임의적으로) 0에 가깝다는 것을 증명할 수 있으며, 이는 다시 그 점이 국소 최대점 또는 안장점 [14]중 하나임을 의미한다.일반적으로 여러 개의 최대값이 발생할 수 있지만 글로벌 최대값이 발견된다는 보장은 없습니다.어떤 가능성들은 또한 그것들에 특이점을 가지고 있다. 즉, 말도 안 되는 최대치이다.예를 들어 혼합물 모형에서 전자파가 찾을 수 있는 솔루션 중 하나는 성분 중 하나를 0으로 설정하고 동일한 성분의 평균 모수를 데이터 점 중 하나와 동일하게 설정하는 것입니다.

묘사

관측된 의 집합X(\{ 생성하는 통계 모델이 주어졌을 때 관측되지 않은 잠복 또는 결측값 Z(\displaystyle \{Z 및 알 수 없는 매개변수(\ \ 벡터는 L Z)와 생성됩니다. , ) ) { L ( { \ symbol \} ; \ , \ { } ) =( \ { X} , \ \ bold \ } } } } }、 \ , 、 、 、 、 paramet paramet paramet paramet parametersersersersersersers ( ( ( ( ( ( ( ( (ersersersers ( ( ( ( ( ( ( ( (

Z \{Z 관측되지 않고Z \ 분포를 알 수 없기 에 이 양은 종종 다루기 어렵습니다

EM 알고리즘은 다음 두 단계를 반복적으로 적용하여 한계우도의 MLE를 찾으려고 합니다.

예상 단계(E 단계):로그우도 함수의 기대치로 Q Q {\}^{( 합니다 의 현재 추정치 () {\{\ :
최대화 단계(M 단계):이 수량을 최대화하는 매개 변수를 찾습니다.

EM이 적용되는 일반적인 모델은 Z 잠재 변수로 합니다.

  1. 관측된 데이터 X(\ 이산(유한 또는 셀 수 있는 무한 집합의 값을 취함) 또는 연속(수없이 무한 집합의 값을 취함) 수 있습니다.각 데이터 점과 연관된 것은 관측치의 벡터일 수 있습니다.
  2. 결측값(잠재 변수라고도 )Z { 관측 단위당 하나의 잠재 변수를 갖는 고정 개수의 값에서 도출된 이산형이다.
  3. 파라미터는 연속적이며 두 종류로 구성되어 있습니다.모든 데이터 포인트와 관련된 파라미터와 잠복 변수의 특정 값(즉, 대응하는 잠복 변수가 해당 값을 갖는 모든 데이터 포인트와 관련된 파라미터).

단, EM을 다른 모델에 적용하는 것은 가능합니다.

그 동기는 다음과 같습니다. 값을 알고 있는 경우 일반적으로 변수 Z(\displaystyle\{Z})의 값은Z(\한 모든 값에 대한 로그 우도를 최대화하여 구할 수 있습니다. 또는 숨겨진 마르코프 모델에 대한 Viterbi 알고리즘과 같은 알고리즘을 사용합니다.반대로 Z{ 값을 알면 관측된 데이터 포인트를 관련 잠복변수 값과 평균값에 따라 그룹화함으로써 추정치를 쉽게 구할 수 있다.각 그룹에 있는 점의 일부 함수입니다.\ Z 모두 불분명한 경우 반복 알고리즘을 제안합니다.

  1. 먼저 파라미터{\(\ 임의의 값으로 초기화합니다.
  2. 에서 Z의 각 가능한 값의 확률을 계산합니다.
  3. 그런 다음 방금 계산된 값을 사용하여 파라미터 의 더 나은 추정치를 계산합니다.
  4. 컨버전스가 될 때까지 스텝2와 3을 반복합니다.

앞에서 설명한 알고리즘은 비용 함수의 로컬 최소값에 단조롭게 접근합니다.

특성.

기대(E) 단계를 언급하는 것은 약간 잘못된 용어입니다.첫 번째 단계에서 계산되는 것은 의 고정 데이터 파라미터입니다 가 확인되면 완전히 결정되어 EM 알고리즘의 두 번째M 단계에서 최대화됩니다.

전자파 반복은 관측된 데이터(즉, 한계) 우도 함수를 증가시키지만 시퀀스가 최대우도 추정기로 수렴한다는 보장은 없다.다중 모드 분포의 경우, 이는 전자파 알고리즘이 시작 값에 따라 관측된 데이터 우도 함수의 로컬 최대값으로 수렴할 수 있음을 의미합니다.랜덤 재시작 힐 클라이밍(random-restart hill (style {\ {\}}^{(t)}}}}부터 시작) 또는 시뮬레이션 어닐링 방법을 적용하는 등 다양한 휴리스틱 또는 메타 휴리스틱 접근법이 존재한다.

EM은 특히 우도가 지수족일 때 유용합니다. E 단계는 충분한 통계량의 기대치의 합이 되고 M 단계는 선형 함수를 최대화합니다.이러한 경우, 일반적으로 Sundberg 공식(Per Martin-Löf 및 Anders Martin-Löf[5][6][9][10][11][12][13]미공개 결과를 사용하여 Rolf Sundberg에 의해 게시됨)을 사용하여 각 단계에 대한 닫힌 형태의 발현 업데이트를 도출할 수 있다.

전자파 방법은 뎀프스터, 레어드 및 루빈이 원본 논문에서 베이지안 추론에 대한 최대 사후(MAP) 추정치를 계산하기 위해 수정되었다.

구배 강하, 켤레 구배 또는 가우스-뉴턴 알고리즘의 변형과 같은 최대우도 추정치를 찾기 위한 다른 방법이 존재한다.전자파와는 달리, 그러한 방법은 일반적으로 우도 함수의 첫 번째 및/또는 두 번째 도함수를 평가해야 한다.

정확성 증명

기대 최대화는 로그 p( )가 Q( \ Q ( \ bold \} ) \( \ bold \ ( t) } { \ \p ( \ symbol \ } o [15]후자

0이 아닌 X , )의 의 Z \ \ \ {X} , {\ )에 대해 다음과 같이 쓸 수 있습니다.

현재 파라미터 ( ) \ ^ { ( ) } the( ) ) \ ( \ \ \ { Z values lying by by lying lying by by by lying lying the the lying the the the the { { the the { { { { { { { { { the the the { { { { { { the the the theng(또는 적분) Z {\ 왼쪽은 상수의 기대치이므로 다음과 같은 결과가 나옵니다.

H ( ) { H ( { \ symbol { \ } } \ { \ symbol { \ } } ( t ) } } 에는 치환하는 부정합이 정의되어 있습니다.이 마지막 방정식은 ( ) {\ {\}} = sysysy sysy {\ {{(을 포함한 {\ displaystyle {\ta }의 모든 값은 다음과 같습니다.

앞의 방정식에서 이 마지막 방정식을 빼면

그러나 깁스의 부등식 ( ) ( ) ( t H ( t ) t H ( { \ symbol { \ } \ \ { \ }{ ( t ) } H ( ) 。

Q를 하기 {\ (를 선택하면 {\Q({\ {합니다.

최대화-최대화 절차로서

전자파 알고리즘은 두 개의 교대 최대화 단계, 즉 좌표 [16][17]강하의 예로 볼 수 있다.기능을 고려합니다.

여기서 q는 관측되지 않은 데이터 z에 대한 임의 확률 분포이고 H(q)분포 q의 엔트로피입니다.이 함수는 다음과 같이 쓸 수 있습니다.

서 p ZX ( ; ){ displaystyle X x)는 관측되지 않은 의 조건부 분포이며 L(\KL Kullback-Divergence입니다.

다음으로 EM 알고리즘의 스텝은 다음과 같이 표시됩니다.

예상 단계:F를하려면\q를 합니다
최대화 단계: displaystyle 선택하여 F {\ F합니다.

적용들

EM은 특히 [18][19]양적 [20]유전학에서 혼합 모델의 매개변수 추정에 자주 사용된다.

심리 측정학에서 전자파는 항목 매개 변수와 항목 반응 이론 모델의 잠재 능력을 추정하기 위한 중요한 도구이다.

누락된 데이터에 대처하고 확인되지 않은 변수를 관찰할 수 있는 기능을 통해 [citation needed]EM은 포트폴리오의 가격을 책정하고 위험을 관리하는 데 유용한 도구가 되고 있습니다.

전자파 알고리즘(및 그 빠른 변형 순서 부분 집합 기대 최대화)은 의료 영상 재구성, 특히 양전자 방출 단층 촬영, 단일 광자 방출 컴퓨터 단층 촬영 및 X선 컴퓨터 단층 촬영에도 널리 사용된다.그 외의 고속 EM 의 변형에 대해서는, 이하를 참조해 주세요.

구조 공학에서 기대 최대화를 이용한 구조 식별([21]STRIDE) 알고리즘은 센서 데이터를 사용하여 구조 시스템의 자연 진동 특성을 식별하기 위한 출력 전용 방법입니다(운용 모달 분석 참조).

EM은 데이터 클러스터링에도 사용됩니다.자연어 처리에서 알고리즘의 두 가지 중요한 예는 Baum-입니다.숨겨진 마르코프 모델에 대한 웰치 알고리즘과 확률론적 문맥 자유 문법의 비감독 유도를 위한 내부 외부 알고리즘.

EM 알고리즘 필터링 및 스무딩

Kalman 필터는 일반적으로 온라인 상태 추정에 사용되며 최소 분산 평활기는 오프라인 또는 배치 상태 추정에 사용될 수 있습니다.그러나 이러한 최소 분산 솔루션에는 상태 공간 모형 모수의 추정치가 필요합니다.EM 알고리즘은 접합 상태 및 매개변수 추정 문제를 해결하기 위해 사용될 수 있다.

필터링 및 평활 EM 알고리즘은 다음 2단계 절차를 반복함으로써 발생합니다.

E-스텝
현재 모수 추정치로 설계된 Kalman 필터 또는 최소 분산 평활기를 작동하여 업데이트된 상태 추정치를 얻습니다.
M 스텝
업데이트된 모수 추정치를 얻으려면 최대우도 계산 내에서 필터링되거나 평활된 상태 추정치를 사용하십시오.

Kalman 필터 또는 최소 분산 평활기가 추가 백색 노이즈를 가진 단일 입력-단일 출력 시스템의 측정에 작동한다고 가정합니다.업데이트된 측정 소음 분산 추정치는 최대우도 계산에서 얻을 수 있습니다.

서 x^ {\}}는 N개의 스칼라 에서 필터 또는 평활기로 계산된 스칼라 출력 추정치 k {\입니다.위의 업데이트는 포아송 측정 노이즈 강도를 업데이트하는 데도 적용할 수 있습니다.마찬가지로 1차 자동 회귀 프로세스의 경우 업데이트된 프로세스 소음 분산 추정치는 다음과 같이 계산할 수 있습니다.

서 x^ {\ x^ + {\ 필터 또는 평활기에 의해 계산된 스칼라 상태의 추정치입니다.업데이트된 모델 계수 추정치는 다음을 통해 얻을 수 있습니다.

위와 같은 모수 추정치의 수렴은 잘 [22][23][24][25]연구되고 있다.

변종

공역 구배 및 수정된 뉴턴의 방법(뉴턴-라프슨)[26]을 사용하는 방법과 같이 전자파 알고리즘의 느린 수렴을 가속화하기 위한 많은 방법이 제안되었다.또, EM은, 제약된 추정 방법에서도 사용할 수 있다.

파라미터 확장 기대 최대화(PX-EM) 알고리즘은 종종 "귀속된 전체 데이터에서 캡처된 추가 정보를 이용하여 M 단계의 분석을 수정하기 위한 "공분산 조정"을 통해 속도를 향상시킵니다.[27]

기대 조건부 최대화(ECM)는 각 M 스텝을 조건부 최대화(CM) 스텝의 시퀀스로 대체하며,[28] 여기서 각 파라미터 θi 조건부로 고정된 다른 파라미터에 대해 개별적으로 최대화됩니다.그 자체는 Expectional Conditional Maximization one([29]ECME; 기대조건부 최대화) 알고리즘으로 확장할 수 있습니다.

아이디어는 Generalized Expectation Maximization(GEM; 일반화 기대 최대화) 알고리즘에서 더욱 확장되며, 이 알고리즘에서는 As a maximization-maximization 절차 [16]섹션에서 설명한 바와 같이 E 스텝과 M 스텝 모두에 대한 목적 함수 F의 증가만을 추구한다.GEM은 분산 환경에서 더욱 개발되어 유망한 [30]결과를 보여줍니다.

또한 EM 알고리즘을 MM([31]맥락에 따라 Majorize/Minimize 또는 Minorize/Maximize) 알고리즘의 하위 클래스로 간주하여 보다 일반적인 경우에 개발된 기계를 사용할 수도 있습니다.

알고리즘

EM 알고리즘에서 사용되는Q 함수는 로그 우도에 기초하고 있습니다.따라서 로그 EM 알고리즘으로 간주됩니다.로그 우도의 사용은 α-log 우도비로 일반화할 수 있습니다.그 후, α-log 우도비와 α-divergence의 Q-함수를 이용해 관측 데이터의 α-log 우도비를 정확하게 동등하게 표현할 수 있다.이 Q-함수의 취득은 일반적인E 단계입니다그 최대화는 일반화된 M 단계이다.이 쌍은 α-EM[32] 알고리즘이라고 불리며 로그 EM 알고리즘을 서브클래스로 포함합니다.따라서 마츠야마 야스오의 α-EM 알고리즘은 log-EM 알고리즘의 정확한 일반화입니다.구배나 헤시안 행렬의 계산은 필요하지 않다.α-EM은 적절한 α를 선택함으로써 log-EM 알고리즘보다 빠른 컨버전스를 보여줍니다.α-EM 알고리즘은 숨겨진 마르코프 모델 추정 알고리즘의 더 빠른 버전으로 이어진다.

EM은 부분적으로 비베이지안 최대우도 방법이다.최종 결과는 잠재 변수(베이지안 스타일)에 대한 확률 분포δ(최대우도 추정치 또는 사후 모드)에 대한 점 추정치와 함께 제공한다.이것의 완전한 베이지안 버전이 필요할 수 있으며, θ 및 잠재 변수에 대한 확률 분포를 제공할 수 있습니다.추론에 대한 베이지안 접근법은 단순히 θ를 또 다른 잠재 변수로 취급하는 것이다.이 패러다임에서는 E 스텝과 M 스텝의 구분이 사라집니다.위에서 설명한 인수분해 Q 근사치(변수 베이즈)를 사용하면 각 잠복 변수(지금은 now 포함)를 반복하여 한 번에 하나씩 최적화할 수 있습니다.이제 반복당 k개의 단계가 필요합니다. 여기서 k는 잠재 변수의 수입니다.그래픽 모델의 경우 각 변수의 새로운 Q는 마르코프 블랭킷에만 의존하므로 로컬 메시지 전달이 효율적인 추론을 위해 사용될 수 있습니다.

기하학적 해석

정보 기하학에서 E 스텝과 M 스텝은 e-접속과 m-접속이라고 불리는 이중 아핀 연결 하에서의 투영으로 해석됩니다. 쿨백-라이블러 발산도 이러한 용어로 이해할 수 있습니다.

가우스 혼합

ELKI로 시각화 된 인공 데이터에 대한 k-평균과 전자파 비교.분산을 사용하여 전자파 알고리즘은 정규 분포를 정확하게 설명할 수 있지만 k-평균은 데이터를 Voronoi 셀로 분할합니다.클러스터 중앙은 더 가볍고 큰 기호로 표시됩니다.
두 가지 성분 가우스 혼합 모델을 올드 페이스풀 데이터 세트에 적합시키는 전자파 알고리즘을 보여주는 애니메이션입니다.알고리즘은 랜덤 초기화에서 컨버전스로 넘어갑니다.

( , 2, , ){ =(\},\{ _ 개의 다변량 혼합에서 독립적인관측치의 이라고 합니다2 관찰의 [17]원점을 결정하는 잠재적 변수이다.

i ( i)~ d ( 1 , 1)\ _ { } \ mid ( _ { i } ) \ { { } } { d } ( { \ { { mu }1 , \ {} ) = . )

어디에

( Z i ) 1 ( \ } ( Z { i=1) = \ _{1} ,} 및 ) 1 - 1 - .\ { { \ } ( Z _ t } }

목적은 가우시안 및 각 평균 및 공분산 간의 혼합 값을 나타내는 알려지지 않은 매개변수를 추정하는 것이다.

여기서 불완전한 데이터 우도 함수는

완전한 데이터 우도 함수는

또는

서 I 지시 이고f(\ f 다변량 정규 분포의 확률 밀도 함수입니다.

마지막 등식에서 각 i에 대해 하나의 I i }= 0이고 하나의 표시기는 1이다.따라서 내부 합계는 하나의 항으로 감소합니다.

E 스텝

모수 θ(t) 현재 추정치를 고려할 때, Z의 조건부i 분포는 θ에 의해 가중된 정규 밀도의 비례 높이인 Bayes 정리에 의해 결정된다.

이것들은 「멤버십 확률」이라고 불리며, 통상은 E 스텝의 출력으로 간주됩니다(이것은 아래의 Q 함수는 아닙니다).

이 E 단계는 Q:에 대해 이 기능을 설정하는 것에 해당합니다.

합계 내의 로그L ( ;x , i) { L ( \ ; \{ } _ { ,{ i } )의 기대치는 확률 P ( Z i ) (( ( ) \ mid _ 에 대해 구한다. 세트의 }.E 스텝의 모든 것은 스텝이 실행되기 전에 알려져 있습니다., Tj , \ 는 E 스텝 섹션의 선두에 있는 방정식에 따라 계산됩니다.

δμ/Ω은 별도의 선형 항으로 나타나며 따라서 독립적으로 최대화할 수 있기 때문에 이 완전한 조건부 기대치를 한 번에 계산할 필요가 없다.

M 스텝

Q(θ)가(t) 2차라는 것은 is의 최대값을 구하는 것이 비교적 간단하다는 것을 의미한다.또한 δ, (μ1, δ1) 및 (μ2, δ2)는 모두 별도의 선형으로 나타나므로 독립적으로 최대화할 수 있다.

먼저 제약 조건1 + + = = 12 갖는 ,에 대해 생각해 보겠습니다.

This has the same form as the MLE for the binomial distribution, so

For the next estimates of (μ11):

This has the same form as a weighted MLE for a normal distribution, so

and

and, by symmetry,

and

Termination

Conclude the iterative process if for below some preset threshold.

Generalization

The algorithm illustrated above can be generalized for mixtures of more than two multivariate normal distributions.

Truncated and censored regression

The EM algorithm has been implemented in the case where an underlying linear regression model exists explaining the variation of some quantity, but where the values actually observed are censored or truncated versions of those represented in the model.[34] Special cases of this model include censored or truncated observations from one normal distribution.[34]

Alternatives

EM typically converges to a local optimum, not necessarily the global optimum, with no bound on the convergence rate in general. It is possible that it can be arbitrarily poor in high dimensions and there can be an exponential number of local optima. Hence, a need exists for alternative methods for guaranteed learning, especially in the high-dimensional setting. Alternatives to EM exist with better guarantees for consistency, which are termed moment-based approaches[35] or the so-called spectral techniques[36][37][citation needed]. Moment-based approaches to learning the parameters of a probabilistic model are of increasing interest recently[when?] since they enjoy guarantees such as global convergence under certain conditions unlike EM which is often plagued by the issue of getting stuck in local optima. Algorithms with guarantees for learning can be derived for a number of important models such as mixture models, HMMs etc. For these spectral methods, no spurious local optima occur, and the true parameters can be consistently estimated under some regularity conditions[citation needed].

See also

References

  1. ^ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
  2. ^ Ceppelini, R.M. (1955). "The estimation of gene frequencies in a random-mating population". Ann. Hum. Genet. 20 (2): 97–115. doi:10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
  3. ^ Hartley, Herman Otto (1958). "Maximum Likelihood estimation from incomplete data". Biometrics. 14 (2): 174–194. doi:10.2307/2527783. JSTOR 2527783.
  4. ^ Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics. 1 (2): 49–58. JSTOR 4615553. MR 0381110.
  5. ^ a b Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
  6. ^ a b Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation. 5 (1): 55–64. doi:10.1080/03610917608812007. MR 0443190.
  7. ^ See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.
  8. ^ G. Kulldorff. 1961. Contributions to the theory of estimation from grouped and partially grouped samples. Almqvist & Wiksell.
  9. ^ a b Anders Martin-Löf. 1963. "Utvärdering av livslängder i subnanosekundsområdet" ("Evaluation of sub-nanosecond lifetimes"). ("Sundberg formula")
  10. ^ a b Per Martin-Löf. 1966. Statistics from the point of view of statistical mechanics. Lecture notes, Mathematical Institute, Aarhus University. ("Sundberg formula" credited to Anders Martin-Löf).
  11. ^ a b Per Martin-Löf. 1970. Statistika Modeller (Statistical Models): Anteckningar från seminarier läsåret 1969–1970 (Notes from seminars in the academic year 1969-1970), with the assistance of Rolf Sundberg. Stockholm University. ("Sundberg formula")
  12. ^ a b Martin-Löf, P. The notion of redundancy and its use as a quantitative measure of the deviation between a statistical hypothesis and a set of observational data. With a discussion by F. Abildgård, A. P. Dempster, D. Basu, D. R. Cox, A. W. F. Edwards, D. A. Sprott, G. A. Barnard, O. Barndorff-Nielsen, J. D. Kalbfleisch and G. Rasch and a reply by the author. Proceedings of Conference on Foundational Questions in Statistical Inference (Aarhus, 1973), pp. 1–42. Memoirs, No. 1, Dept. Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus, 1974.
  13. ^ a b Martin-Löf, Per (1974). "The notion of redundancy and its use as a quantitative measure of the discrepancy between a statistical hypothesis and a set of observational data". Scand. J. Statist. 1 (1): 3–18.
  14. ^ a b c Wu, C. F. Jeff (Mar 1983). "On the Convergence Properties of the EM Algorithm". Annals of Statistics. 11 (1): 95–103. doi:10.1214/aos/1176346060. JSTOR 2240463. MR 0684867.
  15. ^ Little, Roderick J.A.; Rubin, Donald B. (1987). Statistical Analysis with Missing Data. Wiley Series in Probability and Mathematical Statistics. New York: John Wiley & Sons. pp. 134–136. ISBN 978-0-471-80254-9.
  16. ^ a b Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). A view of the EM algorithm that justifies incremental, sparse, and other variants (PDF). Learning in Graphical Models. Cambridge, MA: MIT Press. pp. 355–368. ISBN 978-0-262-60032-3. Retrieved 2009-03-22.
  17. ^ a b Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). "8.5 The EM algorithm". The Elements of Statistical Learning. New York: Springer. pp. 236–243. ISBN 978-0-387-95284-0.
  18. ^ Lindstrom, Mary J; Bates, Douglas M (1988). "Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data". Journal of the American Statistical Association. 83 (404): 1014. doi:10.1080/01621459.1988.10478693.
  19. ^ Van Dyk, David A (2000). "Fitting Mixed-Effects Models Using Efficient EM-Type Algorithms". Journal of Computational and Graphical Statistics. 9 (1): 78–98. doi:10.2307/1390614. JSTOR 1390614.
  20. ^ Diffey, S. M; Smith, A. B; Welsh, A. H; Cullis, B. R (2017). "A new REML (parameter expanded) EM algorithm for linear mixed models". Australian & New Zealand Journal of Statistics. 59 (4): 433. doi:10.1111/anzs.12208.
  21. ^ Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
  22. ^ Einicke, G. A.; Malos, J. T.; Reid, D. C.; Hainsworth, D. W. (January 2009). "Riccati Equation and EM Algorithm Convergence for Inertial Navigation Alignment". IEEE Trans. Signal Process. 57 (1): 370–375. Bibcode:2009ITSP...57..370E. doi:10.1109/TSP.2008.2007090. S2CID 1930004.
  23. ^ Einicke, G. A.; Falco, G.; Malos, J. T. (May 2010). "EM Algorithm State Matrix Estimation for Navigation". IEEE Signal Processing Letters. 17 (5): 437–440. Bibcode:2010ISPL...17..437E. doi:10.1109/LSP.2010.2043151. S2CID 14114266.
  24. ^ Einicke, G. A.; Falco, G.; Dunn, M. T.; Reid, D. C. (May 2012). "Iterative Smoother-Based Variance Estimation". IEEE Signal Processing Letters. 19 (5): 275–278. Bibcode:2012ISPL...19..275E. doi:10.1109/LSP.2012.2190278. S2CID 17476971.
  25. ^ Einicke, G. A. (Sep 2015). "Iterative Filtering and Smoothing of Measurements Possessing Poisson Noise". IEEE Transactions on Aerospace and Electronic Systems. 51 (3): 2205–2011. Bibcode:2015ITAES..51.2205E. doi:10.1109/TAES.2015.140843. S2CID 32667132.
  26. ^ Jamshidian, Mortaza; Jennrich, Robert I. (1997). "Acceleration of the EM Algorithm by using Quasi-Newton Methods". Journal of the Royal Statistical Society, Series B. 59 (2): 569–587. doi:10.1111/1467-9868.00083. MR 1452026. S2CID 121966443.
  27. ^ Liu, C (1998). "Parameter expansion to accelerate EM: The PX-EM algorithm". Biometrika. 85 (4): 755–770. CiteSeerX 10.1.1.134.9617. doi:10.1093/biomet/85.4.755.
  28. ^ Meng, Xiao-Li; Rubin, Donald B. (1993). "Maximum likelihood estimation via the ECM algorithm: A general framework". Biometrika. 80 (2): 267–278. doi:10.1093/biomet/80.2.267. MR 1243503. S2CID 40571416.
  29. ^ Liu, Chuanhai; Rubin, Donald B (1994). "The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence". Biometrika. 81 (4): 633. doi:10.1093/biomet/81.4.633. JSTOR 2337067.
  30. ^ Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Accelerating Expectation–Maximization Algorithms with Frequent Updates" (PDF). Proceedings of the IEEE International Conference on Cluster Computing.
  31. ^ Hunter DR and Lange K (2004), A Tutorial on MM Algorithms, The American Statistician, 58: 30–37
  32. ^ Matsuyama, Yasuo (2003). "The α-EM algorithm: Surrogate likelihood maximization using α-logarithmic information measures". IEEE Transactions on Information Theory. 49 (3): 692–706. doi:10.1109/TIT.2002.808105.
  33. ^ Matsuyama, Yasuo (2011). "Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs". International Joint Conference on Neural Networks: 808–816.
  34. ^ a b Wolynetz, M.S. (1979). "Maximum likelihood estimation in a linear model from confined and censored normal data". Journal of the Royal Statistical Society, Series C. 28 (2): 195–206. doi:10.2307/2346749. JSTOR 2346749.
  35. ^ Pearson, Karl (1894). "Contributions to the Mathematical Theory of Evolution". Philosophical Transactions of the Royal Society of London A. 185: 71–110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003. ISSN 0264-3820. JSTOR 90667.
  36. ^ Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "Learning Latent Variable Models by Improving Spectral Solutions with Exterior Point Method" (PDF). UAI: 792–801.
  37. ^ Balle, Borja Quattoni, Ariadna Carreras, Xavier (2012-06-27). Local Loss Optimization in Operator Models: A New Insight into Spectral Learning. OCLC 815865081.{{cite book}}: CS1 maint: multiple names: authors list (link)
  38. ^ Lange, Kenneth. "The MM Algorithm" (PDF).

Further reading

  • Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introduction to Mathematical Statistics. Upper Saddle River, NJ: Pearson Prentice Hall. pp. 359–364.
  • Dellaert, Frank (2002). "The Expectation Maximization Algorithm". CiteSeerX 10.1.1.9.9735. {{cite journal}}: Cite journal requires journal= (help) gives an easier explanation of EM algorithm as to lowerbound maximization.
  • Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
  • Gupta, M. R.; Chen, Y. (2010). "Theory and Use of the EM Algorithm". Foundations and Trends in Signal Processing. 4 (3): 223–296. CiteSeerX 10.1.1.219.6830. doi:10.1561/2000000034. A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
  • Bilmes, Jeff (1998). "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models". CiteSeerX 10.1.1.28.613. {{cite journal}}: Cite journal requires journal= (help) includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
  • McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). The EM Algorithm and Extensions (2nd ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.

External links