This is a good article. Click here for more information.

히든 마르코프 모델

Hidden Markov model

Hidden Markov Model(HM)은 모델링되고 있는 시스템이 관측할 수 없는("숨겨진") 상태의 Markov 프로세스( X로 가정되는 통계 Markov 모델이다.정의의 일부로, HMM은 결과에 의해 결과가 알려진 "영향력"인 관측 가능한 프로세스 이(가) 있어야 한다고 요구한다. 은(는) 직접 관찰할 수 없으므로 Y}을(를) 관찰하여 에 대해 학습하는 것이 목표다MH는 t = = t 0 의 결과에 의해 의 결과가 "영향"될 수 있다는 추가 요건이 있다.= = t에서 < 에서X Y 가 t= =에서 의 결과에 영향을 미치지 않아야 한다.

Hidden Markov 모델열역학, 통계역학, 물리학, 화학, 경제학, 금융, 신호처리, 정보이론, 패턴 인식 - 언어, 필기, 제스처 인식,[1] 음성 태그 지정, 음악적 점수 후속,[2] 부분 배출[3]생물정보학 등에 응용한 것으로 알려져 있다.[4][5]

정의

n 를 이산 시간 확률적 프로세스 n 1로 두어라 , Y) {\ (n은(는) 다음과 같은 경우 숨겨진 마르코프 모델이다.

  • (는) 직접 관찰할 수 없는("숨김") 마코프 프로세스다.
, 1 ,, 1,{ {\ 모든 보렐에 대해 를 설정한다

를 연속 시간 확률적 프로세스로 한다. , t) 은(는) 다음과 같은 경우 숨겨진 마르코프 모델이다.

  • (는) 행동을 직접 관측할 수 없는 마르코프 프로세스다.
  • ,
보렐 집합A {\0}에 대해 모든 보렐 집합 A 보렐 집합의 모든 집합은 t 0 {\\{

용어.

X n{\resp). are called hidden states, and (resp. ( X ) A방출 확률 또는 출력 확률이라고 한다.

숨겨진 항아리에서 공 그리기

그림 1.숨겨진 Markov 모델의 확률론적 매개변수(예)
X — 상태
y — 가능한 관측치
a — 상태 전이 확률
b — 출력 확률

분리된 형태에서, 숨겨진 마르코프 프로세스는 (항아리의 각 품목이 다음 단계 이전에 원래의 항아리로 반환되는 경우) 교체와 함께 항아리의 문제를 일반화하는 것으로 시각화할 수 있다.[6]이 예를 들어보자: 관찰자가 볼 수 없는 방에는 지니가 있다.방에는 항아리 X1, X2, X3이 들어 있으며, 각각의 공은 y1, y2, y3, ...라고 이름 붙여진 것으로 알려진 혼합된 공들을 포함하고 있다. 지니는 그 방에서 항아리를 골라 무작위로 그 항아리에서 공을 뽑는다.그런 다음, 이 공은 컨베이어 벨트 위에 공을 올려놓는데, 관찰자는 공의 순서를 관찰할 수 있지만, 그것들이 그려진 항아리의 순서는 관찰할 수 없다.지니에는 항아리를 선택하는 몇 가지 절차가 있다. n-th 볼의 항아리의 선택은 무작위 번호와 (n - 1)-th 볼의 항아리의 선택에 달려 있다.항아리의 선택은 이 단일 항아리의 이전에 선택한 항아리에 직접 의존하지 않으므로 이를 마르코프 과정이라고 한다.그림 1의 윗부분으로 설명할 수 있다.

마르코프 과정 자체는 관찰할 수 없으며, 라벨이 붙은 공의 순서만 관찰할 수 있으므로, 이 배열을 "숨겨진 마르코프 과정"이라고 한다.이는 그림 1에 표시된 도표의 하단에 의해 설명되며, 여기서 볼 y1, y2, y3, y4는 각 상태에서 그릴 수 있다는 것을 알 수 있다.관측자가 항아리의 구성을 알고 있고, 컨베이어 벨트의 y1, y2, y3과 같은 세 개의 공의 순서를 방금 관찰했더라도, 관측자는 여전히 어떤 항아리(즉, 지니가 세 번째 공을 끌어냈는지)를 확인할 수 없다.그러나 관찰자는 세 번째 공이 항아리에서 각각 나왔을 가능성과 같은 다른 정보를 알아낼 수 있다.

날씨 추측 게임

앨리스와 밥이라는 두 친구를 생각해보자. 앨리스와 밥은 서로 멀리 떨어져 살고 그날 무슨 일을 했는지 매일 전화로 함께 이야기한다.밥은 단지 공원 산책, 쇼핑, 아파트 청소 등 세 가지 활동에만 관심이 있다.무엇을 할 것인가의 선택은 오로지 주어진 날의 날씨에 의해 결정된다.앨리스는 날씨에 대한 확실한 정보는 없지만 일반적인 추세를 알고 있다.밥이 그녀에게 매일 했던 말을 바탕으로 앨리스는 날씨가 어땠을지 추측하려고 노력한다.

앨리스는 날씨가 분리된 마르코프 체인으로 작용한다고 믿는다.'레이니'와 '써니' 두 주가 있지만 직접 관찰할 수 없다는 것, 즉 그녀에게는 숨겨져 있다는 것이다.매일, 밥은 날씨에 따라, "걷기"나 "쇼핑" 또는 "청소" 중 하나를 할 가능성이 있다.밥이 앨리스에게 그의 활동에 대해 말했기 때문에, 그것들은 관찰된 것이다.전체 시스템은 숨겨진 마르코프 모델(HM)의 시스템이다.

앨리스는 그 지역의 일반적인 날씨 동향과 평균적으로 밥이 좋아하는 일을 알고 있다.즉, HMM의 매개변수가 알려져 있다.Python에서는 다음과 같이 표현할 수 있다.

미국. = ('레인', '써니')   관측 = ('걷다', '쇼핑', '깨끗한')   start_lights = {'레인': 0.6, '써니': 0.4}   transition_properties = {    '레인' : {'레인': 0.7, '써니': 0.3},    '써니' : {'레인': 0.4, '써니': 0.6},    }   excommission_production. = {    '레인' : {'걷다': 0.1, '쇼핑': 0.4, '깨끗한': 0.5},    '써니' : {'걷다': 0.6, '쇼핑': 0.3, '깨끗한': 0.1},    } 

이 코드 조각에는start_probability밥이 처음 그녀에게 전화를 걸었을 때 HMM이 어떤 상태에 있는지에 대한 앨리스의 믿음을 나타낸다(그녀가 아는 것은 평균적으로 비가 오는 경향이 있다는 것뿐이다).여기서 사용되는 특정 확률 분포는 평형 분포가 아니며, 이는 (전환 확률을 고려할 때) 대략적인 것이다.{'Rainy': 0.57, 'Sunny': 0.43}. Thetransition_probability기초가 되는 마르코프 체인의 날씨 변화를 나타낸다.이 예에서 오늘 비가 온다면 내일은 맑을 확률이 30%에 불과하다.emission_probability밥이 매일 특정한 활동을 할 가능성이 얼마나 있는지를 나타낸다.비가 오면 아파트를 청소할 확률이 50%이고, 햇볕이 잘 쨍쨍 내리쬐면 밖에 나가서 산책할 확률이 60%에 이른다.

Graphical representation of the given HMM

비슷한 예가 비테르비 알고리즘 페이지에서도 자세히 설명되어 있다.

구조 건축

아래 도표는 인스턴스화된 HMM의 일반적인 구조를 보여준다. 각 타원형 모양은 많은 값들 중 하나를 채택할 수 있는 무작위 변수를 나타낸다.랜덤 변수 x(t)는 시간 t의 숨겨진 상태(위 다이어그램의 모델에서, x(t) ∈{ x, x1, x23 })이다.랜덤 변수 y(t)는 시간 t (y(t) ∈ { y1, y2, y3, y, y4 })에서의 관측치다.다이어그램의 화살표(흔히 트레일리스 다이어그램이라고 함)는 조건부 의존성을 나타낸다.

도표를 보면, 숨겨진 변수 x의 값을 항상 고려할 때, 시간 t에서의 숨겨진 변수 x(t)의 조건부 확률 분포는 오직 숨겨진 변수 x(t - 1)의 값에만 의존하며, 시간 t - 2와 이전 값은 영향을 미치지 않는다는 것이 분명하다.이것을 마르코프 속성이라고 한다.마찬가지로 관측 변수 y(t)의 값은 숨겨진 변수 x(t)의 값(둘 다 시간 t)에만 의존한다.

여기서 고려하는 숨겨진 마르코프 모델의 표준 유형에서, 숨겨진 변수의 상태 공간은 이산형(일반적으로 범주형 분포에서 생성됨)이나 연속형(일반적으로 가우스 분포에서 생성됨)일 수 있다.숨겨진 마르코프 모델의 매개변수는 전환 확률방출 확률(출력 확률이라고도 함)의 두 가지 유형이다.전환 확률은 t- 의 숨겨진 상태가 선택되는 방식을 제어한다

숨겨진 상태 공간은 범주형 분포로 모델링된 N개의 가능한 값 중 하나로 구성된다고 가정한다.(다른 가능성은 아래 확장 섹션을 참조하십시오.), 가능한 각 N 상태에 대해 시간 t의 숨겨진 변수가 있을 수 있다고 명시하는 경우, N2 개의 확률에 대해이 상태에서 시간 + 1 의 숨겨진 변수의 가능한 각 상태로 전환 확률이 있다는 것을 의미한다.주어진 상태에서 전환하기 위한 전환 확률의 집합은 1로 합해야 한다는 점에 유의하십시오.따라서 전환 N {\ N 행렬은 마르코프 행렬이다.전환 확률은 다른 것을 알고 나면 결정할 수 있기 때문에, 총 ( - N 개의 전환 매개변수가 있다.

또한 N개 가능한 각 상태에 대해, 특정 시간에 관측된 변수의 분포를 지배하는 일련의 방출 확률은 그 당시 숨겨진 변수의 상태가 주어진다.이 집합의 크기는 관측된 변수의 특성에 따라 달라진다.예를 들어 관측 변수가 범주형 분포에 의해 관리되는 M 가능한 값과 이산형인 경우 모든 숨겨진 상태에 대한 총 (M -) ) 배출 파라미터에 대해 - 개의 개별 파라미터가 있을 것이다.반면 관측 변수가 임의 다변량 가우스 분포에 따라 분포된 M차원 벡터인 경우 평균+ ) }를 제어하는 M 파라미터가 있을 것이다.}}}의 공분산행렬을 제어하는 매개 + M ( 1) = ( + 3)2 = ( 2) N1){\frac(M)}{22}{}}{2}}}{}{2}}}} emission parameters. (In such a case, unless the value of M is small, it may be more practical to restrict the nature of the covariances between individual elements of the observation vector, e.g. by assuming that the elements are independent of each other, or less restrictively, are independent of all but 고정 개수의 인접 요소)

Temporal evolution of a hidden Markov model

추론

HMM의 상태 전이 및 출력 확률은 다이어그램 상단의 선 불투명도로 표시된다.도표 하단의 출력 시퀀스를 관찰한 결과, 이를 생성할 수 있었던 상태 시퀀스에 관심이 있을 수 있다.다이어그램에 표시되는 화살표를 기반으로 다음 상태 시퀀스가 후보군이다.
5 3 2 5 3 2
4 3 2 5 3 2
3 1 2 5 3 2
상태 시퀀스와 각 경우에 대한 관측치 모두의 공동 확률을 평가함으로써 가장 가능성이 높은 시퀀스를 찾을 수 있다(여기서 관련 화살표의 오퍼시티에 해당하는 확률 값을 곱하는 것으로 단순화).일반적으로 이러한 유형의 문제(즉 관찰 시퀀스에 대해 가장 가능성이 높은 설명 찾기)는 비테르비 알고리즘을 사용하여 효율적으로 해결할 수 있다.

몇 가지 추론 문제는 아래에 설명된 바와 같이 숨겨진 마르코프 모델과 연관되어 있다.

관측된 시퀀스의 확률

과제는 모델의 매개변수를 고려하여 특정 출력 시퀀스의 확률을 최상으로 계산하는 것이다.이를 위해서는 가능한 모든 상태 시퀀스에 대한 합계가 필요하다.

시퀀스를 관측할 확률

L은 다음에 의해 주어진다.

합계가 가능한 모든 숨겨진 노드 시퀀스에 걸쳐 실행될 경우

동적 프로그래밍의 원리를 적용하면, 이 문제도 전진 알고리즘을 사용하여 효율적으로 처리할 수 있다.

잠재 변수의 확률

모형의 매개변수와 y( ),… ,(t ). ) )의 시퀀스를 감안할 때, 많은 관련 작업들은 하나 이상의 잠재 변수의 확률에 대해 질문한다

필터링

이 작업은 모델의 매개변수와 일련의 관측치를 고려하여 계산하는 것이다. 즉, 시퀀스 끝에서 마지막 잠재 변수의 숨겨진 상태에 대한 분포를 계산하는 이다., P ( ) ( 1),( ) P\ y ,\이 작업은 일반적으로 잠재적 변수의 순서가 공정이 각 시점에서 상응하는 관찰과 함께 시간의 순서에 따라 이동한다는 기초적인 상태로 생각될 때 사용된다.그렇다면 마지막에 진행 상황을 묻는 것이 당연하다.

문제는 포워드 알고리즘을 사용하여 효율적으로 처리할 수 있다.

스무딩

이 필터링 하겠다고 했지만 잠재 변수의 유통에 대해 어딘가 시퀀스의 중간에, 즉 P계산하기 위해(x(k)는 y(1), …, 몇몇 k개체에 y(t)){\displaystyle P(x(k)\),y(t)y(1),\dots)};t{\displaystyle k&lt는}에게 묻는다. 관점 위에서 설명한부터, 이것은톤으로 간주될 수 있는 유사하다그는 전문가과거 시간 t에 상대적인 시간 k에 대한 숨겨진 상태에 대한 확률 분포.

전방-후방 알고리즘은 모든 숨겨진 상태 변수의 평활값을 계산하는 좋은 방법이다.

가장 가능성이 높은 설명

이 과제는 앞의 두 가지와 달리 특정 관측 순서를 생성했던 숨겨진 상태의 전체 시퀀스에 대한 공동 확률을 묻는다(오른쪽 그림 참조).이 작업은 일반적으로 필터링 및 평활화 작업이 적용되는 문제와 다른 종류의 문제에 HMM을 적용할 때 적용된다.예를 들어, 숨겨진 상태가 관찰된 단어의 순서에 해당하는 언어의 기초 부분을 나타내는 부분 음성 태그를 들 수 있다.이 경우, 필터링이나 평활화가 계산되는 것처럼 단순히 한 단어에 대한 음성 부분이 아니라, 언어의 전체 시퀀스다.

이 작업은 가능한 모든 상태 시퀀스에 걸쳐 최대값을 찾아야 하며 Viterbi 알고리즘으로 효율적으로 해결할 수 있다.

통계적 유의성

위의 문제들 중 일부에 대해서는 통계적 의의에 대해 질문하는 것도 흥미로울 수 있다.일부 null 분포에서 추출한 시퀀스가 HMM 확률(전방 알고리즘의 경우) 또는 최대 상태 시퀀스 확률(Viterbi 알고리즘의 경우)을 가질 확률은 최소한 특정 출력 시퀀스의 그것만큼인가?[7]특정 출력 시퀀스에 대한 가설의 관련성을 평가하기 위해 HMM을 사용하는 경우, 통계적 유의성은 출력 시퀀스에 대한 가설을 기각하지 않는 것과 관련된 잘못된 양의 비율을 나타낸다.

학습

HMMs의 매개변수 학습 과제는 출력 시퀀스 또는 일련의 그러한 시퀀스를 주어진 최상의 상태 전환 및 방출 확률을 찾는 것이다.일반적으로 작업은 출력 시퀀스 집합이 주어진 HMM 파라미터의 최대우도 추정치를 도출하는 것이다.이 문제를 정확하게 해결하기 위해 추적 가능한 알고리즘은 알려져 있지 않지만, 국소 최대 가능성은 바움-바움-을 사용하여 효율적으로 도출될 수 있다.웰치 알고리즘 또는 발디-차우빈 알고리즘. 바움-Welch 알고리즘은 기대 최대화 알고리즘의 특별한 경우다.

시계열 예측에 HM을 사용할 경우, 마르코프 체인 몬테 카를로(MMC) 샘플링과 같은 보다 정교한 베이시안 추론 방법이 정확성과 안정성 측면에서 단일 최대우도 모델을 찾는 것보다 유리한 것으로 입증된다.[8]MCMC는 상당한 계산 부담을 부과하기 때문에 계산 확장성이 관심 있는 경우 베이시안 추론(예: 베이시안 추론)에 변동 근사치에 의존할 수 있다.[9]실제로 대략적인 변동 추론은 기대 최대화에 견줄 만한 계산 효율을 제공하는 한편, 정확도 프로파일은 정확한 MCMC형 베이시안 추론보다 약간 낮은 수준에 불과하다.

적용들

다중 시퀀스 정렬을 모델링하는 프로파일 HMM

HMM은 즉시 관측할 수 없는 데이터 시퀀스를 복구하는 것이 목표인 많은 분야에 적용될 수 있다(그러나 시퀀스에 의존하는 다른 데이터는 다음과 같다).응용 프로그램에는 다음이 포함된다.

역사

히든 마르코프 모델은 1960년대 후반에 레너드 E. Baum과 다른 작가들에 의해 일련의 통계 논문에서 설명되었다.[25][26][27][28][29]MHMs의 첫 적용 중 하나는 1970년대 중반부터 음성 인식이었다.[30][31][32][33]

1980년대 후반, HMMs가 생물학적 시퀀스,[34] 특히 DNA 분석에 적용되기 시작했다.그 이후로, 그것들은 생물정보학 분야에서 어디서나 볼 수 있게 되었다.[35]

확장

위에서 고려한 숨겨진 마르코프 모델에서, 숨겨진 변수의 상태 공간은 이산형(일반적으로 범주형 분포에서 생성됨)이나 연속형(일반적으로 가우스 분포에서 생성됨)일 수 있다.히든 마르코프 모델도 연속적인 상태 공간이 가능하도록 일반화할 수 있다.그러한 모델의 예로는 숨겨진 변수에 대한 마르코프 공정이 관련 변수들 의 선형 관계를 갖는 선형 역학 시스템이고 모든 숨겨진 변수와 관찰된 변수가 가우스 분포를 따르는 경우를 들 수 있다.방금 언급한 선형 역학 시스템과 같은 간단한 경우, 정확한 추론은 추적할 수 있지만(이 경우, Kalman 필터를 사용하는 경우), 일반적으로 연속적인 잠재적 변수가 있는 HMM의 정확한 추론은 실현 불가능하며, 확장된 Kalman 필터입자 필터와 같은 대략적인 방법을 사용해야 한다.

Hidden Markov 모델은 관측치와 은닉 상태의 공동 분포 또는 은닉 상태의 사전 분포(전환 확률)와 주어진 상태의 조건부 분포(배출 확률)를 모두 모델링하는 생성 모델이다.위의 알고리즘은 전이 확률에 대한 균일한 사전 분포를 암시적으로 가정한다.그러나 다른 유형의 이전 분포로 숨겨진 마르코프 모델을 만들 수도 있다.전환 확률의 범주형 분포를 고려할 때 분명한 후보는 범주형 분포의 결합 사전 분포인 디리클레 분포다.일반적으로 대칭적인 디리클레 분포를 선택하는데, 이는 어떤 상태가 다른 상태보다 선천적으로 더 가능성이 높은지에 대한 무지를 반영한다.이 분포의 단일 모수(농도 모수라고 함)는 결과 전이 매트릭스의 상대 밀도 또는 극성을 제어한다.1을 선택하면 균일한 분포를 얻을 수 있다.1보다 큰 값은 밀도 행렬을 생성하며, 이 행렬에서 상태 쌍 간의 전환 확률은 거의 동일할 가능성이 있다.값이 1보다 작으면 각 주어진 소스 상태에 대해 소수의 대상 상태만이 불가결한 전환 확률을 갖는 희소 행렬이 발생한다.또한 하나의 디리클레 분포(상위 분포)가 다른 디리클레 분포의 매개변수(하위 분포)를 지배하는 2-수준 이전 디리클레 분포도 사용할 수 있으며, 이는 결국 전환 확률을 지배한다.상위 분포는 각 상태가 발생할 가능성을 결정하면서 주 전체의 분포를 지배한다. 그 농도 매개변수는 주의 밀도 또는 넓이를 결정한다.두 농도 매개변수가 모두 희박한 분포를 생성하도록 설정된 이러한 2단계 사전 분포는 예를 들어 음성 일부 부분이 다른 부분보다 훨씬 더 흔하게 발생하는 감독되지 않은 음성 부분 태그 지정에서 유용할 수 있다. 균일한 사전 분포를 가정하는 학습 알고리즘은 일반적으로 이 과제에 저조한 성과를 보인다.균일하지 않은 사전 분포를 사용한 이 종류의 모델 매개변수는 Gibbs 샘플링 또는 기대 최대화 알고리즘의 확장 버전을 사용하여 학습할 수 있다.

디리클레 이전 버전과 함께 이전에 설명한 숨겨진 마르코프 모델의 확장은 디리클레 분포 대신 디리클레 프로세스를 사용한다.이러한 유형의 모델은 알 수 없고 잠재적으로 무한한 수의 상태를 허용한다.두 가지 수준의 디리클레 분포를 갖는 앞에서 설명한 모델과 유사한 2-수준 디리클레 프로세스를 사용하는 것이 일반적이다.이러한 모델을 계층적 Diriclet 프로세스 숨겨진 Markov 모델, 즉 HDP-HM이라고 부른다.그것은 원래 "무한히 숨겨진 마르코프 모델"[3]이라는 이름으로 설명되었고, 더욱[4] 공식화되었다.

다른 유형의 확장은 표준 HMM의 생성 모델 대신 차별적 모델을 사용한다. 이러한 유형의 모델은 공동 분포를 모델링하는 것이 아니라 관측치가 주어진 숨겨진 상태의 조건부 분포를 직접 모델링한다.이 모델의 예로는 로지스틱 회귀 분석("최대 엔트로피 모델"이라고도 함)을 사용하여 상태의 조건부 분포를 모형화하는 이른바 최대 엔트로피 마르코프 모델(MEMM)이 있다.이러한 유형의 모델의 장점은 관찰의 임의적 특징(즉, 함수)을 모델링할 수 있어 당면한 문제에 대한 도메인별 지식을 모델에 주입할 수 있다는 것이다.이러한 종류의 모델은 숨겨진 상태와 관련 관찰 사이의 직접적인 의존성을 모델링하는 데 국한되지 않는다. 오히려 주변 관찰의 특징, 관련 관찰과 주변 관찰의 조합 또는 주어진 숨겨진 상태로부터 임의의 관찰이 프로세스 사용에 포함될 수 있다.d 은닉 상태의 값을 결정한다.더욱이 이러한 특성이 생성 모델에 사용된 경우처럼, 이러한 특성이 서로 통계적으로 독립적일 필요는 없다.마지막으로, 단순한 전환 확률보다는 인접한 숨겨진 상태의 쌍 위에 임의의 형상을 사용할 수 있다.그러한 모형의 단점은 (1) 숨겨진 상태에 배치할 수 있는 사전 분포의 유형이 심각하게 제한된다. (2) 임의적인 관찰을 볼 확률을 예측할 수 없다.이 두 번째 제한은 종종 실제로 문제가 되지 않는다. 왜냐하면 HMM의 많은 일반적인 사용에는 그러한 예측 확률을 요구하지 않기 때문이다.

앞에서 설명한 차별적 모델의 변형은 선형 체인 조건부 랜덤 필드다.이것은 MEMM 및 유사한 모델의 지시 그래픽 모델이 아닌 비방향 그래픽 모델(Markov 랜덤 필드라고 함)을 사용한다.이런 유형의 모델은 MEMM의 이른바 라벨 바이어스 문제로 어려움을 겪지 않아 보다 정확한 예측을 할 수 있다는 장점이 있다.단점은 훈련 속도가 MEMM보다 느릴 수 있다는 점이다.

그러나 또 다른 변형은 요인형 숨겨진 마르코프 모델이다. 이것은 단일 마르코프 체인이 아닌 독립 마르코프 체인의 집합에 해당하는 숨겨진 변수에 대해 단일 관측치를 조건화할 수 있게 한다. HM에 해당하며, N N 상태(각 체인에 N N 있다고 가정)로 되어 있으므로, 그러한 모델에서 학습이 어렵다: 길이 의 시퀀스에 대해 Dimplic Viterbi 알고리즘은 복잡성 ( ) {)를 가지고 있다^{2KT 정확한 솔루션을 찾기 위해 접속 트리 알고리즘을 사용할 수 있었지만, 결과적으로 + 1 T) 복잡성이 발생한다.실무에서는 변동 접근법과 같은 근사치 기법을 사용할 수 있다.[36]

위의 모든 모델은 숨겨진 상태들 사이의 더 먼 의존성을 허용하기 위해 확장될 수 있다. 예를 들어, 주어진 상태가 하나의 이전 상태가 아닌 이전 두 세 상태에 의존하도록 허용한다. 즉, 전환 확률은 3, 4개의 인접한 상태( 일반 K )의 집합을 포함하도록 확장된다. 인접 상태).이러한 모델의 단점은 을 훈련시키기 위한 동적 프로그래밍 알고리즘이 K 인접 상태 및 총 관측치(즉, T{\Markov Chain)에 O( ) T)}\DisplaystyplaystyplaystyK}\T)}\T 실행 시간을 갖는다는 것이다.

또 다른 최근의 확장은 일부 데이터 특수성을 모델링하기 위해 보조 기본 프로세스를 추가하는 트리플트 마르코프 모델이다.[37]이 모델의 많은 변형들이 제안되었다.또한 증거 이론트리플트 마르코프[38] 모델 사이에 확립된 흥미로운 연결고리와 마코브 문맥의[39] 데이터를 융합시키고 비역전적 데이터를 모델링할 수 있는 연결고리를 언급해야 한다.[40][41]예를 들어, 최신 문헌에서도 대안적인 다중 스트림 데이터 융합 전략이 제안되고 있다는 점에 유의하십시오.[42]

마지막으로, 2012년에는 숨겨진 마르코프 모델을 통해 비역학 데이터 모델링 문제를 해결하기 위한 다른 논리가 제시되었다.[43]그것은 관찰된 데이터에서 시간 역학의 진화를 포착하기 위해 특히 저장장치 네트워크인 작은 재발 신경 네트워크(RNN)를 사용하는 것으로 구성된다.[44]고차원 벡터 형태로 인코딩된 이 정보는 HMM 상태 전이 확률의 조건화 변수로 사용된다.그러한 설정 하에서, 우리는 결국 시간적 진화의 비현실적인 임시 진화의 모델과는 반대로 데이터 자체에서 추론되는 방식으로 진화하는 비역동적 HMM을 얻는다.

종적 데이터의 맥락에서 적합한 모델은 잠복 마르코프 모델이라고 명명된다.[45]이 모델의 기본 버전은 개별 공변량, 무작위 효과 및 다단계 데이터와 같은 보다 복잡한 데이터 구조를 모델링하기 위해 확장되었다.모델 가정과 실제 사용에 특별한 주의를 기울이는 잠입형 마르코프 모델의 전체 개요가 다음에서[46] 제공된다.

참고 항목

참조

  1. ^ Thad Starner, Alex Pentland.Hidden Markov 모델을 사용한 비디오의 실시간 미국 수화 시각 인식.MIT, 1995년 2월 미디어 아트 프로그램 석사 논문
  2. ^ B. 파르도와 W. 버밍엄.온라인 음악 공연 모델 양식AAAI-05 Proc, 2005년 7월.
  3. ^ 사티쉬 L, 구루라즈 BI(2003년 4월)"부분 방전 패턴 분류에 숨겨진 마르코프 모델 사용"유전체절연체에서의 IEEE 거래.
  4. ^ Li, N; Stephens, M (December 2003). "Modeling linkage disequilibrium and identifying recombination hotspots using single-nucleotide polymorphism data". Genetics. 165 (4): 2213–33. doi:10.1093/genetics/165.4.2213. PMC 1462870. PMID 14704198.
  5. ^ Ernst, Jason; Kellis, Manolis (March 2012). "ChromHMM: automating chromatin-state discovery and characterization". Nature Methods. 9 (3): 215–216. doi:10.1038/nmeth.1906. PMC 3577932. PMID 22373907.
  6. ^ Lawrence R. Rabiner (February 1989). "A tutorial on Hidden Markov Models and selected applications in speech recognition" (PDF). Proceedings of the IEEE. 77 (2): 257–286. CiteSeerX 10.1.1.381.3454. doi:10.1109/5.18626. [1]
  7. ^ Newberg, L. (2009). "Error statistics of hidden Markov model and hidden Boltzmann model results". BMC Bioinformatics. 10: 212. doi:10.1186/1471-2105-10-212. PMC 2722652. PMID 19589158. open access
  8. ^ 시포스, 아이. 로버트.확률적 시계열 예측을 위한 AR-HM의 병렬 계층화된 MMC 샘플링.인: 절차, 제4차 확률적 모델링 기법 및 데이터 분석 국제 회의(SMTDA2016), 페이지 295-306.발레타, 2016.PDF
  9. ^ Chatzis, Sotirios P.; Kosmopoulos, Dimitrios I. (2011). "A variational Bayesian methodology for hidden Markov models utilizing Student's-t mixtures" (PDF). Pattern Recognition. 44 (2): 295–306. Bibcode:2011PatRe..44..295C. CiteSeerX 10.1.1.629.6275. doi:10.1016/j.patcog.2010.09.001.
  10. ^ Sipos, I. Róbert; Ceffer, Attila; Levendovszky, János (2016). "Parallel Optimization of Sparse Portfolios with AR-HMMs". Computational Economics. 49 (4): 563–578. doi:10.1007/s10614-016-9579-y. S2CID 61882456.
  11. ^ Petropoulos, Anastasios; Chatzis, Sotirios P.; Xanthopoulos, Stylianos (2016). "A novel corporate credit rating system based on Student's-t hidden Markov models". Expert Systems with Applications. 53: 87–105. doi:10.1016/j.eswa.2016.01.015.
  12. ^ NICOLAI, CHRISTOPHER (2013). "SOLVING ION CHANNEL KINETICS WITH THE QuB SOFTWARE". Biophysical Reviews and Letters. 8 (3n04): 191–211. doi:10.1142/S1793048013300053.
  13. ^ Domingos, Pedro (2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books. p. 37. ISBN 9780465061921.
  14. ^ Stigler, J.; Ziegler, F.; Gieseke, A.; Gebhardt, J. C. M.; Rief, M. (2011). "The Complex Folding Network of Single Calmodulin Molecules". Science. 334 (6055): 512–516. Bibcode:2011Sci...334..512S. doi:10.1126/science.1207598. PMID 22034433. S2CID 5502662.
  15. ^ Blasiak, S.; Rangwala, H. (2011). "A Hidden Markov Model Variant for Sequence Classification". IJCAI Proceedings-International Joint Conference on Artificial Intelligence. 22: 1192.
  16. ^ Wong, W.; Stamp, M. (2006). "Hunting for metamorphic engines". Journal in Computer Virology. 2 (3): 211–229. doi:10.1007/s11416-006-0028-7. S2CID 8116065.
  17. ^ Wong, K. -C.; Chan, T. -M.; Peng, C.; Li, Y.; Zhang, Z. (2013). "DNA motif elucidation using belief propagation". Nucleic Acids Research. 41 (16): e153. doi:10.1093/nar/gkt574. PMC 3763557. PMID 23814189.
  18. ^ Shah, Shalin; Dubey, Abhishek K.; Reif, John (2019-05-17). "Improved Optical Multiplexing with Temporal DNA Barcodes". ACS Synthetic Biology. 8 (5): 1100–1111. doi:10.1021/acssynbio.9b00010. PMID 30951289. S2CID 96448257.
  19. ^ Shah, Shalin; Dubey, Abhishek K.; Reif, John (2019-04-10). "Programming Temporal DNA Barcodes for Single-Molecule Fingerprinting". Nano Letters. 19 (4): 2668–2673. Bibcode:2019NanoL..19.2668S. doi:10.1021/acs.nanolett.9b00590. ISSN 1530-6984. PMID 30896178. S2CID 84841635.
  20. ^ "ChromHMM: Chromatin state discovery and characterization". compbio.mit.edu. Retrieved 2018-08-01.
  21. ^ El Zarwi, Feraz (May 2011). "Modeling and Forecasting the Evolution of Preferences over Time: A Hidden Markov Model of Travel Behavior". arXiv:1707.09133 [stat.AP].
  22. ^ Morf, H. (Feb 1998). "The stochastic two-state solar irradiance model (STSIM)". Solar Energy. 62 (2): 101–112. Bibcode:1998SoEn...62..101M. doi:10.1016/S0038-092X(98)00004-8.
  23. ^ Munkhammar, J.; Widén, J. (Aug 2018). "A Markov-chain probability distribution mixture approach to the clear-sky index". Solar Energy. 170: 174–183. Bibcode:2018SoEn..170..174M. doi:10.1016/j.solener.2018.05.055. S2CID 125867684.
  24. ^ Munkhammar, J.; Widén, J. (Oct 2018). "An N-state Markov-chain mixture distribution model of the clear-sky index". Solar Energy. 173: 487–495. Bibcode:2018SoEn..173..487M. doi:10.1016/j.solener.2018.07.056. S2CID 125538244.
  25. ^ Baum, L. E.; Petrie, T. (1966). "Statistical Inference for Probabilistic Functions of Finite State Markov Chains". The Annals of Mathematical Statistics. 37 (6): 1554–1563. doi:10.1214/aoms/1177699147.
  26. ^ Baum, L. E.; Eagon, J. A. (1967). "An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology". Bulletin of the American Mathematical Society. 73 (3): 360. doi:10.1090/S0002-9904-1967-11751-8. Zbl 0157.11101.
  27. ^ Baum, L. E.; Sell, G. R. (1968). "Growth transformations for functions on manifolds". Pacific Journal of Mathematics. 27 (2): 211–227. doi:10.2140/pjm.1968.27.211. Retrieved 28 November 2011.
  28. ^ Baum, L. E.; Petrie, T.; Soules, G.; Weiss, N. (1970). "A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains". The Annals of Mathematical Statistics. 41 (1): 164–171. doi:10.1214/aoms/1177697196. JSTOR 2239727. MR 0287613. Zbl 0188.49603.
  29. ^ Baum, L.E. (1972). "An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of a Markov Process". Inequalities. 3: 1–8.
  30. ^ Baker, J. (1975). "The DRAGON system—An overview". IEEE Transactions on Acoustics, Speech, and Signal Processing. 23: 24–29. doi:10.1109/TASSP.1975.1162650.
  31. ^ Jelinek, F.; Bahl, L.; Mercer, R. (1975). "Design of a linguistic statistical decoder for the recognition of continuous speech". IEEE Transactions on Information Theory. 21 (3): 250. doi:10.1109/TIT.1975.1055384.
  32. ^ Xuedong Huang; M. Jack; Y. Ariki (1990). Hidden Markov Models for Speech Recognition. Edinburgh University Press. ISBN 978-0-7486-0162-2.
  33. ^ Xuedong Huang; Alex Acero; Hsiao-Wuen Hon (2001). Spoken Language Processing. Prentice Hall. ISBN 978-0-13-022616-7.
  34. ^ M. Bishop and E. Thompson (1986). "Maximum Likelihood Alignment of DNA Sequences". Journal of Molecular Biology. 190 (2): 159–165. doi:10.1016/0022-2836(86)90289-5. PMID 3641921. (필요한 경우) closed access
  35. ^ Durbin, Richard M.; Eddy, Sean R.; Krogh, Anders; Mitchison, Graeme (1998), Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids (1st ed.), Cambridge, New York: Cambridge University Press, doi:10.2277/0521629713, ISBN 0-521-62971-3, OCLC 593254083
  36. ^ Ghahramani, Zoubin; Jordan, Michael I. (1997). "Factorial Hidden Markov Models". Machine Learning. 29 (2/3): 245–273. doi:10.1023/A:1007425814087.
  37. ^ Pieczynski, Wojciech (2002). "Chaı̂nes de Markov Triplet". Comptes Rendus Mathématique. 335 (3): 275–278. doi:10.1016/S1631-073X(02)02462-7.
  38. ^ Pieczynski, Wojciech (2007). "Multisensor triplet Markov chains and theory of evidence". International Journal of Approximate Reasoning. 45: 1–16. doi:10.1016/j.ijar.2006.05.001.
  39. ^ Boudaren 외, M. Y. Boudaren, E. Monfrini, W. Pieczynski, A.Aissani, Dempster-Shafer의 멀티센서 신호 융합 비스테이션 Markovian 컨텍스트, EURASIP Journal on Progress in Signal Processing, 134, 2012.
  40. ^ Lanchantin et al., P. Lanchantin 및 W. Pieczynski, 2005. P. P. Pieczynski, 증거적 사전, IEEE Transactions on Signal Processing, Vol. 53, No. 8, 페이지 3091-3098, 2005.
  41. ^ Boudaren, M. Y. Boudaren, E. Monfrini 및 W. Pieczynski, 스위칭 소음 분포로 숨겨진 무작위 이산 데이터의 무감독 분할, IEEE 신호 처리 문자, 19권, 10권, 619-622, 2012년 10월.
  42. ^ 소티리오스 P.Chatzis, Dimitrios Kosmopulos, "멀티스트림 Fused Hidden Markov 모델의 가변 베이시안 처리를 사용한 시각적 워크플로우 인식," IEEE 비디오 기술용 회로 및 시스템에 대한 거래, 22권, 7, 페이지 1076-1086, 2012년 7월.[2]
  43. ^ Chatzis, Sotirios P.; Demiris, Yiannis (2012). "A Reservoir-Driven Non-Stationary Hidden Markov Model". Pattern Recognition. 45 (11): 3985–3996. Bibcode:2012PatRe..45.3985C. doi:10.1016/j.patcog.2012.04.018. hdl:10044/1/12611.
  44. ^ M. 루코세비치우스, H. 재거(2009) 저수지 컴퓨팅은 반복적인 신경망 훈련, 컴퓨터 사이언스 리뷰 3: 127–149에 접근한다.
  45. ^ Wiggins, L. M. (1973). Panel Analysis: Latent Probability Models for Attitude and Behaviour Processes. Amsterdam: Elsevier.
  46. ^ Bartolucci, F.; Farcomeni, A.; Pennoni, F. (2013). Latent Markov models for longitudinal data. Boca Raton: Chapman and Hall/CRC. ISBN 978-14-3981-708-7.

외부 링크

개념