조건부 랜덤 필드
Conditional random field![]() |
시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
조건부 랜덤 필드(CRF)는 패턴 인식 및 기계 학습에 자주 적용되며 구조화된 예측에 사용되는 통계 모델링 방법의 클래스입니다.분류자는 "네이버링" 샘플을 고려하지 않고 단일 샘플의 라벨을 예측하는 반면, CRF는 컨텍스트를 고려할 수 있습니다.이를 위해 예측은 예측 사이의 종속성의 존재를 나타내는 그래픽 모형으로 모델링됩니다.응용 프로그램에 따라 사용되는 그래프의 종류가 달라집니다.예를 들어, 자연어 처리에서는 "선형 연쇄" CRF가 인기가 있는데, 각 예측은 인접 언어에만 의존합니다.이미지 처리에서 그래프는 일반적으로 인근 및/또는 유사한 위치에 위치를 연결하여 유사한 예측을 수신하도록 합니다.
CRF가 사용되는 다른 예로는 자연어 처리 또는 생물학적 [1]시퀀스에 대한 순차 데이터의 라벨링 또는 해석, POS 태깅, 얕은 해석,[2] 명명된 실체 인식,[3] 유전자 발견, 펩타이드 크리티컬 기능 영역 발견,[4] 컴퓨터 [6]비전에서의 객체 인식[5] 및 이미지 분할 등이 있습니다.
묘사
CRF는 차별적 비방향 확률론적 그래픽 모델의 한 유형이다.
Lafferty McCallum 및[1] Pereira는 과 같이 X(\displaystyle { 및 랜덤 변수 Y(\displaystyle\에대해 CRF를 정의합니다.
( V,) \ G ( , ) V ( \\ bold {Y } = bold { Y { v = { Y _ { } ({ Y let let letlet let letlet let let let let let let let let let let let let let suchlet let let let let let let let let
다음으로( ,Y) { { \ symbol { X} , { \ symbol { } } } } } is、 X \ \ }x x x x x x x x x y y y y y y y y y Yv y y y y y y Yv} y y y y {\ y {\ {\ y {\ {\ vv이웃에 대한 y(G):
( X, { : v ) ( X, { w : ~ )( P ( { \ symbol { } ) _ { v } , \ { \ { X } , \ {)w와 v는 G의 네이버입니다.
즉, CRF는 무방향 모델입니다.노드는 각각 관찰 변수와 출력 변수인 X와 Y로 분할할 수 있습니다. 다음 {Y} {\ {X을 (를) 모델링합니다
추론
일반 그래프의 경우 CRF의 정확한 추론 문제는 다루기 어렵다.CRF의 추론 문제는 기본적으로 MRF와 동일하며 동일한 인수가 유지됩니다.[7]그러나 정확한 추론이 가능한 특별한 경우가 있다.
- 그래프가 체인 또는 트리인 경우 메시지 전달 알고리즘에 의해 정확한 솔루션이 생성됩니다.이러한 경우 사용되는 알고리즘은 HMM의 경우 포워드 백워드 및 비터비 알고리즘과 유사합니다.
- CRF에 쌍별 전위만 포함되어 있고 에너지가 서브모듈러일 경우 조합 최소 컷/최대 흐름 알고리즘이 정확한 솔루션을 산출합니다.
정확한 추론이 불가능한 경우 여러 알고리즘을 사용하여 대략적인 해법을 얻을 수 있습니다.여기에는 다음이 포함됩니다.
- 루피한 신념 전파
- 알파 확장
- 평균 필드 추론
- 선형 프로그래밍의 완화
파라미터 학습
은 보통 p i; 의 최대우도 학습에 의해 이루어집니다모든 가 지수 패밀리 분포를 가지며 중에 모든 노드가 관찰되는 경우 이 최적화는 [7]볼록합니다.예를 들어 경사 강하 알고리즘 또는 L-BFGS 알고리즘과 같은 준뉴턴 방법을 사용하여 해결할 수 있습니다.어떤 변수들 눈에 띄지 않는 반면, 추론 문제는 이런 변수에 대한 해결되어야 한다.그래서 근사치 사용되어야 한다 정확한 추론 일반 그래프에 정말 다루기 힘든 있다.
예
시퀀스 모델링에서 관심 그래프는 일반적으로 연쇄 그래프입니다.관측 의 입력 시퀀스(\style X는 관측치 시퀀스를 Y(\Y)는 관측치를 유추해야 하는 숨겨진(또는 알 수 없는) 상태 변수를 나타냅니다.})는 - 1(\Y_})과(\i 사이에 가장자리가 있는 체인을 형성하도록 구성되어 있습니다., 이 레이아웃의 각 요소의 「」을 해석할 수 있습니다.cient 알고리즘:
- 모델 훈련, 훈련 데이터의 말뭉치에서 })와 함수 사이의 조건부 분포를 학습합니다.
- 디코딩: X{\ X 라벨 Y {\ Y의 확률을 결정합니다.
- 추론, X{\ X에서 가장 가능성이 높은 라벨 Y Y를 결정합니다.
X에 대한 각Yidisplaystyle })의 조건부 의존성은 f , 의 고정 기능 세트를 통해 정의됩니다. 입력 시퀀스에 대한 측정으로 생각할 수 있으며, 에 각 가능한 값의 가능성을 부분적으로 결정할 수 있습니다.모델에서는 각 피쳐에 수치 가중치를 할당하고 이를 조합하여 에 대한 특정 값의 확률을 결정합니다.
선형 체인 CRF는 개념적으로 단순한 숨겨진 마르코프 모델(HM)과 동일한 애플리케이션을 많이 가지고 있지만 입력 및 출력 시퀀스 분포에 대한 특정 가정을 완화한다.HMM은 상태 전이 및 방출을 모델링하기 위해 일정한 확률을 사용하는 매우 구체적인 기능 기능을 가진 CRF로 대략 이해할 수 있습니다.반대로 CRF는 입력 시퀀스에 따라 숨겨진 상태의 위치 전체에 걸쳐 변화하는 임의의 함수로 일정한 전이 확률을 만드는 HMM의 일반화로서 대략 이해할 수 있습니다.
특히 HMM과 달리 CRF는 임의의 수의 특징 함수를 포함할 수 있으며, 특징 함수는 추론 중 임의의 시점에서 전체 입력 X(\ X를 검사할 수 있으며, 특징 함수의 범위는 확률론적 해석을 가질 필요가 없다.
변종
고차 CRF 및 준Markov CRF
CRF는 각 이전 - k (\ Y_ ..., ...)의고정수 k(\ k})에 의존하게 함으로써 상위 모델까지 확장할 수 .기존의 고차 추리 공식에서는 Y_{만 실제적인 훈련입니다.k\k에 따라 비용이 기하급수적으로 증가하므로 kk의 값(예: k 5 5)[8]이 작습니다.
그러나 최근의 또 다른 발전은 베이지안 비모수 분석 분야의 개념과 도구를 활용하여 이러한 문제를 개선하는 데 성공했다.구체적으로는 CRF-무한도[9] 접근방식은 무한장 시간역학을 스케일러블 방식으로 학습할 수 있는 CRF형 모델을 구성한다.이는 순차적 [10]관측에서 무한히 긴 역학을 학습하기 위한 비모수 베이지안 모델인 시퀀스 메모라이저(SM)를 기반으로 하는 CRF에 대한 새로운 잠재적 함수를 도입함으로써 영향을 받는다.그러한 모델을 계산적으로 다루기 쉽게 만들기 위해, CRF-infinity는 가정된 새로운 잠재 함수의 평균장 근사치를[11] 사용한다(SM에 의해 구동된다).이를 통해 임의 길이의 시간적 종속성을 포착하고 모델링하는 능력을 훼손하지 않고 모델에 대한 효율적인 근사 훈련 및 추론 알고리즘을 고안할 수 있다.
에는 CRFs의 라벨 시퀀스 Y의 모델 variable-length segmentations{Y\displaystyle} 다른 일반화,semi-Markov 조건부 랜덤 필드(semi-CRF), .[12]이}, 합리적인 comput에서 Y나는{\displaystyle Y_{나는}의 장기 의존성을 설계하기 위해 고차 CRFs의 힘의 많은 부분을 제공합니다 존재한다.ational 비용
마지막으로, 구조화된 서포트 벡터 머신과 같은 구조화된 예측을 위한 큰 마진 모델은 CRF의 대체 교육 절차로 볼 수 있다.
잠복동적 조건부 랜덤 필드
잠재 동적 조건부 랜덤 필드(LDCRF) 또는 차별적 확률론적 잠재 변수 모델(DPLVM)은 시퀀스 태그 부착 작업을 위한 CRF의 일종이다.이들은 차별적으로 훈련되는 잠재적 변수 모델이다.
LDCRF의 경우 시퀀스 태그 작업과 마찬가지로 일련의 관측치 x = 1, n이 주어진 경우 모델이 해결해야 할 주요 문제는 유한 Y 세트 중 하나에서 y= , nn의 시퀀스를 할당하는 방법입니다.일반적인 선형 사슬 CRF와 같이 P(y x)를 직접 모델링하는 대신,[13] 일련의 잠재 변수 h를 확률의 사슬 규칙을 사용하여 x와 y 사이에 "삽입"한다.
이를 통해 관측치와 [14]레이블 사이의 잠재적 구조를 포착할 수 있습니다.LDCRF는 준뉴턴 방법을 사용하여 훈련될 수 있는 반면, 콜린스의 구조화된 퍼셉트론 [13]알고리즘을 기반으로 잠복 가변 퍼셉트론이라고 불리는 퍼셉트론 알고리즘의 특수 버전도 개발되었습니다.이러한 모델은 컴퓨터 비전, 특히 비디오 스트림[14] 및 얕은 [13]구문 분석에서 제스처 인식의 응용 프로그램을 찾습니다.
「 」를 참조해 주세요.
- 해머슬리-클리퍼드 정리
- 그래픽 모델
- 마르코프 랜덤 필드
- 최대 엔트로피 마르코프 모델(MEM)
레퍼런스
- ^ a b Lafferty, J., McCallum, A., Pereira, F. (2001). "Conditional random fields: Probabilistic models for segmenting and labeling sequence data". Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282–289.
{{cite conference}}
: CS1 maint: 작성자 파라미터 사용(링크) - ^ Sha, F.; Pereira, F. (2003). shallow parsing with conditional random fields.
- ^ Settles, B. (2004). "Biomedical named entity recognition using conditional random fields and rich feature sets" (PDF). Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications. pp. 104–107.
- ^ Chang KY; Lin T-p; Shih L-Y; Wang C-K (2015). "Analysis and Prediction of the Critical Regions of Antimicrobial Peptides Based on Conditional Random Fields". PLOS ONE. 10 (3): e0119490. Bibcode:2015PLoSO..1019490C. doi:10.1371/journal.pone.0119490. PMC 4372350. PMID 25803302.
- ^ J.R. Ruiz-Sarmiento; C. Galindo; J. Gonzalez-Jimenez (2015). "UPGMpp: a Software Library for Contextual Object Recognition.". 3rd. Workshop on Recognition and Action for Scene Understanding (REACTS).
- ^ He, X.; Zemel, R.S.; Carreira-Perpinñán, M.A. (2004). "Multiscale conditional random fields for image labeling". IEEE Computer Society. CiteSeerX 10.1.1.3.7826.
- ^ a b Sutton, Charles; McCallum, Andrew (2010). "An Introduction to Conditional Random Fields". arXiv:1011.4088v1 [stat.ML].
- ^ Lavergne, Thomas; Yvon, François (September 7, 2017). "Learning the Structure of Variable-Order CRFs: a Finite-State Perspective". Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics. p. 433.
- ^ Chatzis, Sotirios; Demiris, Yiannis (2013). "The Infinite-Order Conditional Random Field Model for Sequential Data Modeling". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (6): 1523–1534. doi:10.1109/tpami.2012.208. hdl:10044/1/12614. PMID 23599063. S2CID 690627.
- ^ Gasthaus, Jan; Teh, Yee Whye (2010). "Improvements to the Sequence Memoizer" (PDF). Proc. NIPS.
- ^ Celeux, G.; Forbes, F.; Peyrard, N. (2003). "EM Procedures Using Mean Field-Like Approximations for Markov Model-Based Image Segmentation". Pattern Recognition. 36 (1): 131–144. Bibcode:2003PatRe..36..131C. CiteSeerX 10.1.1.6.9064. doi:10.1016/s0031-3203(02)00027-4.
- ^ Sarawagi, Sunita; Cohen, William W. (2005). "Semi-Markov conditional random fields for information extraction". In Lawrence K. Saul; Yair Weiss; Léon Bottou (eds.). Advances in Neural Information Processing Systems 17. Cambridge, MA: MIT Press. pp. 1185–1192. Archived from the original (PDF) on 2019-11-30. Retrieved 2015-11-12.
- ^ a b c Xu Sun; Takuya Matsuzaki; Daisuke Okanohara; Jun'ichi Tsujii (2009). Latent Variable Perceptron Algorithm for Structured Classification. IJCAI. pp. 1236–1242. Archived from the original on 2018-12-06. Retrieved 2018-12-06.
- ^ a b Morency, L. P.; Quattoni, A.; Darrell, T. (2007). "Latent-Dynamic Discriminative Models for Continuous Gesture Recognition" (PDF). 2007 IEEE Conference on Computer Vision and Pattern Recognition. p. 1. CiteSeerX 10.1.1.420.6836. doi:10.1109/CVPR.2007.383299. ISBN 978-1-4244-1179-5. S2CID 7117722.
추가 정보
- McCallum, A: 조건부 랜덤 필드의 특징을 효율적으로 유도합니다.인: 제19차 인공지능 불확실성에 관한 회의.(2003)
- Wallach, H.M.: 조건부 랜덤 필드: 소개.기술 보고서 MS-CIS-04-21, 펜실베니아 대학교 (2004)
- Sutton, C., McCallum, A:관계형 학습을 위한 조건부 랜덤 필드 소개「통계 관계 학습의 개요」에 기재되어 있습니다.Lise Getoor와 Ben Taskar가 편집했습니다.MIT 프레스(2006) 온라인 PDF
- 클링거, R., 토마넥, K.: 고전적 확률론적 모델과 조건부 랜덤 필드.알고리즘 엔지니어링 리포트 TR07-2-013, 도르트문트 공과대학 컴퓨터 과학부, 2007년 12월.ISSN 1864-4503.온라인 PDF