시퀀스 라벨링

Sequence labeling

머신러닝에서 시퀀스 라벨링은 관찰된 값의 각 멤버에게 범주형 라벨의 알고리즘 할당을 수반하는 패턴 인식 작업의 한 유형이다.시퀀스 라벨링 작업의 일반적인 예는 입력 문장이나 문서에서 각 단어에 음성 일부를 할당하려고 하는 음성 태그의 일부분이다.시퀀스 라벨링은 시퀀스 멤버당 1개씩 독립된 분류 작업 세트로 취급할 수 있다.그러나 일반적으로 전체 시퀀스에 대해 전지구적으로 가장 좋은 라벨 세트를 선택하기 위해 특수 알고리즘을 사용하여 주변 요소의 선택에 따라 주어진 요소의 최적 라벨을 만들어 정확도를 향상시킨다.

글로벌 최고의 라벨 시퀀스를 찾는 것이 한 번에 한 품목에 라벨을 붙이는 것보다 더 나은 결과를 산출할 수 있다는 예를 들어, 방금 설명한 음성 인식 태그 지정 작업을 고려해 보십시오.종종 많은 단어들이 언어의 여러 부분의 구성원이며, 그러한 단어의 정확한 라벨은 종종 단어의 정확한 라벨에서 바로 왼쪽이나 오른쪽으로 추론할 수 있다.예를 들어, "sets"라는 단어는 명사나 동사가 될 수 있다."그는 책을 내려놓는다"와 같은 구절에서, "그"라는 단어는 분명 대명사이고, "그"는 분명하지 않은 결정자인데, 이 두 가지 라벨 중 하나를 사용하는 명사는 대명사를 거의 따르지 않고 동사보다 결정자에 선행할 가능성이 적기 때문에 "설정"은 동사로 추론될 수 있다.그러나 다른 경우에는 인접한 단어 중 하나만 유사하게 도움이 된다."그는 셋트를 하고 나서 테이블을 넘어뜨린다"에서는 왼쪽에 있는 "그"라는 단어만 도움이 된다(cf. "...셋트를 집어들고 넘어뜨린다...").반대로, "...그리고 식탁도 차린다"에서는 오른쪽에 있는 "the"라는 단어만 도움이 된다(cf. "... 그리고 책도 ...").왼쪽에서 오른쪽으로 한 번에 한 단어씩 라벨을 붙이며 진행되는 알고리즘은 왼쪽 인접 단어의 태그만 사용할 수 있으며 위의 두 번째 예에서 실패할 수 있다. 그 반대의 경우 오른쪽에서 왼쪽으로 진행되는 알고리즘의 경우 말이다.

대부분의 시퀀스 라벨링 알고리즘은 최상의 시퀀스를 찾기 위해 통계적 추론에 의존하는 성격상 확률론적이다.시퀀스 라벨링에 사용되는 가장 일반적인 통계 모델은 마르코프 가정을 만든다. 즉, 특정 단어에 대한 라벨 선택은 바로 인접한 라벨에만 직접적으로 의존하므로 라벨 세트가 마르코프 체인을 형성한다.이는 시퀀스 라벨링에 사용되는 가장 일반적인 통계 모델 중 하나인 숨겨진 마르코프 모델(HM)로 자연스럽게 이어진다.다른 일반적인 모델은 최대 엔트로피 마르코프 모델조건부 무작위 필드 입니다.

참고 항목

참조

추가 읽기

  • 에르도안 H, [1].ICMLA 2010 튜토리얼, 베데스다, MD(2010)