음성 부분 태그 부착

Part-of-speech tagging

말뭉치 언어학에서 언어 부분 태깅(POS 태깅, PoS 태깅 또는 POST)은 문법 태깅이라고도 하며,[1] 정의와 문맥에 따라 텍스트(콜퍼스)의 특정 부분에 해당하는 단어를 표시하는 과정입니다.이것의 간단한 형태는 보통 명사, 동사, 형용사, 부사 등으로 단어를 식별하는 데 있어서 학령기 아이들에게 가르쳐진다.

POS 태깅은 한 번 수작업으로 실행되면 컴퓨터 언어학의 맥락에서 이루어지며, 이산 용어 및 숨겨진 언어 부분을 기술 태그 세트로 연관짓는 알고리즘을 사용합니다.POS 태그 지정 알고리즘은 규칙 기반과 확률의 두 가지 고유한 그룹으로 나뉩니다.E. Brill's tagger는 영어 POS 태그 중 최초로 널리 사용되는 태그 중 하나로 규칙 기반 알고리즘을 사용합니다.

원칙

언어 부분 태그 부착은 단어 목록과 그 언어 부분을 갖는 것보다 더 어렵다. 왜냐하면 어떤 단어들은 다른 시간에 한 부분 이상을 나타낼 수 있고, 말의 일부 부분은 복잡하거나 말하기 어렵기 때문이다.이는 드문 일이 아니다. 자연어에서는(많은 인공어와 대조적으로) 많은 비율의 단어 형식이 모호하다.예를 들어, 보통 복수의 명사로 생각되는 "dogs"도 동사가 될 수 있다.

선원이 해치를 두드리다.

정확한 문법적 태깅은 "dogs"가 더 일반적인 복수 명사가 아닌 동사로 사용됨을 반영합니다.문법적 맥락은 이를 결정하는 한 가지 방법이다. 의미 분석은 또한 의미 분석을 사용하여 1) 항해 맥락에서 "개"를 의미하고 2) 물체에 적용되는 동작(이 맥락에서 "개"는 "안전하게 고정(수밀 도어)"을 의미한다)으로 추론할 수 있다.

태그 세트

학교들은 일반적으로 영어에는 명사, 동사, 기사, 형용사, 전치사, 대명사, 부사, 접속사, 그리고 주사9가지 부분이 있다고 가르친다.그러나 분명히 더 많은 카테고리와 하위 카테고리가 있습니다.명사는 복수형, 소유형, 단수형을 구별할 수 있다.많은 언어에서 동사는 시제, 측면, 그리고 다른 것들로 표기되는 반면, 단어들은 또한 그들의 ""과 문법적 성별 등으로 표기된다.태그 부착 시스템에 따라서는 같은 어근 단어의 굴절이 다르면 여러 개의 태그가 생성됩니다.예를 들어, 단수 공통 명사의 NN, 복수의 공통 명사의 NNS, 단수 고유 명사의 NP(브라운 코퍼스에 사용되는 POS 태그 참조).다른 태그 부착 시스템은 더 적은 수의 태그를 사용하며 미세한 차이를 무시하거나 음성 [2]부분과 다소 독립적인 기능으로 모델링합니다.

컴퓨터에 의한 음성 부분 태그 부착에서는 영어의 경우 50~150개의 음성 부분을 구분하는 것이 일반적입니다.코인 그리스어에 태그를 붙이기 위한 확률적 방법에 대한 연구(DeRose 1990)는 1,000개 이상의 언어 부분을 사용했고 영어에서처럼 많은 단어들이 모호하다는 것을 발견했다.형태학적으로 풍부한 언어의 경우 형태소사 서술자는 일반적으로 매우 짧은 니모닉을 사용하여 표현된다. 예를 들어 범주=고유, 유형=공통, 성별=남성, 숫자=단수, 대소문자=대격, 애니메이션=아니오.

미국 영어의 POS 태그 부착에 가장 인기 있는 "태그 세트"는 아마도 펜 트리뱅크 프로젝트에서 개발된 펜 태그 세트일 것입니다.이것은 훨씬 작지만 이전의 브라운 코퍼스 및 LOB 코퍼스 태그 세트와 대체로 유사하다.유럽에서는 Eagles Guidelines의 태그 세트가 널리 사용되고 있으며 다국어 버전이 포함되어 있습니다.

POS 태그 작업은 다양한 언어로 진행되어 왔으며 사용되는 POS 태그 세트는 언어에 따라 크게 다릅니다.태그는 대명사에 대명사 표기가 아닌 대명사에 대한 대명사 표기와 같은 불일치와 훨씬 더 큰 언어 간 차이를 초래하지만, 일반적으로 명백한 형태학적 구별을 포함하도록 설계된다.그리스어나 라틴어와 같이 굴절성이 심한 언어의 태그 세트는 매우 클 수 있습니다; 이누이트어와 같은 응집형 언어의 단어 태그 세트는 사실상 불가능할 수 있습니다.다른 극단에서는, 페트로브 외.[3]는 12개의 카테고리로 이루어진 "범용" 태그 세트를 제안했습니다(예를 들어 명사, 동사, 구두점 등의 서브타입은 없습니다).매우 넓은 태그의 매우 작은 세트가 선호되는지 또는 보다 정확한 태그의 훨씬 큰 세트가 선호되는지 여부는 목전에 있는 목적에 따라 달라집니다.자동 태그 지정은 작은 태그 집합에서 더 쉽습니다.

역사

브라운 코퍼스

음성 부분 태그에 대한 연구는 말뭉치 언어학과 밀접하게 연관되어 있다.컴퓨터 분석을 위한 최초의 영어 말뭉치는 헨리 쿠체라와 W가 브라운 대학에서 개발브라운 말뭉치였다. 넬슨 프란시스, 1960년대 중반.그것은 무작위로 선정된 출판물의 500개의 샘플로 구성된 약 100,000개의 영어 산문 텍스트로 구성되어 있다.각 샘플은 2,000개 이상의 단어입니다(2,000개 단어 이후 첫 번째 문장 끝에서 끝나므로 말뭉치는 완전한 문장만 포함합니다).

브라운 코퍼스는 수년에 걸쳐 연설문 부분 표식으로 고생스럽게 "태그 부착"되었다.첫 번째 근사치는 Greene과 Rubin의 프로그램으로 이루어졌는데, 이 프로그램은 어떤 범주가 공존할 수 있는지에 대한 방대한 수작업 목록으로 구성되었습니다.예를 들어, 명사 뒤에 명사가 생길 수 있지만, 동사 뒤에 동사가 생길 수 없다.프로그램은 70% 정도 맞혔어요.그 결과는 손으로 반복해서 검토되고 수정되었으며, 이후 사용자들은 70년대 후반에는 태그 부착이 거의 완벽해질 수 있도록 에라타로 전송되었다.

이 말뭉치는 단어 빈도와 언어의 일부에 대한 무수한 연구에 사용되어 왔고 다른 많은 언어에서 유사한 "태그 부착" 말뭉치의 발전에 영감을 주었다.이를 분석하여 도출된 통계는 CLOSE(언어학)VOLSUNGA와 같은 대부분의 후기 음성 부분 태그 시스템의 기초를 형성했다.그러나 이 시기(2005년)까지 그것은 1억 단어 British National Corpus와 같은 더 큰 말뭉치로 대체되었다. 비록 더 큰 말뭉치가 그렇게 철저하게 큐레이션되는 경우는 드물다.

한동안, 언어 부분 태그는 자연 언어 처리의 떼려야 뗄 수 없는 부분으로 여겨졌습니다. 왜냐하면 문맥의 의미론이나 심지어 실용론을 이해하지 않고서는 정확한 언어 부분을 결정할 수 없는 경우가 있기 때문입니다.각 단어에 대해 여러 개의 음성 부분을 고려해야 하는 경우에는 특히 더 높은 수준을 분석하는 것이 훨씬 더 어렵기 때문에 이것은 매우 비용이 많이 듭니다.

숨겨진 마르코프 모델의 사용

1980년대 중반, 유럽의 연구원들은 영국 영어의 랭커스터-오슬로-베르겐 말뭉치에 태그를 붙이는 작업을 할 때 언어의 일부를 모호하게 하기 위해 숨겨진 마르코프 모델(HM)을 사용하기 시작했다.HMM은 사례(예: 브라운 말뭉치)를 계산하고 특정 시퀀스의 확률 표를 만드는 것을 포함한다.예를 들어 'the' 같은 기사를 보면 아마 그 다음 단어는 명사 40%, 형용사 40%, 숫자 20%일 거예요.이것을 알고 있으면, 프로그램은 "can"의 "can"이 동사나 수식어보다 명사일 가능성이 훨씬 더 높다고 결정할 수 있다.물론 다음 단어에 대한 지식으로부터 혜택을 받기 위해서도 같은 방법을 사용할 수 있다.

고급("고차") HMM은 쌍뿐만 아니라 3배 또는 더 큰 시퀀스의 확률을 학습합니다.예를 들어 명사 뒤에 동사가 이어지는 것을 본 적이 있다면 다음 항목은 전치사, 기사, 명사일 가능성이 매우 높지만 다른 동사일 가능성은 훨씬 낮습니다.

여러 개의 애매한 단어들이 함께 발생할 때, 가능성은 배가된다.그러나 각 선택의 확률을 차례로 곱함으로써 모든 조합을 열거하고 각 조합에 상대적 확률을 할당하는 것은 쉽다.그런 다음 확률이 가장 높은 조합이 선택됩니다.유럽 그룹은 정확히 이를 수행하고 93-95% 범위의 정확도를 달성한 태그 부착 프로그램인 CALS를 개발했다.

로 유진 Charniak은 그것을 각각의 알려진 이야기를 모든 미지의 대상에 태그"고유 명사"에 가장 흔한 태그를 지정하면 자연 언어 구문(1997년)[4]에 대한 통계적 기법으로 지적되어 있기 때문에 많은 단어 모호하지 않은 그것은 사실을 기억하는 90%의 정확도에 접근할 것이다, 그리고 많은 다른 애들은 거의 자신의less-common 부분을 대표하는 o.의 가치가 있fs삐걱거리다

CALOES는 HMM 기반 음성 태그의 분야를 개척했지만 모든 가능성을 열거했기 때문에 상당히 비쌌다.선택지가 너무 많으면 백업 방법에 의존해야 하는 경우가 있었습니다(Brown Corpus에는 17개의 애매한 단어가 연속적으로 포함되어 있습니다).또, 「스틸」등의 단어는, 최대 7개의 다른 부분을 나타낼 수 있습니다(DeRose 1990, 페이지 82)

HMM은 확률적 태그거 기능의 기초가 되며 다양한 알고리즘에서 가장 널리 사용되는 것 중 하나가 양방향 추론 [5]알고리즘이다.

동적 프로그래밍 방식

1987년 Steven[6] DeRose와 Ken[7] Church는 같은 문제를 훨씬 짧은 시간에 해결하기 위해 독립적으로 동적 프로그래밍 알고리즘을 개발했습니다.이들의 방식은 다른 분야에서 한동안 알려진 Viterbi 알고리즘과 유사했습니다.드로즈는 쌍들의 표를 사용한 반면, 처치는 브라운 코퍼스에 희귀하거나 존재하지 않는 세 개의 값을 추정하는 방법과 세 개의 표를 사용했다. (세 개의 확률을 실제로 측정하려면 훨씬 더 큰 말뭉치가 필요할 것이다.)두 방법 모두 95% 이상의 정확도를 달성했습니다.브라운 대학의 DeRose의 1990년 논문은 특정 오류 유형, 확률 및 기타 관련 데이터에 대한 분석을 포함했으며 그리스어를 위해 그의 연구를 복제하여 유사한 효과를 입증했습니다.

이 연구결과는 자연어 처리 분야에 놀라울 정도로 지장을 주었다.보고된 정확도는 음성 선택의 일부를 구문, 형태학, 의미론 등 보다 높은 수준의 언어 분석과 통합한 매우 정교한 알고리즘의 전형적인 정확도보다 높았다.CALS, DeRose 및 Church의 방법은 의미론이 필요한 알려진 사례 중 일부에서 실패했지만, 그것들은 무시해도 될 정도로 드문 것으로 판명되었다.이것은 그 분야의 많은 사람들에게 음성 부분 태그 부착이 다른 수준의 처리와 유용하게 분리될 수 있다는 것을 확신시켰다. 즉, 이것은 컴퓨터 언어 분석의 이론과 실천을 단순화시켰고 연구자들이 다른 조각을 분리하는 방법을 찾도록 장려했다.마르코프 모델은 이제 음성 부분 할당의 표준 방법이 되었습니다.

무감독 태그거

이미 논의된 방법은 태그 확률을 배우기 위해 기존 말뭉치에서 작업하는 것을 포함한다.단, "감독되지 않은" 태그를 사용하여 부트스트랩할 수도 있습니다.비지도 태깅 기법은 훈련 데이터에 태그 없이 말뭉치를 사용하고 유도에 의해 태그 세트를 생성한다.즉, 단어 사용 패턴을 관찰하고 언어 범주 자체를 도출합니다.예를 들어, 통계는 "the", "a" 및 "an"이 유사한 맥락에서 발생하는 반면, "eat"은 매우 다른 맥락에서 발생한다는 것을 쉽게 보여준다.충분한 반복과 함께, 인간 언어학자들이 기대하는 것과 매우 유사한 단어들의 유사성 클래스가 나타난다; 그리고 그 차이점들은 때때로 가치 있는 새로운 통찰력을 암시한다.

이 두 범주는 규칙 기반, 확률적 및 신경적 접근법으로 더 세분될 수 있다.

기타 태그 및 방법

현재 음성 부분 태그 부착의 주요 알고리즘에는 Viterbi 알고리즘, Bril tagger, Constraint Grammar 및 Baum-Welch 알고리즘(전송 역방향 알고리즘이라고도 함)이 있습니다.숨겨진 마르코프 모델과 가시적인 마르코프 모델 태그거는 모두 비터비 알고리즘을 사용하여 구현할 수 있습니다.규칙 기반의 Brill 태그거는 일련의 규칙 패턴을 학습한 후 통계 수량을 최적화하는 것이 아니라 해당 패턴을 적용한다는 점에서 특이합니다.규칙이 순차적으로 정렬되는 Brill 태그거와 달리 POS 및 형태학적 태그 부착 툴킷 RDRPOSTagger는 규칙을 리플다운 규칙 트리 형태로 저장합니다.

POS 태그 부착 문제에도 많은 기계 학습 방법이 적용되어 왔습니다.SVM, 최대 엔트로피 분류기, 퍼셉트론 및 가장 가까운 네이버와 같은 방법은 모두 시도되었으며, 대부분 95% 이상의 정확도를 달성할 수 있습니다.

ACL [8]Wiki 에서는, 몇개의 방법의 직접적인 비교(참조)가 보고되고 있습니다.이 비교에서는 일부 Pen Treebank 데이터에 대해 Pen 태그 세트를 사용하므로 결과는 직접 비교할 수 있습니다.그러나 많은 중요한 태그거는 포함되지 않습니다(아마도 이 특정 데이터 세트에 대해 태그를 재구성하는 데 많은 노력이 필요하기 때문일 것입니다.따라서 여기에 보고된 결과가 주어진 접근방식으로 달성할 수 있는 최선의 결과라고 가정해서는 안 되며, 주어진 접근방식으로 달성할 수 있는 최선의 결과라고 가정해도 안 된다.

2014년에는 표준 벤치마크 데이터 [9]집합에서 97.36%를 달성한 음성 부분 태그 구조 정규화 방법을 사용한 논문 보고.

문제들

기본적인 카테고리에 대해서는 폭넓은 합의가 이루어지고 있지만, (예를 들어) 영어와 같은 특정 언어에서도 여러 개의 엣지 케이스가 하나의 "올바른" 태그 세트에 정착하는 것을 어렵게 한다.예를 들어, "불"이 형용사인지 명사인지 말하기는 어렵다.

대형 녹색 소방차

두 번째 중요한 예는 사용/멘션 구분입니다.다음 예시와 같이 "파란색"은 임의의 POS에서 온 단어로 대체될 수 있습니다(Brown Corpus 태그 세트는 접미사 -NC를 부가합니다).

"파란색"이라는 단어는 4개의 글자를 가지고 있다. 

"주" 텍스트 이외의 언어로 된 단어는 일반적으로 "외국어"로 태그가 지정됩니다.브라운 코퍼스에서 이 태그(-FW)는 외래어가 문맥에서 수행하는 역할에 대한 태그와 더불어 적용되며, 일부 다른 코퍼스는 단지 "foreign"과 같은 태그를 붙일 뿐이며, 이는 약간 더 쉽지만 이후의 구문 분석에는 훨씬 덜 유용하다.

또, POS 카테고리와 「워드」가 1 대 1로 매핑 되지 않는 경우도 많이 있습니다.예를 들어 다음과 같습니다.

데이비드가 반대로 하지 않는 한 퍼스트 컷은 중등 전과 후를 볼 수 없다. (한마디)

마지막 예에서는 "look"과 "up"이 결합되어 하나의 언어 단위로 기능합니다.이것들 사이에 다른 단어가 끼어들 가능성도 있습니다.일부 태그 세트(Pen 등)는 하이픈으로 연결된 단어, 축약어 및 소유자를 별도의 토큰으로 분할하기 때문에 이러한 모든 문제를 회피할 수 있습니다.

많은 태그 세트는 "be", "have" 및 "do"와 같은 단어를 자체 범주(Brown Corpus와 같이)로 취급하는 반면, 일부는 모두 단순한 동사(예: LOB Corpus 및 Pen Treebank)로 취급한다.이 특정한 단어들은 상당히 다른 문법적 맥락에서 발생하는 다른 영어 동사들보다 더 많은 형태를 가지고 있기 때문에, 그것들을 단지 "사"로 취급하는 것은 POS 태그거는 더 적은 정보를 가지고 있다는 것을 의미한다.예를 들어, HMM 기반의 술래는 "do", "have", "be" 및 다른 동사들에 대한 뚜렷한 공존 확률을 배우는 대신, "subs"가 어떻게 다른 언어 부분 근처에서 발생하는지에 대한 전반적인 확률만 배울 것이다.이 영어 단어들은 상당히 다른 분포를 가지고 있다: 다른 동사들을 단지 그것들이 발생하는 같은 장소에 대체할 수는 없다.HMM 에서는, 슬롯내의 「동사」에 균등하게 만족하는 것이 아니라, 정확한 세세한 태그를 예측할 수 있는 경우가 많습니다.

어떤 사람들은 프로그램이 단지 철자를 검사할 수 있기 때문에 이 장점이 무의미하다고 주장해왔다: "이 '동사'는 철자 때문에 '도'이다."그러나 이는 종종 HMM에 의해 정확하게 태그될 수 있지만 잘못된 철자로 인해 실패합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "POS tags". Sketch Engine. Lexical Computing. 2018-03-27. Retrieved 2018-04-06.
  2. ^ 유니버설 POS 태그
  3. ^ Petrov, Slav; Das, Dipanjan; McDonald, Ryan (11 Apr 2011). "A Universal Part-of-Speech Tagset". arXiv:1104.2086 [cs.CL].
  4. ^ 유진 차르니악
  5. ^ CLL POS 태그
  6. ^ 드로즈, 스티븐 J. 1988년"통계 최적화에 의한 문법적 범주 명확화"컴퓨터 언어학 14 (1): 31~39.[1]
  7. ^ Kenneth Ward Church (1988). "A stochastic parts program and noun phrase parser for unrestricted text". ANLC '88: Proceedings of the Second Conference on Applied Natural Language Processing. Association for Computational Linguistics Stroudsburg, PA: 136. doi:10.3115/974235.974260.
  8. ^ POS 태그 부착(최신)
  9. ^ Xu Sun (2014). Structure Regularization for Structured Prediction (PDF). Neural Information Processing Systems (NIPS). pp. 2402–2410. Retrieved 2021-08-20.
  • 차니악, 유진1997. "자연어 해석 통계 기법"AI 매거진 18(4): 33~44.
  • 한스 반 할테렌, 자쿠브 자브렐, 월터 대레만스입니다2001. 머신러닝 시스템의 조합을 통한 NLP의 정확성 향상.컴퓨터 언어학. 27(2): 199~229.PDF
  • 드로즈, 스티븐 J. 1990년"변절어와 비변절 언어의 문법적 범주 모호성을 해결하기 위한 강력한 방법"박사 학위 논문Providence, RI: Brown University 인지언어과학부.Electronic Edition은 [2]에서 구할 수 있습니다.
  • D.Q. Nguyen, D.Q. Nguyen, D.D. Pham 및 S.B.Pham (2016)."Part-Of-Speech 태깅에 대한 파급력 다운 규칙을 사용하는 강력한 변환 기반 학습 방식"AI 커뮤니케이션, 제29권, 제3호, 409-422쪽 [.pdf]