언어식별

Language identification

자연어 처리에서 언어 식별이나 언어 추측은 주어진 내용이 어떤 자연어인지 판단하는 문제다.이 문제에 대한 계산적 접근법은 이를 다양한 통계적 방법으로 해결한 텍스트 분류의 특별한 사례로 본다.

개요

데이터를 분류하기 위해 다른 기법을 사용하는 언어 식별에는 몇 가지 통계적 접근법이 있다.한 가지 기법은 일련의 알려진 언어에서 텍스트의 압축성과 텍스트의 압축성을 비교하는 것이다.이 접근방식은 상호 정보 기반 거리 측정으로 알려져 있다.또한 같은 기술을 사용하여 역사적 방법으로 만들어진 나무와 밀접하게 일치하는 언어의 가계도를 경험적으로 구성할 수 있다.[citation needed]상호 정보 기반 거리 측정은 본질적으로 더 전통적인 모델 기반 방법과 동등하며 일반적으로 단순한 기법보다 새롭거나 더 나은 것으로 간주되지 않는다.

카브나르와 트렌클(1994)과 더닝(1994)이 기술한 또 다른 기법은 각 언어에 대한 "훈련 텍스트"에서 언어 n그램 모델을 만드는 것이다.이러한 모델은 문자(Cavnar 및 Trenkle) 또는 인코딩된 바이트(Dunning)를 기반으로 할 수 있으며, 후자에서는 언어 식별과 문자 인코딩 탐지가 통합된다.그런 다음, 식별이 필요한 텍스트의 모든 부분에 대해 유사한 모델이 만들어지고, 그 모델을 각각의 저장된 언어 모델과 비교한다.가장 가능성이 높은 언어는 식별이 필요한 텍스트에서 모델과 가장 유사한 모델을 가진 언어다.이 접근법은 입력 텍스트가 모델이 없는 언어로 되어 있을 때 문제가 될 수 있다.이 경우, 이 방법은 결과와 가장 유사한 또 다른 "가장 유사한" 언어를 반환할 수 있다.또한 웹에서 흔히 볼 수 있듯이, 여러 언어로 구성된 입력 텍스트도 문제가 된다.

보다 최근의 방법은 řeek와 Kolkus(2009)를 참조한다.이 방법은 비정형 텍스트로 여러 언어를 감지할 수 있으며, 단 몇 단어의 짧은 텍스트, 즉 n그램이 접근하는 것과 투쟁하는 것에 대해 강력하게 작용한다.

Grefenstette의 오래된 통계 방법은 특정 함수 단어(예: 영어로 "the")의 유행을 기반으로 했다.

통계학적 직관적 접근법(매우 불확실함)은 공통 문자 조합 또는 독특한 분음 부호 또는 구두점을 찾는 것이다.[1][2]

유사한 언어 식별

언어 식별 시스템의 큰 병목 현상 중 하나는 밀접하게 연관된 언어를 구별하는 것이다.불가리아어, 마케도니아어, 인도네시아어, 말레이어와 같은 유사한 언어들은 상당한 어휘적, 구조적 중첩을 나타내며, 이를 구별하는 시스템이 어려워진다.

2014년에 DSL공유 task[3]데이터( 탠(알., 2014년)6언어 그룹에서 13개 국어(언어 다양한):그룹 A(보스니아, 크로아티아, 세르비아), 그룹 B(중국, 말레이시아 인도네시아), 그룹 C(체코, 슬로바키아), D조(브라질 포르투갈어, 유럽 포르투갈어), E조(반도 Spanish,이 들어 있는 제공하도록 되어 있다. 아르지닌스페인어 포함), F조(미국 영어, 영국 영어).최고의 시스템은 95% 이상의 결과에 도달했다(Goutte et al., 2014).DSL 공유 과제의 결과는 잠피에리 외 2014에 설명되어 있다.

소프트웨어

  • Apache OpenNLP는 char n-gram 기반 통계 검출기를 포함하며 103개 언어를 구별할 수 있는 모델이 함께 제공됨
  • Apache Tika에는 18개 언어에 대한 언어 탐지기가 포함되어 있다.

참조

  • 베네데토, D, E. Caglioti, V.로레토언어 트리와 지퍼링.물리 리뷰 레터, 88:4 (2002), 복잡성 이론.
  • Cavnar, William B, John M.트렌클."N-Gram 기반 텍스트 분류".SDAER-94, 제3회 문서 분석 및 정보 검색에 관한 심포지엄의 진행[1994) [1].
  • Clivrasi, Rudi, Paul M.B. Vitani."압축에 의한 Clusting".정보이론 51(4), 2005년 4월 1523-1545에 관한 IEEE 거래.
  • Dunning, T. (1994) "통계학적 언어 식별".기술 보고서 MCCS 94-273, 뉴멕시코 주립 대학교, 1994.
  • 굿맨, 조슈아(2002) "언어 나무와 지퍼핑"에 대한 확대 코멘트.마이크로소프트 리서치, 2002년 2월 21일. (이것은 순진한 베이즈 방법에 유리한 데이터 압축에 대한 비판이다.)
  • Goutte, C.; Leger, S.; Carpuat, M. (2014) 유사한 언어를 구별하기 위한 NRC 시스템.Colling 2014 워크샵 "NLP 도구를 유사한 언어, 품종 및 방언에 적용" 절차
  • 그레펜스테트, 그레고리(1995) 두 가지 언어 식별 체계 비교.텍스트 데이터의 통계 분석에 관한 제3차 국제 회의의 진행 (JADT 1995).
  • 뽀츠마, 아르젠.(2001) Monte Carlo 기법을 언어 식별에 적용.암스테르담의 SmartHaven.CLINE 2001에서 발표.
  • Tan, L.; Zampieri, M.; Ljubesich, N.; Tiermann, J.(2014) 유사한 언어의 차이에 대한 비교 가능한 데이터 소스 병합: DSL 코퍼스 컬렉션.제7회 BUCC(Blative Communita) 구축 및 이용에 관한 워크숍 진행아이슬란드 레이캬비크. 페이지 6-10
  • 이코노미스트지.(2002) "양식의 요소: 압축된 데이터를 분석하면 언어학에서 인상적인 결과를 얻을 수 있다"
  • 라딤 řůek과 밀라노 콜쿠스.(2009) "웹 상의 언어 식별: 사전 방법 확장" 컴퓨터 언어학지능형 텍스트 처리.
  • 잠피에리, M.; Tan, L.; Ljubeshich, N.; Tiermann, J. (2014) DSL 공유 과제 2014에 대한 보고서.유사한 언어, 품종 및 방언에 NLP 도구를 적용하기 위한 제1차 워크숍(VarDial)의 진행.아일랜드 더블린 58-67페이지

참고 항목

참조

  1. ^ Stock, Wolfgang G.; Stock, Mechtild (2013-07-31). Handbook of Information Science. Walter de Gruyter. pp. 180–181. ISBN 978-3-11-023500-5.
  2. ^ Hagiwara, Masato (2021-12-14). Real-World Natural Language Processing: Practical Applications with Deep Learning. Simon and Schuster. pp. 105–106. ISBN 978-1-61729-642-0.
  3. ^ "VarDial Workshop @ COLING 2014".