통계 기계 번역
Statistical machine translation통계기계번역(SMT)은 2개 국어 텍스트 코퍼스의 분석에서 파라미터가 도출된 통계모델을 기반으로 번역이 생성되는 기계번역 패러다임이다.통계적 접근법은 기계 번역에 대한 규칙 기반 접근법 및 예 기반 기계 [1]번역과 대조됩니다.
통계 기계 번역의 첫 번째 아이디어는 1949년 [2]Warren Weaver에 의해 소개되었으며, 여기에는 Claude Shannon의 정보 이론을 적용하는 아이디어도 포함된다.통계 기계 번역은 IBM의 Thomas J. Watson Research[3][4][5] Center의 연구자들에 의해 1980년대 후반과 1990년대 초반에 다시 도입되었으며, 최근 몇 년간 기계 번역에 대한 관심이 크게 되살아나는 데 기여하고 있습니다.신경기계 번역이 도입되기 전에는 지금까지 가장 널리 연구된 기계 번역 방법이었다.
근거
통계 기계 번역의 배후에 있는 아이디어는 정보 이론에서 나온 것입니다.문서는 대상 언어(예를 들어 영어의 문자열가 소스 언어(예를 들어 프랑스어)의 문자열f\f의 번역일 확률 f에 따라 번역된다.
확률 p 의 모델링 문제는 여러 가지 방법으로 해 왔습니다컴퓨터 구현에 적합한 한 가지 접근방식은 Bayes 정리를 적용하는 것입니다. p ( )( (p ( )\ ( )( e ) 번역 ( fe)\ ( f )p ( e )}는 소스 문자열과 target 문자열의 변환일 확률입니다.언어 p { p는 대상 언어 문자열을 볼 확률입니다.이 분해는 문제를 두 개의 하위 문제로 분할하기 때문에 매력적입니다.최적의 estyle\tilde{를 찾으려면 가장 가능성이 높은 것을 선택합니다.
- ~ e ∗ p( ) r g e ( p() \ max { \ ^ { * )
이를 엄밀하게 구현하려면 문자열 e {\ e을 (를) 모국어로 검색해야 합니다.검색을 효율적으로 실행하는 것은 외부 문자열, 휴리스틱스 및 기타 방법을 사용하여 검색 공간을 제한하고 동시에 허용 가능한 품질을 유지하는 기계 번역 디코더 작업입니다.품질과 시간 사용 간의 이러한 균형은 음성 인식에서도 찾을 수 있다.
번역 시스템은 모든 원어민 문자열과 그 번역을 저장할 수 없기 때문에 보통 한 문장씩 번역되지만 이마저도 충분하지 않습니다.언어 모델은 일반적으로 평활화된 n-그램 모델에 의해 근사되며, 번역 모델에도 유사한 접근법이 적용되어 왔지만, 언어의 문장 길이와 어순이 다르기 때문에 복잡성이 가중됩니다.
통계 번역 모델은 처음에는 단어 기반이었지만(Stephan Vogel의[6] IBM Hidden Markov 모델의 모델 1-5와 Franz-Joseph Och의[7] 모델 6), 구절 기반 [8]모델의 도입으로 상당한 발전이 이루어졌다.이후 작업은 구문 또는 준 구문 [9]구조를 통합했습니다.
혜택들
규칙 기반 접근법에 비해 통계 기계 번역의 가장 빈번하게[citation needed] 인용되는 이점은 다음과 같습니다.
- 인적 자원과 데이터 자원을 보다 효율적으로 사용
- 기계에서 읽을 수 있는 형식의 병렬 말뭉치가 많으며 심지어 단일 언어 데이터도 더 많습니다.
- 일반적으로 SMT 시스템은 특정 언어 쌍에 맞게 조정되지 않습니다.
- 규칙 기반 번역 시스템에서는 언어 규칙을 수동으로 개발해야 합니다.이러한 규칙은 비용이 많이 들고 다른 언어로 일반화되지 않는 경우가 많습니다.
- 언어 모델을 사용하여 번역이 원활함
단점
- 말뭉치 작성에는 비용이 많이 들 수 있습니다.
- 특정 오류는 예측하고 수정하기가 어렵습니다.
- 결과는 번역 문제를 [10]가리는 표면적인 유창성을 가질 수 있습니다.
- 통계 기계 번역은 보통 단어 순서가 현저히 다른 언어 쌍에 대해 잘 작동하지 않습니다.
- 서유럽 언어 간 번역에서 얻은 이점은 훈련 말뭉치가 작고 문법적으로 차이가 크기 때문에 다른 언어 쌍에 대한 결과를 대표하지 않습니다.lx
단어 기반 번역
단어 기반 번역에서 번역의 기본 단위는 자연어로 된 단어입니다.일반적으로, 복합어, 형태학, 숙어 때문에 번역된 문장의 단어 수는 다르다.번역된 단어들의 수열들의 길이 비율을 다산성이라고 하는데, 이것은 각 고유어들이 얼마나 많은 외래어를 생산하는지 말해준다.필연적으로 정보이론에 따르면 각각이 동일한 개념을 포함한다고 가정한다.실제로 이것은 사실이 아니다.예를 들어 영어 단어 코너는 내부 각도와 외부 각도 중 어느 쪽을 의미하느냐에 따라 rincon 또는 esquina로 스페인어로 번역할 수 있습니다.
간단한 단어 기반 번역으로는 다른 능력을 가진 언어들을 번역할 수 없습니다.단어 기반 번역 시스템은 비교적 단순하게 하나의 단어를 여러 단어로 매핑할 수 있지만, 그 반대는[citation needed] 아니다.예를 들어 영어에서 프랑스어로 번역할 경우 영어의 각 단어는 임의의 수의 프랑스어 단어를 생성할 수 있습니다.때로는 전혀 번역할 수 없습니다.하지만 두 개의 영어 단어를 묶어서 하나의 프랑스어 단어를 만드는 방법은 없습니다.
단어 기반 번역 시스템의 예로는 무료로 제공되는 GIZA++ 패키지(GPLed)가 있으며, 여기에는 IBM 모델과 HMM 모델 및 모델 [7]6에 대한 교육 프로그램이 포함됩니다.
단어 기반 번역은 오늘날 널리 사용되지 않고, 구문 기반 시스템이 더 일반적입니다.대부분의 구절 기반 시스템은 여전히[citation needed] 말뭉치를 정렬하기 위해 GIZA++를 사용합니다.정렬은 구문을 추출하거나 구문 [11]규칙을 추론하는 데 사용됩니다.그리고 쌍문자의 단어 매칭은 여전히 커뮤니티에서 활발하게 논의되고 있는 문제이다.GIZA++가 우세하기 때문에 현재 온라인에는 [12]GIZA+의 여러 가지 분산 구현이 있습니다.
어구 기반 번역
어구 기반 번역의 목적은 길이가 다를 수 있는 단어의 전체 시퀀스를 번역함으로써 단어 기반 번역의 제약을 줄이는 것입니다.단어의 시퀀스는 블록 또는 구라고 불리지만, 일반적으로 언어적인 구문이 아니라 말뭉치의 통계적 방법을 사용하여 발견된 구절입니다.어구를 언어적 어구(통사적으로 동기부여된 단어군, 통사적 카테고리 참조)로 제한하면 [13]번역의 질이 저하되는 것으로 나타났습니다.
선택한 문구는 구문 변환 테이블을 기반으로 일대일로 매핑되며 순서를 변경할 수 있습니다.이 표는 단어 정렬에 기반하거나 병렬 말뭉치에서 직접 학습할 수 있습니다.두 번째 모델은 단어 기반 IBM [14]모델과 유사하게 기대 최대화 알고리즘을 사용하여 교육됩니다.
구문 기반 번역
구문 기반 번역은 단일 단어 또는 단어의 문자열(구절 기반 MT에서와 같이)이 아닌 구문 단위(부분적)[15]를 번역하는 아이디어를 기반으로 합니다.구문 기반 번역의 개념은 MT에서 꽤 오래되었지만, 통계적 대응은 1990년대에 강력한 확률적 파서가 등장할 때까지 나타나지 않았다.이 접근법의 예로는 DOP 기반의 MT와 최근에는 동기 문맥이 없는 문법이 있다.
계층형 구문 기반 번역
계층형 어구 기반 번역은 어구 기반 번역과 구문 기반 번역의 장점을 결합합니다.문맥이 없는 동기식 문법 규칙을 사용하지만, 문법은 언어적으로 동기화된 구문 구성 요소를 참조하지 않고 구절 기반 번역을 위한 방법의 확장에 의해 구성될 수 있습니다.이 아이디어는 장쩌민([9]江澤民)의 히에로 체계(2005)
언어 모델
언어 모델은 통계 기계 번역 시스템의 필수 컴포넌트이며, 가능한 한 번역을 원활하게 하는 데 도움이 됩니다.번역된 문장을 원어민에게 말할 확률을 돌려주는 기능입니다.예를 들어 좋은 언어 모델은 "house is small"보다 "house is small"이라는 문장에 높은 확률을 부여합니다.어순 외에 언어 모델도 단어 선택에 도움이 될 수 있습니다.외국어에 여러 개의 가능한 번역이 있는 경우, 이러한 기능은 [14]대상 언어의 특정 컨텍스트에서 특정 번역에 대해 더 나은 확률을 제공할 수 있습니다.
통계 기계 번역에 관한 과제
![]() | 이 섹션은 확장해야 합니다.추가함으로써 도움이 될 수 있습니다. (2012년 5월) |
통계 기계 번역에 대처해야 하는 문제는 다음과 같습니다.
문장 정렬
병렬적으로 한 언어의 단일 문장은 다른 언어의 여러 문장으로 번역될 수 있으며,[15] 그 반대도 마찬가지입니다.긴 문장은 분할되거나 짧은 문장은 병합될 수 있습니다.심지어 문장 끝(태국어 등)을 명확하게 표시하지 않고 문자 시스템을 사용하는 언어도 있다.Gale-Church 정렬 알고리즘을 통해 문장 정렬을 수행할 수 있습니다.이것과 다른 수학적 모델을 통해 가장 점수가 높은 문장 정렬을 효율적으로 검색하고 검색할 수 있다.
단어 정렬
문장 정렬은 보통 말뭉치에 의해 제공되거나 앞서 언급한 게일처치 정렬 알고리즘에 의해 얻어진다.단, 번역 모델을 학습하기 위해서는 소스-타깃 문장 쌍에서 어떤 단어가 일치하는지 알아야 합니다.해결책은 IBM-Models 또는 HMM-접근법입니다.
제시된 문제 중 하나는 대상 언어에서 명확한 등가가 없는 기능어입니다.예를 들어, "John does not live here"라는 문장을 영어에서 독일어로 번역할 때, "Johnt hiernicht"라는 단어는 번역된 문장에서 명확한 정렬이 되지 않습니다.논리적 추론을 통해, 그것은 단어 "wohnt"(영어에서는 "live"에 대한 문법 정보를 포함) 또는 "nicht"(부정되기 때문에 문장에만 표시됨)와 정렬되거나 정렬되지 않을 수 있다.[14]
통계적 이상
실제 훈련 세트는 예를 들어 고유 명사의 번역을 덮어쓸 수 있습니다.예를 들어 훈련 세트에는 파리행이라는 말이 많아 베를린행 기차를 탔다고 잘못 번역되는 경우가 있다.
이디옴
사용된 말뭉치에 따라 숙어는 "이성적으로" 번역되지 않을 수 있습니다.예를 들어, 캐나다 Hansard를 2개 국어 말뭉치로 사용하면, 의회에서는 "Hear, Hear!"가 "Bravo!"가 되기 때문에 "Hear, Hear!"는 거의 항상 "Bravo!"로 번역될 수 있다.[16]
이 문제는 단어 정렬과 관련이 있는데, 매우 특정한 맥락에서 관용적 표현은 대상 언어에서 같은 의미의 관용적 표현을 초래하는 단어와 일치할 수 있기 때문입니다.그러나 정렬은 보통 다른 컨텍스트에서는 작동하지 않기 때문에 가능성이 낮습니다.그런 이유로 사자성어는 의미를 잃지 않고서는 더 이상 분해될 수 없기 때문에 구절 정렬에만 따라야 한다.따라서 이 문제는 단어 기반 번역에서만 발생합니다.[14]
다른 어순
언어의 어순은 다릅니다.어떤 분류는 주어(S), 동사(V), 목적어(O)의 전형적인 순서를 문장으로 명명함으로써 수행될 수 있으며, 예를 들어 SVO 또는 VSO 언어를 말할 수 있다.명사의 수식어가 어디에 있는지, 또는 같은 단어가 질문이나 문장으로 사용되는지 등, 단어의 순서에도 추가적인 차이가 있습니다.
음성인식에서는 음성신호와 대응하는 텍스트 표현이 블록별로 서로 매핑될 수 있다.같은 텍스트가 2개 언어로 되어 있는 경우는, 반드시 이러한 경우가 있는 것은 아닙니다.시만텍의 경우 기계 번역기는 작은 워드 시퀀스만 관리할 수 있으며 워드 순서는 프로그램 설계자가 생각해야 합니다.솔루션에는 모델 정렬이 포함되어 있습니다.각 번역 항목의 위치 변경 분포는 정렬된 바이텍스트에서 추측할 수 있습니다.언어 모델의 도움을 받아 다양한 위치 변경 순위를 매길 수 있으며 가장 적합한 항목을 선택할 수 있습니다.
최근, 스카이프 음성 통신기는 음성 [17]번역을 테스트하기 시작했다.그러나 기계 번역은 음성 인식보다 느린 속도로 음성 기술의 추세를 따르고 있습니다.사실, 음성 인식 연구의 일부 아이디어는 통계 기계 [18]번역에 채택되었다.
어휘 부족(OOV) 단어
시만텍 시스템은 일반적으로 서로 관련 없이 서로 다른 단어 형식을 별도의 기호로 저장하며 교육 데이터에 없는 단어 형식 또는 구문은 번역할 수 없습니다.이는 훈련 데이터의 부족, 시스템이 사용되는 인간 영역의 변화 또는 형태학의 차이 때문일 수 있다.
모바일 디바이스
태블릿과 스마트폰의 컴퓨팅 능력이 급속히 향상되고 고속 모바일 인터넷 접속이 광범위하게 제공됨에 따라 기계 번역 시스템을 실행할 수 있게 되었습니다.개발도상국의 외국인 의료 종사자를 지원하기 위한 실험 시스템이 이미 개발되었습니다.비슷한 시스템은 이미 시중에 나와 있다.예를 들어, 애플의 iOS 8은 사용자가 문자 메시지를 받아쓰게 한다.내장된 ASR 시스템은 음성을 인식하고 인식 결과를 온라인 [19]시스템에 의해 편집한다.
Universal Speech Translation Advanced Research (U-STAR1, A-STAR 프로젝트의 계속)나 EU-BRIDGE2등의 프로젝트는, 현재, 구어로부터 인식되는 완전한 문장의 번역에 관한 연구를 실시하고 있습니다.최근 몇 년 동안 음성 인식, 기계 번역 및 음성 합성에 대한 관심이 높아지고 있습니다.음성 대 음성 변환을 실현하기 위해 n-best 목록이 ASR에서 통계 시스템 변환 시스템으로 전달됩니다.그러나 이러한 시스템을 조합하면 양질의 [20]번역에 필요한 문장 분할, 비정규화 및 구두점 예측을 달성하는 방법에 대한 문제가 발생합니다.
통계 기계 번역을 구현하는 시스템
- Google Translate ([21]2016년 신경기계 번역으로 전환 시작)
- Microsoft Translator (2016년부터 [22]신경기계 번역으로 전환 시작)
- SYSTRAN (2016년 [23]신경기계 번역 시작)
- Yandex.Translate(2017년 [24]신경 기계 번역을 포함하는 하이브리드 접근 방식으로 전환)
「 」를 참조해 주세요.
주 및 참고 자료
- ^ Philipp Koehn (2009). Statistical Machine Translation. Cambridge University Press. p. 27. ISBN 978-0521874151. Retrieved 22 March 2015.
Statistical machine translation is related to other data-driven methods in machine translation, such as the earlier work on example-based machine translation. Contrast this to systems that are based on hand-crafted rules.
- ^ W. 위버(1955)번역 (1949년)입력: 기계 번역 언어, MIT 프레스, 케임브리지, 매사추세츠 주
- ^ P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; Robert L. Mercer; P. Roossin (1988). "A statistical approach to language translation". Coling'88. Association for Computational Linguistics. 1: 71–76. Retrieved 22 March 2015.
- ^ P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; John D. Lafferty; Robert L. Mercer; P. Roossin (1990). "A statistical approach to machine translation". Computational Linguistics. MIT Press. 16 (2): 79–85. Retrieved 22 March 2015.
- ^ P. Brown; S. Della Pietra; V. Della Pietra; R. Mercer (1993). "The mathematics of statistical machine translation: parameter estimation". Computational Linguistics. MIT Press. 19 (2): 263–311. Retrieved 22 March 2015.
- ^ S. Vogel, H. Ney, C.틸만, 1996년통계 번역의 HMM 기반 단어 정렬.COLING '96: 제16회 컴퓨터 언어학 국제회의, 덴마크 코펜하겐 페이지 836-841.
- ^ a b Och, Franz Josef; Ney, Hermann (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics. 29: 19–51. doi:10.1162/089120103321337421.
- ^ P. Kohn, F.J. Och, D.Marcu(2003)통계 어구에 근거한 번역.HLT/NAACL(Association of Computational Languageology) 북미지부 연차총회 및 인간언어기술 공동회의 의사록.
- ^ a b D. Chiang(2005년).통계 기계 변환을 위한 계층적 구문 기반 모델.컴퓨터 언어학 협회 제43회 연차총회 의사록 (ACL'05)
- ^ Zhou, Sharon (July 25, 2018). "Has AI surpassed humans at translation? Not even close!". Skynet Today. Retrieved 2 August 2018.
- ^ P. Kohn, Hoang, A.버치, C. 캘리슨버치, M. 페데리코, N. 베르톨디, B.코완, W. Shen, C.모란, R. 젠스, CDyer, O. Bojar, A.콘스탄틴, E허브스트.2007년. 통계 기계 번역용 오픈 소스 툴킷.ACL 2007, 데모 세션, 프라하, 체코
- ^ Q. Gao, S. Vogel, "Word Alignment Tool 병렬 구현", 자연어 처리를 위한 소프트웨어 엔지니어링, 테스트 및 품질 보증, 2008년 6월 49-57페이지
- ^ Philipp Kohn, Franz Josef Och, Daniel Marcu: 통계 어구 기반 번역(2003)
- ^ a b c d Koehn, Philipp (2010). Statistical Machine Translation. Cambridge University Press. ISBN 978-0-521-87415-1.
- ^ a b Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 August 2016). Syntax-based Statistical Machine Translation. Morgan & Claypool Publishers. ISBN 978-1-62705-502-4.
- ^ W. J. 허친스와 H. 서머스(1992)기계번역개론, 18.3:322.ISBN 978-0-12-362830-5
- ^ Skype 번역기 미리보기
- ^ Wołk, K.; Marasek, K. (2014-04-07). "Real-Time Statistical Speech Translation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ^ Wołk K.; Marasek K. (2014). Polish-English Speech Statistical Machine Translation Systems for the IWSLT 2014. Proceedings of the 11th International Workshop on Spoken Language Translation, Lake Tahoe, USA.
- ^ Wołk K.; Marasek K. (2013). Polish-English Speech Statistical Machine Translation Systems for the IWSLT 2013. Proceedings of the 10th International Workshop on Spoken Language Translation, Heidelberg, Germany. pp. 113–119. arXiv:1509.09097.
- ^ Turovsky, Barak (2016-11-15). "Found in translation: More accurate, fluent sentences in Google Translate". Google. Retrieved 2019-10-03.
- ^ "Machine Translation". Microsoft Translator for Business. Retrieved 2019-10-03.
- ^ Vashee, Kirti (2016-12-22). "SYSTRAN's Continuing Neural MT Evolution". eMpTy Pages. Retrieved 2019-10-03.
- ^ "One model is better than two. Yandex.Translate launches a hybrid machine translation system". Yandex Blog. 2017-09-14. Retrieved 2019-10-03.