신경기계 번역

Neural machine translation

NMT(neural machine translation)는 인공 신경망을 사용하여 단어 시퀀스의 가능성을 예측하는 기계 번역 접근법이며, 일반적으로 단일 통합 모델에서 전체 문장을 모델링합니다.

특성.

기존 SMT(Statistical Machine Translation) 모델에 필요한 메모리는 극히 일부입니다.또한 기존 번역 시스템과 달리 신경 번역 모델의 모든 부분이 공동으로(엔드 투 엔드로) 훈련되어 번역 [1][2][3]성능을 극대화합니다.

역사

딥 러닝 애플리케이션은 1990년대에 음성 인식에 처음 등장했다.기계 번역에 신경망을 이용하는 것에 관한 최초의 과학 논문은 2014년에 발표되었습니다.올해 Bahdanau 등 [R 1]및 Sutskever [R 2]등에서는 엔드 투 엔드 뉴럴 네트워크 번역 모델을 제안하고 "neural machine translation"이라는 용어를 공식적으로 사용했습니다.2015년 바이두에서 처음으로 대규모 NMT 시스템을 출시하였습니다.내년에 구글도 NMT 시스템을 출시했고,[4] 그 뒤를 이어 다른 시스템도 출시했다.그 후 몇 년 동안 많은 발전이 있었습니다.(대용어 NMT, 어플리케이션 투 이미지 캡션, 서브워드 NMT, 다국어 NMT, 멀티소스 NMT, 문자 데크 NMT, 제로 리소스 NMT, 구글, 완전 문자 NMT 제로).파티션(OpenMT'15).또한 WMT'15는 처음으로 NMT 경쟁업체로 선정되었으며, 이듬해에는 이미 [5]NMT 시스템의 90%가 수상업체로 선정되었습니다.

2017년부터 유럽특허청은 신경기계번역을 통해 글로벌 특허 시스템의 정보를 즉시 이용할 [6]수 있도록 하고 있다.구글과 공동으로 개발한 이 시스템은 31개 언어로 구성되어 있으며, 2018년 현재 900만 [6]건 이상의 문서를 번역했다.

동작하고 있다

NMT는 별도로 엔지니어링된 서브컴포넌트를 [7]사용하는 구문 기반의 통계 접근법에서 출발합니다.NMT(Neural Machine Translation)는 기존의 SMT(Statistical Machine Translation)를 뛰어넘는 급격한 단계는 아닙니다.주요 출발점은 단어와 내부 상태에 벡터 표현("포함", "연속 공간 표현")을 사용하는 것입니다.모델의 구조는 구문 기반 모델보다 단순합니다.언어 모델, 번역 모델, 정렬 모델이 따로 있는 것이 아니라 한 번에 한 단어를 예측하는 단일 시퀀스 모델만 있습니다.단, 이 시퀀스 예측은 소스문 전체와 이미 생성된 타깃 시퀀스 전체에 따라 결정된다.NMT 모델은 딥 러닝표현 학습을 사용합니다.

단어 시퀀스 모델링은 처음에 일반적으로 RNN(Recurrent Neural Network)을 사용하여 수행되었습니다.인코더로 알려진 양방향 반복 신경망은 신경망에 의해 디코더로 알려진 두 번째 RNN의 소스 문장을 인코딩하기 위해 사용되며, 이는 타깃 [8]언어의 단어를 예측하는 데 사용됩니다.반복 신경망은 긴 입력을 단일 벡터로 인코딩하는 데 어려움을 겪습니다.이는 디코더가 출력의 각 워드를 생성하면서 입력의 다른 부분에 초점을 맞출 수 있도록 하는[9] 주의 메커니즘에 의해 보상될 수 있습니다.이러한 주의 메커니즘의 문제에 대처하는 커버리지 모델(과거 얼라인먼트 정보 무시 등)이 있습니다.이러한 문제는 번역 과다 및 번역 [10]부족의 원인이 됩니다.

컨볼루션 뉴럴 네트워크 (Connets)는 원칙적으로 긴 연속 시퀀스에 다소 더 낫지만, 몇 가지 약점 때문에 초기에는 사용되지 않았다.이들은 "주의 메커니즘"[11]을 이용하여 2017년에 성공적으로 보상되었다.

Transformer[12] 어텐션 기반 모델이며, 여러 언어 [13]쌍에 대해 여전히 지배적인 아키텍처입니다.트랜스포머 모델의 자기 주의 계층은 쌍으로 구성된 시퀀스의 모든 단어 사이의 링크를 검사하고 이러한 관계를 직접 모델링함으로써 시퀀스의 단어 간의 종속성을 학습합니다.이것은 RNN이 사용하는 게이트 메커니즘보다 간단한 접근법입니다.또, 그 심플함에 의해, 연구자는 트랜스포머 모델을 사용한 고품질 번역 모델을, 리소스가 적은 환경에서도 개발할 수 있게 [14]되었습니다.

언급

  1. ^ Bahdanau D, Cho K, Bengio Y.얼라인먼트와 번역을 공동으로 학습함으로써 신경기계번역.인: 제3회 국제학습표현회의 진행; 2015년 5월 7일~9일; 미국 샌디에이고; 2015년.
  2. ^ Sutskever I, Vinyals O, Le QV.뉴럴 네트워크로 학습 시퀀스를 설정합니다.인: 제27회 신경정보처리시스템 국제회의의 속행; 2014년 12월 8일~13일; 캐나다 몬트리올, QC; 2014.

레퍼런스

  1. ^ Kalchbrenner, Nal; Blunsom, Philip (2013). "Recurrent Continuous Translation Models". Proceedings of the Association for Computational Linguistics: 1700–1709.
  2. ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Sequence to sequence learning with neural networks". arXiv:1409.3215 [cs.CL].
  3. ^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". arXiv:1409.1259 [cs.CL].
  4. ^ Haifeng Wang, Hua Woo, Zhongjun He, Liang Huang, Kenneth Ward Church의 기계번역 진척 // 엔지니어링 (최종), doi: https://doi.org/10.1016/j.eng.2021.03.023
  5. ^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Findings of the 2016 Conference on Machine Translation" (PDF). ACL 2016 First Conference on Machine Translation (WMT16). The Association for Computational Linguistics: 131–198. Archived from the original (PDF) on 2018-01-27. Retrieved 2018-01-27.
  6. ^ a b "Neural Machine Translation". European Patent Office. 16 July 2018. Retrieved 14 June 2021.
  7. ^ Wołk, Krzysztof; Marasek, Krzysztof (2015). "Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts". Procedia Computer Science. 64 (64): 2–9. arXiv:1509.08644. Bibcode:2015arXiv150908644W. doi:10.1016/j.procs.2015.08.456. S2CID 15218663.
  8. ^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
  9. ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014-09-01). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
  10. ^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 [cs.CL].
  11. ^ Coldewey, Devin (2017-08-29). "DeepL schools other online translators with clever machine learning". TechCrunch. Retrieved 2018-01-27.
  12. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].,
  13. ^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof (August 2019). "Findings of the 2019 Conference on Machine Translation (WMT19)". Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics: 1–61. doi:10.18653/v1/W19-5301.
  14. ^ Wdowiak, Eryk (2021-09-27). "Sicilian Translator: A Recipe for Low-Resource NMT". arXiv:2110.01938 [cs.CL].