규칙 기반 기계 변환
Rule-based machine translation규칙 기반 기계번역(RBMT, "클래식 어프로치")은 기본적으로 (비언어, 이중언어 또는 다국어) 사전에서 검색된 소스 및 타깃 언어에 대한 언어 정보와 각 언어의 주요 의미, 형태론 및 구문적 규칙성을 포함하는 문법에 기초한 기계번역 시스템입니다.ely. 입력문(일부 소스 언어에서)을 가진 RBMT 시스템은 구체적인 번역 태스크에 관련된 소스 및 타깃 언어의 형태학적, 통사적, 의미론적 분석에 기초하여 문장을 출력하기 위해 그것들을 생성한다.
역사
최초의 RBMT 시스템은 1970년대 초에 개발되었습니다.이 진화의 가장 중요한 단계는 다음과 같은 RBMT 시스템의 출현이었습니다.
- 시스템(http://www.systran.de/)
- 일본 MT시스템(http://aamt.info/english/mtsys.htm, http://www.wtec.org/loyola/ar93_94/mt.htm)
- EUROTRA(유로트라)
현재 일반적인 RBMT 시스템은 다음과 같습니다.
RBMT의 종류
규칙 기반 기계 변환 시스템에는 다음 3가지 유형이 있습니다.
- Direct Systems(Dictionary Based Machine Translation)는 입력을 기본 규칙으로 출력에 매핑합니다.
- Transfer RBMT Systems(Transfer Based Machine Translation)는 형태학적 및 구문학적 분석을 사용합니다.
- 언어간 RBMT 시스템(Interlingua)은 추상적인 [1][2]의미를 사용합니다.
RBMT 시스템은 RBMT에서 파생된 많은 원칙을 사용하는 반면, RBMT 시스템은 시스템 번역 예제와 반대되는 시스템으로서도 특징지을 수 있습니다.
기본 원칙
RBMT 시스템의 주요 접근법은 주어진 입력 문장의 구조와 요구된 출력 문장의 구조를 연결하는 것에 기초하며, 반드시 고유한 의미를 보존한다.다음으로 RBMT의 일반적인 프레임을 나타내는 예를 나타냅니다.
- 소녀는 사과를 먹는다.소스 언어 = 영어, 필요한 대상 언어 = 독일어
이 영어 문장을 독일어로 번역하려면 최소한 다음 사항이 필요합니다.
- 각 영어 단어를 적절한 독일어 단어에 매핑하는 사전입니다.
- 규칙적인 영어 문장 구조를 나타내는 규칙.
- 일반적인 독일어 문장 구조를 나타내는 규칙.
마지막으로 이 두 가지 구조를 연관시킬 수 있는 규칙이 필요합니다.
따라서 번역의 다음 단계를 기술할 수 있습니다.
- 첫 번째: 각 소스 워드의 기본 부분 정보 가져오기:
- a = 무기한.article; girl = 명사; = 동사; = 부정사.기사; apple = 명사
- 두 번째: "to eat" 동사에 대한 구문 정보 얻기:
- NP-eat-NP;여기서: eat – 간단한 3인칭 단수, 액티브 보이스 표시
- 세 번째: 원본 문장 구문 분석:
- (NP an apple) = 먹는 대상
종종 부분 구문 분석만 하면 소스 문장의 구문 구조에 도달하고 대상 문장의 구조에 매핑할 수 있습니다.
- 넷째: 영어 단어를 독일어로 번역하다
- a(카테고리 = 부정).기사) => ein (카테고리= 무기한).기사)
- girl (카테고리=명사) => Médchen (카테고리=명사)
- eat (카테고리 = 동사) => 에센 (카테고리 = 동사)
- a(카테고리 = 부정).기사) => ein (카테고리= 무기한).기사)
- 사과(카테고리=명사)=> 압펠(카테고리=명사)
- 5번째: 사전 항목을 적절한 굴절된 형식으로 매핑(최종 생성):
- 소녀는 사과를 먹는다.=> Ein Médchen is einen Apfel.
구성 요소들
RBMT 시스템에는 다음이 포함됩니다.
- SL 형태소 분석기 - 소스 언어 단어를 분석하고 형태소 정보를 제공한다.
- SL 파서 - 소스 언어 문장을 분석하는 구문 분석기입니다.
- 번역자 - 소스 언어 단어를 대상 언어로 번역하는 데 사용됩니다.
- TL 형태학 생성기 - 주어진 문법 정보에 대한 적절한 대상 언어 단어 생성기 역할을 한다.
- TL 파서 - 적절한 대상 언어 문장의 작성자로 일한다.
- 여러 사전 - 구체적으로는 최소 3개의 사전:
- SL 사전 - 형태학 분석을 위해 소스 언어 형태학 분석기에 필요하다.
- 2개 국어 사전 - 번역자가 소스 언어 단어를 대상 언어 단어로 번역하는 데 사용됩니다.
- TL 사전 - 대상 언어 형태학 생성기가 대상 언어 [3]단어를 생성하는 데 필요합니다.
RBMT 시스템은 다음을 사용합니다.
- 입력 문장에서 구문 구조를 구축하는 입력 언어의 소스 문법
- 도메인 내에서 허용되는 모든 어휘를 캡처하는 소스 사전
- 소스 매핑 규칙: 소스 언어의 구문적 헤드와 문법적 기능이 인터링거의 도메인 개념 및 의미적 역할에 어떻게 매핑되는지를 나타냅니다.
- 도메인 개념의 클래스를 정의하고 각 클래스에 대한 의미 역할의 채우기를 제한하는 도메인 모델/온톨로지
- 인터링거의 도메인 개념과 의미역할이 대상 언어의 구문적 헤드와 문법적 기능에 어떻게 매핑되는지를 나타내는 대상 매핑 규칙
- 각 도메인 개념에 적합한 대상 어휘소가 포함된 대상 어휘소
- 선형화된 출력 [4]문장으로서 목표 구문 구성을 실현하는 목표 언어에 대한 목표 문법.
이점
- 이중언어 텍스트는 필요하지 않습니다.이것에 의해, 공통의 텍스트가 없는 언어나 디지털 데이터가 없는 언어의 번역 시스템을 작성할 수 있습니다.
- 도메인에 의존하지 않습니다.규칙은 보통 도메인에 의존하지 않는 방식으로 작성되기 때문에 대부분의 규칙은 모든 도메인에서 "그냥" 작동하며 도메인당 몇 가지 특정 사례만 규칙을 작성해야 할 수 있습니다.
- 품질 상한 없음.트리거 사례가 극히 드물더라도 모든 오류를 대상 규칙으로 수정할 수 있습니다.이는 빈도가 낮은 형식이 기본적으로 삭제되는 통계 시스템과는 대조적이다.
- 완전 제어.모든 규칙은 수기로 작성되므로 규칙 기반 시스템을 쉽게 디버깅하여 특정 오류가 시스템에 들어오는 정확한 위치와 이유를 확인할 수 있습니다.
- 재사용 가능성RBMT 시스템은 일반적으로 전송 스텝 및 타깃 언어 생성기에 공급되는 강력한 소스 언어 분석으로 구축되므로 소스 언어 분석 및 타깃 언어 생성 부분을 여러 번역 시스템 간에 공유할 수 있으므로 전송 스텝만 전문화하면 된다.또한 하나의 언어에 대한 소스 언어 분석을 재사용하여 밀접하게 관련된 언어 분석을 부트스트랩할 수 있습니다.
단점
- 정말 좋은 사전의 양이 부족합니다.새 사전을 만드는 것은 비용이 많이 든다.
- 일부 언어 정보는 여전히 수동으로 설정해야 합니다.
- 큰 시스템, 모호성 및 관용적 표현에서 규칙 상호작용을 다루는 것은 어렵습니다.
- 새 도메인에 적응하지 못했습니다.RBMT 시스템은 일반적으로 새로운 규칙을 만들고 어휘를 확장 및 조정하는 메커니즘을 제공하지만, 변경은 일반적으로 비용이 많이 들고 그 결과는 종종 성과를 [5]거두지 못한다.
레퍼런스
- ^ Koehn, Philipp (2010). Statistical Machine Translation. Cambridge: Cambridge University Press. p. 15. ISBN 9780521874151.
- ^ Nirenburg, Sergei (1989). "Knowledge-Based Machine Translation". Machine Trandation 4 (1989), 5 - 24. Kluwer Academic Publishers. 4 (1): 5–24. JSTOR 40008396.
- ^ Hettige, B.; Karunananda, A.S. (2011). "Computational Model of Grammar for English to Sinhala Machine Translation". 2011 International Conference on Advances in ICT for Emerging Regions (ICTer). The International Conference on Advances in ICT for Emerging Regions - ICTer20 11 : 026-031. pp. 26–31. doi:10.1109/ICTer.2011.6075022. ISBN 978-1-4577-1114-5. S2CID 45871137.
- ^ Lonsdale, Deryle; Mitamura, Teruko; Nyberg, Eric (1995). "Acquisition of Large Lexicons for Practical Knowledge-Based MT". Machine Translation 9: 251-283. Kluwer Academic Publishers. 9 (3–4): 251–283. doi:10.1007/BF00980580. S2CID 1106335.
- ^ Lagarda, A.-L.; Alabau, V.; Casacuberta, F.; Silva, R.; Díaz-de-Liaño, E. (2009). "Statistical Post-Editing of a Rule-Based Machine Translation System" (PDF). Proceedings of NAACL HLT 2009: Short Papers, pages 217–220, Boulder, Colorado. Association for Computational Linguistics. Retrieved 20 June 2012.
문학.
- Arnold, D.J. et al. (1993) :기계 번역: 입문 가이드
- 허친스, W.J. (1986) :기계 번역: 과거, 현재, 미래