전송 기반 기계 번역

Transfer-based machine translation
중간 표현의 깊이를 나타내는 Bernard Vauquois의 피라미드, 언어간 기계번역, 그 후 전송 기반, 직접번역 순으로 보여줍니다.

전송 베이스의 머신 번역은, 머신 번역(MT)의 일종입니다.현재 가장 널리 사용되는 기계 번역 방법 중 하나입니다.MT의 단순한 다이렉트 모델과는 대조적으로 전송 MT는 번역을 3단계로 나눕니다.원어 텍스트를 분석하여 문법 구조를 결정하고, 그 결과 구조를 대상 언어의 텍스트를 생성하기에 적합한 구조로 전송하며, 최종적으로 이 텍스트를 생성합니다.따라서 전송 기반 MT 시스템은 소스 [1]및 타깃 언어에 대한 지식을 사용할 수 있습니다.

설계.

번역기반의 기계번역도 인터링거 기반의 기계번역도 같은 생각을 가지고 있습니다.번역을 하려면 원문의 '의미'를 포착하는 중간표현이 필요합니다.인터링구아 기반 MT에서는 이 중간 표현이 해당 언어와는 무관해야 합니다.반면 전송 기반 MT에서는 관련된 언어 쌍에 의존합니다.

전송 기반의 기계번역 시스템은 크게 다르지만 일반적으로 동일한 패턴을 따릅니다.즉, 소스 언어의 구조와 타깃 언어의 구조를 대응시키는 것으로 정의되는 일련의 언어 규칙을 적용합니다.첫 번째 단계는 내부 표현을 만들기 위해 형태학구문(때로는 의미론)에 대한 입력 텍스트를 분석하는 것을 포함한다.번역은 이중언어 사전과 문법 규칙을 모두 사용하여 이 표현에서 생성됩니다.

이 번역 전략에서는 90%의 [vague]정확도로 상당히 고품질의 번역을 얻을 수 있습니다(단, 이는 문제의 언어 쌍(예를 들어 두 언어 사이의 거리)에 크게 의존합니다).

작동

규칙 기반의 기계번역 시스템에서 원문은 구문적 표현을 얻기 위해 먼저 형태학적 및 구문적으로 분석된다.이 표현은 번역과 관련된 부분에 중점을 두고 다른 유형의 정보는 무시하고 보다 추상적인 수준으로 다듬을 수 있습니다.그런 다음 전송 프로세스는 이 최종 표현(원래 언어 그대로)을 대상 언어로 동일한 수준의 추상 표현으로 변환합니다.이 두 가지 표현을 "중간" 표현이라고 합니다.다음으로 목표 언어 표현에서 스테이지를 반대로 적용한다.

분석 및 변환

최종 결과를 얻기 전에 다양한 분석 및 변환 방법을 사용할 수 있습니다.이러한 통계적 접근법과 함께 하이브리드 시스템을 생성하는 것이 증가할 수 있다.선택하는 방법과 강조점은 주로 시스템 설계에 따라 다르지만, 대부분의 시스템은 적어도 다음 단계를 포함합니다.

  • 형태학적 분석.입력 텍스트의 표면 형태는 음성 부분(예를 들어 명사, 동사 등)과 하위 카테고리(숫자, 성별, 시제 등)로 분류된다.각 표면 형태에 대해 가능한 모든 "분석"은 일반적으로 단어의 보조어와 함께 이 단계에서 생성됩니다.
  • 어휘 분류.주어진 텍스트에서 일부 단어는 둘 이상의 의미를 가질 수 있으며, 분석 시 모호성을 야기할 수 있습니다.어휘 분류는 입력의 맥락에서 올바른 의미를 결정하기 위해 단어의 맥락을 살펴봅니다.여기에는 음성 부분 태그 부착 및 단어 의미 명확화가 포함될 수 있습니다.
  • 어휘 전송이것은 기본적으로 사전 번역입니다.원어 보조어(아마도 센스 정보 포함)를 2개 국어 사전에서 찾아보고 번역을 선택합니다.
  • 구조적인 이전이전 단계에서는 단어를 다루지만, 이 단계에서는 구문 청크와 같은 더 큰 구성 요소를 다룹니다.이 단계의 일반적인 특징으로는 성별과 숫자의 일치, 단어 또는 구문의 정렬 등이 있습니다.
  • 형태학적 생성.구조전송 스테이지의 출력으로부터 대상 언어표면형을 생성한다.

전송 유형

전송 기반의 기계번역 시스템의 주요 특징 중 하나는 원문에서의 텍스트 중간표현을 타깃 언어의 텍스트 중간표현으로 "전송"하는 단계입니다.이것은 언어 분석의 두 가지 수준 중 하나 또는 중간 수준에서 작동합니다.레벨은 다음과 같습니다.

  • 표면 전달(또는 구문 전달)이 레벨은 소스 언어와 타깃 언어 간에 "구문 구조"를 전송하는 것이 특징입니다.예를 들어 스페인어, 카탈로니아어, 프랑스어, 이탈리아어 등의 로망스어족 또는 같은 유형의 언어에 적합합니다.
  • 전송(또는 시멘틱).이 레벨은 소스 언어에 의존하는 의미 표현을 구성합니다.이 표현은 의미를 나타내는 일련의 구조로 구성될 수 있습니다.이러한 전송 시스템에서는 일반적으로 술어가 생성됩니다.번역에는 통상 구조적인 이전도 필요합니다.이 레벨은 보다 먼 친척 언어(스페인어-영어 또는 스페인어-바스크 등)를 번역하기 위해 사용됩니다.

레퍼런스

  1. ^ Jurafsky, Daniel; Martin, James H. (2009). Speech and Language Processing. Pearson. pp. 906–908.

「 」를 참조해 주세요.