언어간 기계번역

Interlingual machine translation
그림 1.브리지 언어를 사용하여 번역하는 과정에서 사용되는 언어의 시연.

언어간 기계번역기계번역의 고전적 접근방식 중 하나이다.이 접근법에서, 소스 언어, 즉 번역될 텍스트는 인터링구아, 즉 추상 언어에 독립적인 표현으로 변형된다.그런 다음 대상 언어는 인터링구아에서 생성된다.규칙 기반 기계 번역 패러다임 내에서 언어 간 접근방식은 직접 접근방식과 전송 접근방식의 대안이다.

직접접근법에서는 추가표현을 거치지 않고 단어들이 직접 번역된다.전송 접근방식에서 소스 언어는 추상적이고 덜 특정한 언어 표현으로 변형된다.언어 쌍에 특정한 언어 규칙으로 소스 언어 표현을 추상적인 대상 언어 표현으로 변환하고, 이를 통해 대상 문장이 생성된다.

기계번역에 대한 언어간 접근방식은 장단점이 있다.각각의 소스 언어를 각 대상 언어와 연관시키기 위해 더 적은 구성요소를 필요로 하고, 새로운 언어를 추가하기 위해 더 적은 구성요소를 필요로 하며, 원래 언어로 입력의 파라프레이스를 지원하며, 분석기와 생성기를 단일 언어 시스템 개발자가 작성할 수 있도록 하며, 언어를 처리한다.에서는 서로 매우 다르다(예: 영어와 아랍어[1]).분명한 단점은 인터링구아의 정의가 어렵고 심지어 더 넓은 영역에서도 불가능하다는 것이다.그러므로 언어간 기계번역의 이상적인 문맥은 매우 특정한 도메인에서 다국어 기계번역이다.

역사

언어간 기계번역에 대한 최초의 아이디어는 17세기에 데카르트라이프니츠와 함께 등장했는데, 그는 보편적인 숫자 코드를 사용하여 사전을 만드는 방법에 대한 이론을 내놓았다.동굴 벡, 아타나시우스 커처, 요한 요아힘 베커와 같은 다른 사람들은 논리와 우상화의 원리에 기초하여 모호하지 않은 보편적 언어를 개발하는데 힘썼다.1668년, 존 윌킨스는 "진정한 인물과 철학적 언어를 향한 이세이"에서 그의 인터링구아를 묘사했다.18세기와 19세기에 "범용" 국제 언어에 대한 많은 제안들이 개발되었는데, 가장 잘 알려진 것은 에스페란토였다.

그렇기는 하지만, 기계 번역에 보편적인 언어의 개념을 적용하는 것은 최초의 중요한 접근법에는 나타나지 않았다.대신, 언어 쌍에 대한 작업이 시작되었다.그러나 1950년대와 60년대에는 마가렛 마스터맨을 필두로 한 캠브리지, 니콜라이 안드리브가 이끄는 레닌그라드, 실비오 세카토가 이끄는 밀라노의 연구원들이 이 지역에서 연구를 시작했다.이 사상은 1969년 이스라엘의 철학자 예호슈아 바르힐렐에 의해 광범위하게 논의되었다.

1970년대에는 그르노블에서 물리학과 수학적 원문을 러시아어에서 프랑스어로 번역하려는 연구자들에 의해 주목할 만한 연구가 이루어졌으며, 텍사스에서는 러시아어와 영어에 대한 유사한 프로젝트(METAL)가 진행 중이었다.초기 언어간 MT 시스템은 1970년대에 스탠포드 대학에서도 로저 챈크와 요릭 윌크스에 의해 구축되었다. 전자는 자금 이체를 위한 상업적 시스템의 기초가 되었으며, 후자의 코드는 최초의 언어간 기계 번역 시스템으로 보스턴컴퓨터 박물관에 보존되어 있다.

1980년대에는 기계번역에 대한 인터링구아 기반의 지식기반 접근방식과 관련성이 새롭게 부여되었고, 그 분야에서는 많은 연구가 진행되었다.이 연구에서 단합된 요인은 고품질의 번역은 본문을 완전히 이해해야 한다는 생각을 버려야 한다는 것이었다.대신에, 번역은 언어 지식과 시스템이 사용될 특정 영역에 기초해야 한다.이 시대의 가장 중요한 연구는 에스페란토의 변형판으로 작업한 위트레흐트분산언어번역(DLT)과 일본의 후지쓰 제도에서 이루어졌다.

개요

그림 2. a) 직역 또는 전송 기반 기계 번역에 필요한 번역 그래프(12개 사전 필요), b) 브리지 언어를 사용할 때 필요한 번역 그래프(8개 번역 모듈만 필요)

이 번역 방법에서 인터링구아는 형태학적, 통사적, 의미론적(그리고 심지어 실용적) 특성인 '의미'를 대상 언어로 변환할 수 있도록 소스 언어로 쓰여진 텍스트의 분석을 기술하는 방법으로 생각할 수 있다.이 인터링구아는 단순히 한 언어에서 다른 언어로 번역하는 대신 번역될 모든 언어의 모든 특징을 설명할 수 있다.

그림 3: 두 개의 중간 언어를 사용한 번역 그래프.

때때로 번역에는 두 개의 중간언어가 사용된다.둘 중 하나는 소스 언어의 특성을 더 많이 다루고, 다른 하나는 대상 언어의 특성을 더 많이 가지고 있을 가능성이 있다.이어 번역은 두 단계를 거쳐 제1언어의 문장을 대상 언어에 더 가까운 문장으로 변환하는 방식으로 진행된다.또한 제2 인터링구아가 대상 언어에 더 가깝거나 더 정렬된 보다 구체적인 어휘를 사용하도록 시스템을 설정할 수 있으며, 이는 번역 품질을 향상시킬 수 있다.

위에서 언급한 시스템은 언어적 근접성을 이용하여 하나의 본래의 언어로 된 텍스트에서 하나의 본래의 분석에서 구조적으로 유사한 다른 많은 언어로 번역의 질을 향상시킨다는 발상에 기초하고 있다.이 원리는 피벗 머신 번역에서도 사용되는데, 여기서 자연어는 더 먼 두 언어 사이의 "다리"로 사용된다.예를 들어, 러시아어를 중간 언어로 사용하여 우크라이나에서 영어로 번역하는 경우.[2]

번역과정

언어간 기계번역 시스템에는 두 가지 단언어 구성 요소가 있는데, 그것은 소스 언어와 언어간 언어의 분석과 언어간 언어와 대상 언어의 생성이다.그러나 구문론적 방법(예를 들어 1970년대에 그레노블과 텍사스 대학에서 개발된 시스템)만을 이용한 언어간 시스템과 인공지능에 기반한 시스템(일본에서는 1987년부터, 남캘리포니아와 카네기멜론 대학의 연구)을 구별할 필요가 있다.첫 번째 유형의 시스템은 그림 1에 요약된 것과 일치하지만 다른 유형의 시스템은 그림 4의 도표로 근사치를 구할 수 있다.

언어간 기계번역시스템에 필요한 자원은 다음과 같다.

그림 4.지식 기반 시스템의 기계 번역.
  • 분석 및 생성을 위한 사전(또는 사전) (도메인 및 관련 언어에 한정됨)
  • 도메인에서 알려진 이벤트와 엔터티에 대한 지식 기반인 개념 어휘.
  • 도메인 및 언어에 대한 투영 규칙 집합.
  • 관련된 언어의 분석 및 생성을 위한 그래머.

지식 기반 기계 번역 시스템의 문제 중 하나는 매우 특정한 영역보다 큰 도메인의 데이터베이스를 만드는 것이 불가능하게 된다는 것이다.다른 하나는 이러한 데이터베이스를 처리하는 것이 컴퓨터적으로 매우 비싸다는 것이다.

효능

이 전략의 주요 장점 중 하나는 다국어 번역 시스템을 만드는 경제적인 방법을 제공한다는 것이다.인터링구아에서는 시스템의 각 언어 쌍 사이에 번역 쌍을 만들 필요가 없게 된다. n (- ) 은(는 시스템의 언어 수인 n n} 언어 쌍을 생성하는 대신 n 언어와 인터링구아 간에 쌍만 만들면 된다.

이 전략의 주요 단점은 적절한 인터링구아를 만드는 어려움이다.그것은 추상적이고 소스 언어와 대상 언어로부터 독립적이어야 한다.번역 시스템에 더 많은 언어가 추가될수록, 그리고 더 다른 언어일수록 인터링구아는 가능한 모든 번역 방향을 표현할 수 있는 힘이 더 강해야 한다.원어로 된 텍스트에서 의미를 추출해 중간표현을 만들기가 어려운 것도 문제다.

기존 언어간 기계번역 시스템

참고 항목

메모들

  1. ^ 압델 모넴, A, 샤알란, K, 라페아, A, 바라카, H, 다국어 음성-음성 기계 번역 프레임워크, 기계 번역, 스프링거, 네덜란드, 20(4): 205–258, 2008년 12월.
  2. ^ 보그단 베이비치, 앤서니 하틀리, 세르게 샤로프(2007)는 "부족한 언어로부터 번역: 직접 전달과 피벗 번역의 비교"라고 말했다.MT 서밋 XI, 2007년 9월 10-14일, 덴마크 코펜하겐. 페이지 29-35

외부 링크