기계번역

Machine translation
스페인어 텍스트를 영어로 번역하는 휴대폰 앱

기계 번역은 두 언어의 문맥적, 관용적, 실용적 뉘앙스를 포함하여 텍스트 또는 음성을 한 언어에서 다른 언어로 번역하는 규칙 기반 또는 확률적(즉, 통계적 및 가장 최근 신경망 기반) 기계 학습 접근 방식을 사용합니다.

역사

오리진스

기계번역의 기원은 현대 기계번역에서 사용되는 암호 분석, 빈도 분석, 확률통계포함한 체계적인 언어번역 [1]기술을 개발한 9세기 아랍어 암호학자 알킨디의 연구로 거슬러 올라갈 수 있습니다.기계번역의 아이디어는 후에 17세기에 나타났습니다.1629년 르네 데카르트는 하나의 상징을 [2]공유하는 서로 다른 언어의 동등한 생각을 가진 보편적인 언어를 제안했습니다.

자연어 번역을 위해 디지털 컴퓨터를 사용하는 아이디어는 1947년에 영국의 A. D[3]. 부스와 같은 해에 록펠러 재단워렌 위버에 의해 제안되었습니다."1949년 워렌 위버가 쓴 비망록은 아마도 기계 번역 초기에 [4][5]가장 영향력 있는 출판물일 것입니다."다른 분들이 뒤를 이었습니다.1954년 버크벡 칼리지 (런던 대학)의 APEXC 기계에서 영어를 프랑스어로 기초 번역하는 시연이 이루어졌습니다.당시 이 주제에 대한 여러 논문들이 발표되었으며, 심지어 대중적인 저널에 기사가 실리기도 했습니다(예를 들어, 1955년 9월호 Wireless World에서 Cleave와 Zacharov의 기사).Birkbeck College에서도 그 당시 개척된 비슷한 어플리케이션은 컴퓨터로 점자 텍스트를 읽고 작성하는 것이었습니다.

1950년대

이 분야의 첫 번째 연구원인 Yehoshua Bar-Hillel은 MIT에서 연구를 시작했습니다 (1951).Michael Zarechnak 교수가 이끄는 Georgetown University MT 연구팀은 1954년에 Georgetown-IBM 실험 시스템을 공개적으로 시연했습니다.일본과 러시아에서 MT[6][7] 연구 프로그램이 불쑥 나타났고(1955), 런던에서 첫 MT 컨퍼런스가 열렸습니다(1956).[8][9]

데이비드 G. Hays는 1957년 초에 컴퓨터 지원 언어 처리에 대해 저술했으며 1955년부터 [10]1968년까지 랜드의 컴퓨터 언어학 프로젝트 리더였습니다.

1960–1975

연구자들은 미국에서 기계 번역 및 계산 언어학 협회가 설립되고 국립 과학 아카데미가 MT를 연구하기 위해 자동 언어 처리 자문 위원회(ALPAC)를 설립함에 따라 이 분야에 계속 참여했습니다.그러나 실질적인 진전은 훨씬 더 느렸고, 10년간의 연구가 기대를 충족시키지 못했다는 ALPAC 보고서(1966) 이후 자금 지원은 크게 [11]줄었습니다.1972년 국방 연구 및 엔지니어링 국장(DDR&E)의 보고서에 따르면, 대규모 MT의 실현 가능성은 그 분쟁 기간 동안 군사 매뉴얼을 베트남어로 번역하는 로고스 MT 시스템의 성공으로 재정립되었습니다.

프랑스 섬유 연구소는 또한 MT를 사용하여 프랑스어, 영어, 독일어 및 스페인어로 초록을 번역했습니다(1970). Brigham Young University는 몰몬교 텍스트를 자동 번역에 의해 번역하는 프로젝트를 시작했습니다(1971).

1975년 이후

제록스는 1960년대에 "미국 [12]정부의 계약에 따라 이 분야를 개척했다"는 SYSTRAN을 사용하여 기술 설명서를 번역했습니다(1978).1980년대 후반부터 계산 능력이 증가하고 비용이 절감됨에 따라 기계 번역을 위한 통계 모델에 더 많은 관심을 보였습니다.MT는 [13]컴퓨터가 등장한 이후에 더욱 인기를 끌게 되었습니다.SYSTRAN의 첫 번째 구현 시스템은 1988년 프랑스 우정국의 온라인 서비스인 Minitel에 [14]의해 구현되었습니다.Translation Memory 기술을 최초로 개발하고 시판한 Trados(1984)를 포함하여 다양한 컴퓨터 기반 번역 회사들도 출시되었지만 이것은 MT와 같지는 않습니다.러시아어/영어/독일어-우크라이나어를 위한 최초의 상용 MT 시스템은 1991년 하르코프 주립 대학교에서 개발되었습니다.

1998년에는 [12]"최소 $29.95"에 PC에서 실행할 수 있는 "영어와 원하는 주요 유럽 언어 사이에서 한 방향으로 번역할 수 있는 프로그램을 구입할 수 있었습니다.

웹 상의 MT는 SYSTRAN이 작은 텍스트의 무료 번역을 제공하는 것(1996)으로 시작하여 AltaVista Babelfish를 [12]통해 이를 제공하여 하루에 50만 건의 요청을 받았습니다([15]1997).웹상에서 두 번째 무료 번역 서비스는 Lernout & Hauspie의 GlobaLink였습니다.[12]1998년 애틀랜틱 매거진은 시스트란의 바벨피시와 글로바링크의 컴프렌드가 "돈트 뱅크 온 잇"을 "유능한 공연"[16]으로 다루었다고 썼습니다.

Franz Josef Och(미래의 Google 번역 개발 책임자)는 DARPA의 스피드 MT 대회(2003)[17]에서 우승했습니다.이 시기 동안의 더 많은 혁신에는 오픈 소스 통계 MT 엔진(2007), 일본의 모바일용 텍스트/SMS 번역 서비스(2008), 영어, 일본어 및 중국어용 음성 대 음성 번역 기능이 내장된 휴대폰(2009)이 포함되었습니다.2012년 구글은 구글 번역이 하루에 백만 권의 책을 채울 수 있을 정도의 텍스트를 번역한다고 발표했습니다.

어프로치

딥러닝 방법이 등장하기 전까지 통계적 방법형태론적, 통사적, 의미론적 주석을 수반하는 많은 규칙이 필요했습니다.

규칙 기반

규칙 기반 기계번역 방법은 주로 사전 및 문법 프로그램 개발에 사용되었습니다.그것의 가장 큰 단점은 모든 것이 명확하게 만들어져야 한다는 것이었습니다: 그것에 대응하기 위해서는 맞춤법의 변형과 잘못된 입력을 원천 언어 분석기의 일부로 만들어야 하고, 모호성이 있는 모든 사례에 대해서는 어휘 선택 규칙을 작성해야 한다는 것이었습니다.

전송 기반 기계번역

전송 기반 기계번역은 원래 문장의 의미를 시뮬레이션한 중간 표현에서 번역을 생성했다는 점에서 언어기계번역과 유사했습니다.언어 간 MT와는 달리 번역에 관련된 언어 쌍에 부분적으로 의존했습니다.

인터랭귀지

언어 간 기계 번역은 규칙 기반 기계 번역 접근 방식의 한 예였습니다.이 접근법에서, 원천 언어, 즉 번역될 텍스트는 언어 간 언어, 즉 어떤 언어와도 독립적인 "언어 중립적" 표현으로 변환되었습니다.그 후 대상 언어는 인터링구아에서 생성되었습니다.상용 수준에서 작동 가능한 유일한 언어 간 기계 번역 시스템은 캐터필러 기술 영어(CTE)를 다른 언어로 번역하도록 설계된 KANT 시스템(Nyberg and Mitamura, 1992)이었습니다.

사전 기반

기계번역은 사전 항목을 기반으로 하는 방법을 사용했는데, 이는 단어가 사전에 의해 그대로 번역되었다는 것을 의미합니다.

통계적

통계 기계 번역은 캐나다 한사드 말뭉치, 캐나다 의회의 영어-프랑스어 기록, 유럽 의회의 기록인 EUROFARL과 같이 이중 언어 텍스트 말뭉치를 기반으로 한 통계 방법을 사용하여 번역을 생성하려고 했습니다.이러한 말뭉치를 사용할 수 있는 곳에서는 유사한 텍스트를 번역하여 좋은 결과를 얻었지만, 많은 언어 쌍에서 이러한 말뭉치는 드물었습니다.최초의 통계 기계 번역 소프트웨어는 IBM의 CANIDE였습니다.2005년 Google은 UN 자료에서 나온 약 2,000억 개의 단어를 사용하여 시스템을 교육함으로써 내부 번역 능력을 향상시켰습니다. 번역 정확도가 [18]향상되었습니다.

시만텍의 가장 큰 단점은 방대한 병렬 텍스트에 의존하는 것, 형태학이 풍부한 언어(특히 그러한 언어로 번역하는 것의 문제), 싱글톤 오류를 수정할 수 없다는 것입니다.

뉴럴 MT

MT에 대한 딥 러닝 기반 접근 방식인 신경 기계 번역은 최근 몇 년 동안 급속한 발전을 이루고 있습니다.그러나 현재 합의는 제한된 도메인, 언어 쌍 및[19] 특정 테스트 벤치마크에 전적으로 기초하여 [20]달성된 소위 인간 동등성이 실제가 아니라는 것입니다. 즉, 통계적 유의력이 부족합니다.

보통 2022년 현재 최고의 기계 번역 결과를 제공하는 것으로 생각되는 DeepL Translator와 같은 신경 MT 도구에 의한 번역은 일반적으로 여전히 [21][22][23]사람에 의한 사후 편집이 필요합니다.

GPT-3에서 생성된 [24][25]번역을 조정하기 위해서는 신속한 엔지니어링이 필요합니다.

주요이슈

기계 번역은 "macrollepiota albuminosa"가 "Wikipedia"로 표현되는 것과 같이 이해할 수 없는 문구를 생성할 수 있습니다.
인도네시아 발리의 기계번역에서 온 깨진 중국어 "沒有進入"깨진 중국어 문장은 "엔트리가 존재하지 않는다" 또는 "아직 들어가지 않았다"와 같이 들립니다.

인간 평가(예: 전문 문학 번역가 또는 인간 독자)를 사용한 연구는 최신 고급 MT 출력의 [25]다양한 문제를 체계적으로 확인했습니다.공통적인 문제로는 상식과 같은 의미 언어 처리나 [25]문맥이 필요한 모호한 부분의 번역이 있습니다.또한 소스 텍스트에 오류가 발생할 수 있으며, 양질의 교육 데이터가 누락될 수 있으며, 여러 유형의 문제의 심각도가 현재까지 사용된 기술로는 감소되지 않아 어느 정도 수준의 인간의 적극적인 참여가 필요할 수 있습니다.

애매모호한 말

단어 의미의 모호성은 단어가 하나 이상의 의미를 가질 수 있을 때 적절한 번역을 찾는 것에 관한 것입니다.이 문제는 1950년대에 Yehoshua Bar-Hille[26]의해 처음 제기되었습니다.그는 "보편적 백과사전" 없이 기계는 단어의 [27]두 의미를 결코 구별할 수 없을 것이라고 지적했습니다.오늘날 이 문제를 해결하기 위해 고안된 수많은 접근법이 있습니다.이들은 대략적으로 "낮은" 접근법과 "깊은" 접근법으로 나눌 수 있습니다.

얕은 접근법은 텍스트에 대한 지식이 없다고 가정합니다.그들은 단지 모호한 단어를 둘러싼 단어들에 통계적 방법을 적용합니다.심층적 접근은 그 단어에 대한 포괄적인 지식을 전제로 합니다.지금까지는 얕은 접근이 더 [28]성공적이었습니다.

유엔과 세계보건기구의 오랜 번역가인 클로드 피론(Claude Piron)은 기계 번역이 번역가의 일에서 가장 쉬운 부분을 최고로 자동화한다고 썼습니다. 더 어렵고 시간이 많이 걸리는 부분은 보통 원문모호성을 해결하기 위해 광범위한 연구를 하는 것을 포함합니다.대상 언어의 문법적, 어휘적 긴급성을 해결해야 할 사항:

번역기가 한 두 시간도 아니고 다섯 페이지를 번역하는 데 꼬박 하루가 필요한 이유는 무엇일까요?...평균 텍스트의 약 90%가 이러한 간단한 조건에 해당합니다.하지만 불행히도 나머지 10%는 있습니다.그것은 6시간의 작업이 필요한 부분입니다.해결해야 할 모호한 점들이 있습니다.예를 들어, 소스 텍스트의 저자인 호주 의사는 "일본 포로 수용소"에서 2차 세계 대전 중에 선언된 전염병의 예를 인용했습니다.그는 일본인 포로가 있는 미국 수용소를 말하는 것입니까, 아니면 일본인 포로가 있는 일본 수용소를 말하는 것입니까?영어는 두가지 감각이 있습니다.따라서 [29]호주로 전화를 걸 정도의 연구가 필요합니다.

이상적인 심층 접근 방식은 번역 소프트웨어가 이러한 종류의 모호성을 해소하는 데 필요한 모든 연구를 자체적으로 수행해야 하지만, 이를 위해서는 아직 달성되지 않은 것보다 더 높은 수준의 인공지능이 필요합니다.피론이 언급하는 모호한 영어 구절(아마도 어떤 종류의 포로 수용소가 주어진 말뭉치에서 더 자주 언급되는지에 기초하여)의 감각을 단순하게 추측하는 얕은 접근법은 꽤 자주 틀린 것을 추측할 수 있는 합리적인 가능성을 가질 것입니다."각 모호성에 대해 사용자에게 질문"하는 것을 포함하는 얕은 접근 방식은 Piron의 추정에 따르면 전문 번역가의 작업 중 약 25%만 자동화하고, 더 어려운 75%는 여전히 사람이 수행해야 합니다.

비표준화법

MT의 가장 큰 문제점 중 하나는 표준 언어와 동일한 정확도로 비표준 언어를 번역할 수 없다는 것입니다.휴리스틱 또는 통계 기반 MT는 언어의 표준 형태로 다양한 소스로부터 입력을 받습니다.규칙 기반 변환은 기본적으로 일반적인 비표준 사용을 포함하지 않습니다.이로 인해 고유어원에서 구어로의 번역에 오류가 발생합니다.모바일 장치에서 기계 번역을 사용하는 데 있어 일상적인 말로 인한 번역의 제한이 문제가 되고 있습니다.

명명된 엔티티

정보 추출에서 명명된 개체는 좁은 의미에서 사람, 조직, 회사, 장소 등 현실 세계에서 적절한 이름을 가진 구체적이거나 추상적인 개체를 말합니다.조지 워싱턴, 시카고, 마이크로소프트또한 2011년 7월 1일, $500과 같은 시간, 공간 및 양의 표현을 나타냅니다.

"Smith는 Fabrionix의 사장입니다"라는 문장에서 스미스와 Fabrionix모두 이름이 붙은 개체이며 이름이나 다른 정보를 통해 더 많은 자격을 얻을 수 있습니다. "사장"은 그렇지 않습니다. 왜냐하면 Smith는 이전에 Fabrionix에서 부사장과 같은 다른 직책을 맡았을 수 있기 때문입니다.경직된 지정자라는 용어는 통계적 기계 번역에서 분석을 위한 이러한 용도를 정의하는 것입니다.

명명된 개체는 먼저 텍스트에서 식별되어야 하며, 그렇지 않은 경우 일반 명사로 잘못 번역될 수 있으므로 번역의 BLEU 등급에 영향을 미치지 않을 가능성이 높지만 텍스트의 인간 [30]가독성을 변경할 수 있습니다.출력 번역에서 생략될 수 있으며, 이는 텍스트의 가독성 및 메시지에도 영향을 미칠 수 있습니다.

번역은 대상 언어에서 소스 언어의 이름과 가장 밀접하게 일치하는 문자를 찾는 것을 포함합니다.그러나 이것은 때때로 [31]번역의 질을 악화시키는 것으로 언급되어 왔습니다."Southern California"의 경우 첫 번째 단어는 직접 번역되어야 하고, 두 번째 단어는 직접 번역되어야 합니다.기계는 하나의 개체로 취급했기 때문에 둘 다 번역하는 경우가 많습니다.이와 같은 단어들은 번역 구성 요소가 있는 기계 번역가들도 처리하기 어렵습니다.

번역이 [32]아닌 번역이라는 최종 목표가 동일한 "번역 안 하기" 목록을 사용합니다.여전히 명명된 엔티티의 올바른 식별에 의존합니다.

세 번째 접근법은 클래스 기반 모델입니다.명명된 개체는 해당 개체의 "클래스"를 나타내는 토큰으로 대체되며, "테드"와 "에리카"는 모두 "사람" 클래스 토큰으로 대체됩니다.그러면 일반적으로 "Ted"와 "Erica"의 분포를 개별적으로 보는 대신 통계적 분포와 개인 이름의 사용을 분석하여 특정 언어에서 주어진 이름의 확률이 번역의 할당 확률에 영향을 미치지 않도록 할 수 있습니다.이 번역 영역을 개선하기 위한 Stanford의 연구는 훈련 데이터의 이름별 발생 횟수가 다르기 때문에 영어에 대해 "David's going for walk"와 "Ankit's going for walk"에 다른 확률이 할당된다는 예를 제공합니다.Stanford의 동일한 연구(및 명명된 인식 번역을 개선하려는 다른 시도)의 실망스러운 결과는 종종 명명된 개체 [32]번역을 위한 방법의 포함으로 인해 번역에 대한 BLEU 점수가 감소할 것이라는 것입니다.

"우유와 함께 차를 마시는 것" vs "몰리와 함께 차를 마시는 것"이라는 문구는 어느 정도 관련이 있습니다.

다중 병렬 소스로부터의 번역

3개 이상의 언어로 번역된 텍스트 본문인 다중 병렬 말뭉치의 활용에 대한 일부 작업이 수행되었습니다.이러한 방법을 사용하면, 2개 이상의 언어로 번역된 텍스트를 조합하여 사용하여 소스 언어 중 하나만 [33][34][35]단독으로 사용되는 경우에 비해 제3 언어로 보다 정확한 번역을 제공할 수 있습니다.

MT에서의 온톨로지

온톨로지는 도메인의 개념(예: 객체, 프로세스 등)과 그들 사이의 일부 관계를 포함하는 지식의 공식적인 표현입니다.저장된 정보가 언어적인 성격을 가진 것이라면 [36]어휘를 말할 수 있습니다.NLP에서 온톨로지는 기계 번역 시스템을 위한 지식의 원천으로 사용될 수 있습니다.대규모 지식 기반에 액세스할 수 있는 시스템은 많은(특히 어휘적) 모호성을 자체적으로 해결할 수 있습니다.다음 고전적인 예에서, 인간으로서, 우리는 어휘에 저장된 우리의 세계 지식을 사용하기 때문에 문맥에 따라 전치사구를 해석할 수 있습니다.

현미경을 든 사람/별/분자/망원경/[36]쌍안경을 쓴 사람을 봤습니다.

기계 번역 시스템은 구문이 변경되지 않기 때문에 처음에는 의미를 구별할 수 없습니다.그러나 지식의 원천으로서 충분히 큰 존재론을 사용하면 특정 맥락에서 모호한 단어에 대한 가능한 해석을 줄일 수 있습니다.NLP 내의 온톨로지에 대한 다른 사용 영역에는 정보 검색, 정보 추출텍스트 [36]요약이 포함됩니다.

온톨로지 구축

1993년 PANGLOSS 지식기반 기계번역 시스템을 위해 생성된 온톨로지는 NLP 목적의 온톨로지가 어떻게 [37][38]컴파일될 수 있는지를 보여주는 예가 될 수 있습니다.

  • 기계 번역 시스템의 활성 모듈에서 파싱을 돕기 위해서는 대규모 온톨로지가 필요합니다.
  • PANGLOSS 예에서, 약 50,000개의 노드가 온톨로지의 더 작은 수동으로 구축된 상부(추상) 영역 아래에 포섭되도록 의도되었습니다.크기 때문에 자동으로 만들어져야 했습니다.
  • 목표는 LDOCE 온라인WordNet의 두 리소스를 병합하여 Longman의 간결한 정의와 WordNet의 온톨로지에 반자동 분류를 허용하는 의미 관계라는 두 가지 이점을 결합하는 것이었습니다.
    • LDOCE와 WordNet에서 의미의 정의가 공통적으로 가지고 있는 단어를 바탕으로 두 온라인 자원 간에 모호한 단어의 정확한 의미를 자동으로 병합하는 정의 일치 알고리즘을 개발하였습니다.알고리즘은 유사도 행렬을 사용하여 신뢰도 요인을 포함한 의미 간의 일치를 전달했습니다.그러나 이 알고리즘만으로 모든 의미가 정확하게 일치하지는 않았습니다.
    • 따라서 WordNet(심층 계층) 및 부분적으로 LDOCE(flat hierarchies)에서 발견되는 분류 계층을 사용하는 두 번째 계층 일치 알고리즘이 생성되었습니다.이는 먼저 모호하지 않은 의미를 일치시킨 다음 일치된 의미의 각 조상 및 후손으로만 검색 공간을 제한하는 방식으로 작동합니다.따라서 알고리즘은 지역적으로 모호하지 않은 의미와 일치했습니다(예를 들어, 이와 같은 씰이라는 단어는 모호하지만, 동물 하위 계층에는 씰의 의미가 하나밖에 없습니다).
  • 두 알고리즘은 서로 보완하여 기계 번역 시스템을 위한 대규모 온톨로지를 구축하는 데 도움이 되었습니다.워드넷 계층은 LDOCE의 일치 정의와 함께 온톨로지의 상위 영역에 종속되었습니다.그 결과, PANGLOSS MT 시스템은 주로 해당 세대 요소에서 이 지식 기반을 활용할 수 있었습니다.

적용들

자유로운 텍스트를 완전 자동으로 고품질로 번역하는 이상적인 시스템은 없지만, 많은 완전 자동화된 시스템은 합리적인 [39][40][41]출력을 제공합니다.도메인을 제한하고 [42]통제하면 기계번역의 품질이 크게 향상됩니다.이를 통해 기계 번역을 사용하여 번역 속도를 높이고 단순화할 수 있을 뿐만 아니라 결함이 있지만 유용한 저비용 또는 특별한 번역을 생성할 수 있습니다.

여행

모바일 전화, 포켓 PC, PDA 등을 포함한 대부분의 모바일 기기에 대해서도 기계 번역 애플리케이션이 출시되었습니다.이러한 도구는 휴대성 때문에 서로 다른 언어를 사용하는 파트너 간의 모바일 비즈니스 네트워킹을 가능하게 하거나, 인간 번역가의 중개 없이 외국어 학습과 동행하지 않은 외국 여행을 가능하게 하는 모바일 번역 도구로 지정되었습니다.

예를 들어, 구글 번역 앱은 외국인들이 번역된 텍스트를 텍스트 [43]위에 겹쳐 보여주는 스마트폰 카메라를 사용하여 증강현실을 통해 주변의 텍스트를 빠르게 번역할 수 있게 해줍니다.그것은 또한 말을 인식하고 [44]번역할 수 있습니다.

공공행정

MT 프로그램은 본질적인 한계에도 불구하고 전 세계적으로 사용되고 있습니다.아마도 가장 큰 기관 사용자는 유럽위원회일 것입니다.2012년에, 규칙 기반 MT를 통계 기반 MT@EC로 대체하기 위한 목적으로, 유럽 위원회는 [45]ISA 프로그램을 통해 307만 2천 유로를 기부했습니다.

위키백과

기계 번역은 위키피디아 기사를 번역하는 데도 사용되었으며, 특히 MT 기능이 향상됨에 따라 향후 기사를 생성, 업데이트, 확장 및 일반적으로 개선하는 데 더 큰 역할을 할 수 있습니다.편집자들이 여러 선택된 [46][47][48]언어에 걸쳐 기사를 보다 쉽게 번역할 수 있는 "콘텐츠 번역 도구"가 있습니다.영어로 된 기사들은 보통 다른 [49]언어들의 번역되지 않은 동등한 것들보다 더 포괄적이고 덜 편향되어 있다고 생각됩니다.2022년 현재, 영어 위키백과는 650만 개 이상의 기사를 보유하고 있는 반면, 독일어와 스웨덴어 위키백과는 각각 250만 개 이상의 [50]기사를 보유하고 있으며, 각각 훨씬 덜 포괄적인 경우가 많습니다.

감시 및 군사

미국과 동맹국들은 911 테러 등 서방국가들의 테러 공격 이후 아랍어 기계번역 프로그램 개발은 물론 파슈토어다리어 [citation needed]번역에도 가장 관심을 보여왔습니다.이들 언어 내에서는 휴대전화 [51]앱을 활용한 군 장병과 민간인의 신속한 의사소통과 주요 문구에 초점을 맞추고 있습니다.DARPA의 정보처리기술 사무소는 TIDES와 바빌론 번역기와 같은 프로그램을 주최했습니다.미 공군, 언어 번역 [52]기술 개발 100만 달러 계약 체결

소셜 미디어

최근 몇 년간 웹상에서 소셜 네트워킹이 눈에 띄게 증가하면서 Facebook과 같은 유틸리티나 Skype, GoogleTalk, MSN Messenger 등과 같은 인스턴트 메시징 클라이언트에 기계 번역 소프트웨어를 적용하기 위한 또 다른 틈새 시장이 생겨나 서로 다른 언어를 사용하는 사용자들이 서로 의사소통할 수 있게 되었습니다.

온라인게임

리니지 W는 다른 나라의 플레이어들이 의사소통을 [53]할 수 있는 기계 번역 기능 때문에 일본에서 인기를 얻었습니다.

1966년 미국 [54]정부에 의해 자동 언어 처리 자문 위원회에 의해 인간 번역에 대해 가치 없는 경쟁자로 분류되었지만, 기계 번역의 품질은 이제 온라인 협업 및 의료 분야에서의 적용이 조사될 정도로 향상되었습니다.인간 번역가가 부재하는 의료 현장에서 이 기술을 적용하는 것도 연구 대상이지만, 의료 [55]진단에서 정확한 번역이 중요해 어려움이 발생합니다.

고대어

최근 몇 년 동안 컨볼루션 신경망의 발전과 저자원 기계 번역(매우 제한된 양의 데이터와 예제만 훈련에 사용할 수 있는 경우)은 아카드어와 그 방언인 바빌로니아어와 [56]아시리아어와 같은 고대 언어에 대한 기계 번역을 가능하게 했습니다.

평가하기

기계 번역 시스템을 평가하는 방식에 영향을 미치는 많은 요인들이 있습니다.이러한 요소에는 번역의 의도된 사용, 기계 번역 소프트웨어의 특성, 번역 프로세스의 특성 등이 포함됩니다.

다른 프로그램이 다른 목적을 위해 잘 작동할 수 있습니다.예를 들어, 통계적 기계 번역(SMT)은 일반적으로 예제 기반 기계 번역(EBMT)보다 성능이 뛰어나지만, 연구원들은 영어에서 프랑스어로의 번역을 평가할 때 EBMT의 성능이 [57]더 우수하다는 것을 발견했습니다.기술 문서의 경우에도 동일한 개념이 적용되며, 기술 문서의 형식 언어 때문에 SMT에서 보다 쉽게 번역할 수 있습니다.

그러나 통제된 언어로 작성된 제품 설명, 예를 들어 사전 기반 기계 번역 시스템은 품질 [58]검사를 위해 사람의 개입이 필요 없는 만족스러운 번역을 제공했습니다.

기계번역 시스템의 출력 품질을 평가하기 위한 다양한 방법이 있습니다.가장 오래된 것은 번역의 질을 평가하기 위해 인간[59] 심사위원을 사용하는 것입니다.인간의 평가는 시간이 많이 걸리지만 규칙 기반 [60]및 통계 시스템과 같은 다양한 시스템을 비교하는 것은 여전히 가장 신뢰할 수 있는 방법입니다.자동화된 평가 수단으로는 BLEU, NIST, METEO, LEPOR [61]등이 있습니다.

편집되지 않은 기계 번역에만 의존하는 것은 인간 언어의 의사소통이 맥락에 포함되어 있다는 사실과 합리적인 정도의 확률로 원문의 맥락을 이해하는 데 사람이 필요하다는 사실을 무시합니다.순수하게 인간이 만들어낸 번역조차도 오류를 범하기 쉽다는 것은 확실히 사실입니다.따라서, 기계로 제작된 번역이 인간에게 유용하고 출판 가능한 품질의 번역이 이루어질 수 있도록 하기 위해서는 [62]인간이 그러한 번역을 검토하고 편집해야 합니다.고인이 된 클로드 피론(Claude Piron)은 기계 번역이 번역자의 일에서 더 쉬운 부분을 최고로 자동화한다고 썼습니다. 더 어렵고 시간이 많이 걸리는 부분은 일반적으로 대상 언어문법적 및 어휘적 긴급성을 해결해야 하는 소스 텍스트모호성을 해결하기 위해 광범위한 연구를 수행하는 것을 포함합니다.이러한 연구는 기계 번역 소프트웨어에 대한 입력을 제공하여 출력이 [63]무의미하지 않도록 하기 위해 필요한 사전 편집의 필수적인 전초전입니다.

명확하지 않은 문제 외에도 기계 번역 프로그램에 대한 교육 데이터의 수준이 달라 정확도가 떨어질 수 있습니다.예제 기반 및 통계적 기계 번역 모두 번역의 기준으로 실제 예제 문장의 방대한 배열에 의존하며, 너무 많거나 너무 적은 문장이 분석되면 정확도가 위험해집니다.연구원들은 프로그램이 203,529개의 문장 쌍을 대상으로 훈련될 때, 정확도가 실제로 [57]감소한다는 것을 발견했습니다.최적의 훈련 데이터 수준은 문장 수가 10만 개를 조금 넘는 것으로 보이는데, 훈련 데이터가 증가할수록 가능한 문장 수가 증가하여 정확한 번역 일치를 찾기가 어려워지기 때문일 수 있습니다.

기계 번역의 결함은 오락적 가치 때문에 지적되어 왔습니다.2017년 4월 유튜브에 업로드된 두 개의 비디오는 두 개의 일본어 히라가나 문자 えぐ(e와 gu)를 반복적으로 구글 번역에 붙여넣는 것을 포함하며, 결과적인 번역은 "DECERING EGG"와 "Deep-sea squeeze tree"와 같은 말도 안 되는 문구로 빠르게 분해되고, 그 후 점점 더 우스꽝스러운 목소리로 읽힙니다; 전체 버전.2022년 [66]3월 현재 690만 건의 조회수를 기록하고 있습니다.

기계번역 및 수화

2000년대 초반에는 구어와 수화 사이의 기계 번역 옵션이 심각하게 제한되었습니다.청각장애인이 전통적인 번역기를 사용할 수 있다는 것이 일반적인 믿음이었습니다.하지만, 수화와 비교하여 구어에서는 스트레스, 억양, 음정, 타이밍 등이 매우 다르게 전달됩니다.따라서 청각장애인은 음성언어에 [67]기초한 문자의 의미를 잘못 이해하거나 혼동할 수 있습니다.

Zhao, et al.2000년, TEAM(기계에 의한 영어에서 ASL로의 번역)이라는 프로토타입을 개발하여 영어에서 미국 수화(ASL) 번역을 완료하였습니다.이 프로그램은 우선 영어 텍스트의 구문적, 문법적, 형태적 측면을 분석할 것입니다.이 단계를 따라 프로그램은 ASL의 사전 역할을 하는 사인 합성기에 액세스했습니다.이 신디사이저에는 ASL 기호를 완성하기 위해 따라야 하는 과정과 이 기호들의 의미가 담겨 있습니다.텍스트 전체를 분석하고 번역을 완료하기 위해 필요한 기호가 신디사이저에 위치되면 컴퓨터에서 생성된 인간이 나타나 ASL을 사용하여 [67]영어 텍스트에 서명합니다.

저작권

원작인 작품만 저작권 보호를 받기 때문에 일부 학자들은 MT가 [68]창작성을 수반하지 않기 때문에 기계번역 결과물은 저작권 보호를 받을 자격이 없다고 주장합니다.문제가 되고 있는 저작권은 파생 저작물에 대한 것입니다. 원본 언어로 된 저작물의 저작자는 저작물이 번역될 때 자신의 권리를 잃지 않습니다. 번역자는 번역물을 출판할 수 있는 허가를 받아야 합니다.

참고 항목

메모들

  1. ^ DuPont, Quinn (January 2018). "The Cryptological Origins of Machine Translation: From al-Kindi to Weaver". Amodern. Archived from the original on 14 August 2019. Retrieved 2 September 2019.
  2. ^ Knowlson, James (1975). Universal Language Schemes in England and France, 1600-1800. Toronto: University of Toronto Press. ISBN 0-8020-5296-7.
  3. ^ Booth, Andrew D. (1 May 1953). "MECHANICAL TRANSLATION". Computers and Automation 1953-05: Vol 2 Iss 4. Internet Archive. Berkeley Enterprises. p. 6.
  4. ^ J. Hutchins (2000). "Warren Weaver and the launching of MT". Early Years in Machine Translation (PDF). Studies in the History of the Language Sciences. Vol. 97. p. 17. doi:10.1075/sihols.97.05hut. ISBN 978-90-272-4586-1. S2CID 163460375. Archived from the original (PDF) on 28 February 2020 – via Semantic Scholar.
  5. ^ "Warren Weaver, American mathematician". 13 July 2020. Archived from the original on 6 March 2021. Retrieved 7 August 2020.
  6. ^ 上野, 俊夫 (13 August 1986). パーソナルコンピュータによる機械翻訳プログラムの制作 (in Japanese). Tokyo: (株)ラッセル社. p. 16. ISBN 494762700X. わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。(translation (assisted by Google Translate): In 1959 Japan, the National Institute of Advanced Industrial Science and Technology(AIST) tested the proper English-Japanese translation machine Yamato, which reported in 1964 as that reached the power level over the score of 90-point on the textbook of first grade of junior hi-school.)
  7. ^ "機械翻訳専用機「やまと」-コンピュータ博物館". Archived from the original on 19 October 2016. Retrieved 4 April 2017.
  8. ^ Nye, Mary Jo (2016). "Speaking in Tongues: Science's centuries-long hunt for a common language". Distillations. 2 (1): 40–43. Archived from the original on 3 August 2020. Retrieved 20 March 2018.
  9. ^ Gordin, Michael D. (2015). Scientific Babel: How Science Was Done Before and After Global English. Chicago, Illinois: University of Chicago Press. ISBN 9780226000299.
  10. ^ Wolfgang Saxon (28 July 1995). "David G. Hays, 66, a Developer Of Language Study by Computer". The New York Times. Archived from the original on 7 February 2020. Retrieved 7 August 2020. wrote about computer-assisted language processing as early as 1957.. was project leader on computational linguistics at Rand from 1955 to 1968.
  11. ^ 上野, 俊夫 (13 August 1986). パーソナルコンピュータによる機械翻訳プログラムの制作 (in Japanese). Tokyo: (株)ラッセル社. p. 16. ISBN 494762700X.
  12. ^ a b c d Budiansky, Stephen (December 1998). "Lost in Translation". Atlantic Magazine. pp. 81–84.
  13. ^ Schank, Roger C. (2014). Conceptual Information Processing. New York: Elsevier. p. 5. ISBN 9781483258799.
  14. ^ Farwell, David; Gerber, Laurie; Hovy, Eduard (29 June 2003). Machine Translation and the Information Soup: Third Conference of the Association for Machine Translation in the Americas, AMTA'98, Langhorne, PA, USA, October 28–31, 1998 Proceedings. Berlin: Springer. p. 276. ISBN 3540652590.
  15. ^ Barron, Brenda (18 November 2019). "Babel Fish: What Happened To The Original Translation Application?: We Investigate". Digital.com. Archived from the original on 20 November 2019. Retrieved 22 November 2019.
  16. ^ 그리고 다른 예들도 들었습니다.
  17. ^ Chan, Sin-Wai (2015). Routledge Encyclopedia of Translation Technology. Oxon: Routledge. p. 385. ISBN 9780415524841.
  18. ^ "Google Translator: The Universal Language". Blog.outer-court.com. 25 January 2007. Archived from the original on 20 November 2008. Retrieved 12 June 2012.
  19. ^ 안토니오 토랄, 쉴라 카스티요, 케 후, 앤디 웨이. 2018.달성 불가능한 것을?신경 기계 번역에서 인간의 동등성에 대한 주장을 재평가합니다.CoRR, abs/1808.10432.
  20. ^ Yvette, Graham; Barry, Haddow; Koehn, Philipp (2019). "Translationese in Machine Translation Evaluation". arXiv:1906.09833 [cs.CL].
  21. ^ Katsnelson, Alla (29 August 2022). "Poor English skills? New AIs help researchers to write better". Nature. 609 (7925): 208–209. Bibcode:2022Natur.609..208K. doi:10.1038/d41586-022-02767-9. PMID 36038730. S2CID 251931306.
  22. ^ Korab, Petr (18 February 2022). "DeepL: An Exceptionally Magnificent Language Translator". Medium. Retrieved 9 January 2023.
  23. ^ "DeepL outperforms Google Translate – DW – 12/05/2018". Deutsche Welle. Retrieved 9 January 2023.
  24. ^ Fadelli, Ingrid. "Study assesses the quality of AI literary translations by comparing them with human translations". techxplore.com. Retrieved 18 December 2022.
  25. ^ a b c Thai, Katherine; Karpinska, Marzena; Krishna, Kalpesh; Ray, Bill; Inghilleri, Moira; Wieting, John; Iyyer, Mohit (25 October 2022). "Exploring Document-Level Literary Machine Translation with Parallel Paragraphs from World Literature". arXiv:2210.14250 [cs.CL].
  26. ^ 기계 번역의 이정표No.6: Bar-HilelFAHQT실현 불가능성 John Hutchins에 의해 Wayback Machine에서 2007년 3월 12일에 보관됨
  27. ^ 바-힐렐 (1960), "언어의 자동 번역".2011년 9월 28일 Wayback Machine에서 온라인으로 http://www.mt-archive.info/Bar-Hillel-1960.pdf 보관
  28. ^ Hybrid approaches to machine translation. Costa-jussà, Marta R., Rapp, Reinhard, Lambert, Patrik, Eberle, Kurt, Banchs, Rafael E., Babych, Bogdan. Switzerland. 21 July 2016. ISBN 9783319213101. OCLC 953581497.{{cite book}}: CS1 maint: 위치 누락 게시자 (링크) CS1 maint: 기타 (링크)
  29. ^ 클로드 피론, 언어 도전(The Language Challenge), 파리, L'Harmattan, 1994.
  30. ^ Babych, Bogdan; Hartley, Anthony (2003). Improving Machine Translation Quality with Automatic Named Entity Recognition (PDF). Paper presented at the 7th International EAMT Workshop on MT and Other Language Technology Tools... Archived from the original (PDF) on 14 May 2006. Retrieved 4 November 2013.
  31. ^ Hermajakob, U., Knight, K., & Hal, D. (2008).통계적 기계 번역에서 이름 번역 언제 번역할지 Wayback Machine에서 2018년 1월 4일 보관.컴퓨터 언어학 협회.389–397.
  32. ^ a b Neeraj Agrawal; Ankush Singla. Using Named Entity Recognition to improve Machine Translation (PDF). Archived (PDF) from the original on 21 May 2013. Retrieved 4 November 2013.
  33. ^ Schwartz, Lane (2008). Multi-Source Translation Methods (PDF). Paper presented at the 8th Biennial Conference of the Association for Machine Translation in the Americas. Archived (PDF) from the original on 29 June 2016. Retrieved 3 November 2017.
  34. ^ Cohn, Trevor; Lapata, Mirella (2007). Machine Translation by Triangulation: Making Effective Use of Multi-Parallel Corpora (PDF). Paper presented at the 45th Annual Meeting of the Association for Computational Linguistics, June 23–30, 2007, Prague, Czech Republic. Archived (PDF) from the original on 10 October 2015. Retrieved 3 February 2015.
  35. ^ Nakov, Preslav; Ng, Hwee Tou (2012). "Improving Statistical Machine Translation for a Resource-Poor Language Using Related Resource-Rich Languages". Journal of Artificial Intelligence Research. 44: 179–222. doi:10.1613/jair.3540.
  36. ^ a b c 보센, 픽: 온톨로지스.Mitkov, Ruslan (ed.) (2003):계산언어학 핸드북, 25장옥스포드:옥스퍼드 대학 출판부
  37. ^ Knight, Kevin (1993). "Building a Large Ontology for Machine Translation". Human Language Technology: Proceedings of a Workshop Held at Plainsboro, New Jersey, March 21–24, 1993. Princeton, New Jersey: Association for Computational Linguistics. pp. 185–190. doi:10.3115/1075671.1075713. ISBN 978-1-55860-324-0.
  38. ^ Knight, Kevin; Luk, Steve K. (1994). Building a Large-Scale Knowledge Base for Machine Translation. Paper presented at the Twelfth National Conference on Artificial Intelligence. arXiv:cmp-lg/9407029.
  39. ^ Melby, Alan. The Possibility of Language (Amsterdam:Benjamins, 1995, 27–41). Benjamins.com. 1995. ISBN 9789027216144. Archived from the original on 25 May 2011. Retrieved 12 June 2012.
  40. ^ Wooten, Adam (14 February 2006). "A Simple Model Outlining Translation Technology". T&I Business. Archived from the original on 16 July 2012. Retrieved 12 June 2012.
  41. ^ "Appendix III of 'The present status of automatic translation of languages', Advances in Computers, vol.1 (1960), p.158-163. Reprinted in Y.Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), p.174-179" (PDF). Archived from the original (PDF) on 28 September 2018. Retrieved 12 June 2012.
  42. ^ "Human quality machine translation solution by Ta with you" (in Spanish). Tauyou.com. 15 April 2009. Archived from the original on 22 September 2009. Retrieved 12 June 2012.
  43. ^ "Google Translate Adds 20 Languages To Augmented Reality App". Popular Science. 30 July 2015. Retrieved 9 January 2023.
  44. ^ Whitney, Lance. "Google Translate app update said to make speech-to-text even easier". CNET. Retrieved 9 January 2023.
  45. ^ "Machine Translation Service". 5 August 2011. Archived from the original on 8 September 2013. Retrieved 13 September 2013.
  46. ^ Wilson, Kyle (8 May 2019). "Wikipedia has a Google Translate problem". The Verge. Retrieved 9 January 2023.
  47. ^ "Wikipedia taps Google to help editors translate articles". VentureBeat. 9 January 2019. Retrieved 9 January 2023.
  48. ^ "Content translation tool helps create over half a million Wikipedia articles". Wikimedia Foundation. 23 September 2019. Retrieved 10 January 2023.
  49. ^ Magazine, Undark (12 August 2021). "Wikipedia Has a Language Problem. Here's How To Fix It". Undark Magazine. Retrieved 9 January 2023.
  50. ^ "List of Wikipedias - Meta". meta.wikimedia.org. Retrieved 9 January 2023.
  51. ^ Gallafent, Alex (26 April 2011). "Machine Translation for the Military". PRI's the World. Archived from the original on 9 May 2013. Retrieved 17 September 2013.
  52. ^ Jackson, William (9 September 2003). "GCN – Air force wants to build a universal translator". Gcn.com. Archived from the original on 16 June 2011. Retrieved 12 June 2012.
  53. ^ Young-sil, Yoon (26 June 2023). "Korean Games Growing in Popularity in Tough Japanese Game Market". BusinessKorea. Retrieved 8 August 2023.
  54. ^ Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council (1966). Language and Machines: Computers in Translation and Linguistics (PDF) (Report). Washington, D. C.: National Research Council, National Academy of Sciences. Archived (PDF) from the original on 21 October 2013. Retrieved 21 October 2013.{{cite report}}: CS1 유지 : 여러 이름 : 저자 목록 (링크)
  55. ^ Randhawa, Gurdeeshpal; Ferreyra, Mariella; Ahmed, Rukhsana; Ezzat, Omar; Pottie, Kevin (April 2013). "Using machine translation in clinical practice". Canadian Family Physician. 59 (4): 382–383. PMC 3625087. PMID 23585608. Archived from the original on 4 May 2013. Retrieved 21 October 2013.
  56. ^ Gutherz, Gai; Gordin, Shai; Sáenz, Luis; Levy, Omer; Berant, Jonathan (2 May 2023). Kearns, Michael (ed.). "Translating Akkadian to English with neural machine translation". PNAS Nexus. 2 (5): pgad096. doi:10.1093/pnasnexus/pgad096. ISSN 2752-6542. PMC 10153418. PMID 37143863.
  57. ^ a b Way, Andy; Nano Gough (20 September 2005). "Comparing Example-Based and Statistical Machine Translation". Natural Language Engineering. 11 (3): 295–309. doi:10.1017/S1351324905003888. S2CID 3242163.
  58. ^ Muegge (2006), "제한된 텍스트의 완전 자동 고품질 기계 번역: 웨이백 머신에서 2011년 10월 17일 보관된 사례 연구", 번역컴퓨터 28. 2006년 11월 16일부터 17일까지 런던에서 열린 제28차 번역 컴퓨터 국제 회의의 진행:애슬립.ISBN 978-0-85142-483-5.
  59. ^ "Comparison of MT systems by human evaluation, May 2008". Morphologic.hu. Archived from the original on 19 April 2012. Retrieved 12 June 2012.
  60. ^ 앤더슨, D.D. (1995)제2언어 학습도구로서의 기계번역 2018년 1월 4일 웨이백 머신에서 보관.CALICO Journal. 13(1).68–96.
  61. ^ Han et al. (2012), "LEPOR: Wayback Machine에서 2018년 1월 4일 아카이브된 증강 요소포함한 기계 번역을 위한 강력한 평가 메트릭", 제24회 COLING 2012(제24회 COLING 2012)의 진행문: 포스터, 인도 뭄바이 441-450쪽
  62. ^ J.M. Cohen은 "과학적 번역은 모든 활동을 기술로 줄이는 시대의 목표입니다.그러나 모든 지식, 읽기, 그리고 차별을 가지고 인간의 뇌 자체보다 덜 복잡한 문학 번역 기계를 상상하는 것은 불가능합니다."
  63. ^ Wayback Machine 및 이중언어 평가 언더스터디에서 2001년부터 매년 수행된 NIST 테스트 자료 보기 2009년 3월 22일 아카이브
  64. ^ Abadi, Mark. "4 times Google Translate totally dropped the ball". Business Insider.
  65. ^ "回数を重ねるほど狂っていく Google翻訳で「えぐ」を英訳すると奇妙な世界に迷い込むと話題に". ねとらぼ.
  66. ^ "えぐ" – via www.youtube.com.
  67. ^ a b Zhao, L., Kipper, K., Schuler, W., Vogler, C., & Palmer, M. (2000).영어에서 미국 수화로의 기계 번역 시스템 2018년 7월 20일 웨이백 머신에서 보관.컴퓨터 과학 강의 노트, 1934: 54–67.
  68. ^ "Machine Translation: No Copyright On The Result?". SEO Translator, citing Zimbabwe Independent. Archived from the original on 29 November 2012. Retrieved 24 November 2012.

추가열람

외부 링크