사전 기반 기계 번역

Dictionary-based machine translation
A에서 A로

기계 번역사전 항목들에 기초한 방법을 사용할 수 있는데, 이것은 단어들이 사전처럼 – 보통 단어별로, 그들 사이의 의미에 대한 큰 상관 없이 - 번역될 것이라는 것을 의미한다. 사전 조회는 형태학적 분석 또는 나트륨화 여부에 관계없이 수행될 수 있다. 기계 번역에 대한 이러한 접근방식은 아마도 가장 덜 정교하지만, 사전 기반의 기계 번역은 예를 들어 재고나 제품과 서비스의 단순한 카탈로그와 같은 하위 중요도(즉, 전체 문장이 아닌) 수준의 긴 구문 목록을 번역하는 데 이상적으로 적합하다.[1]

수행자가 양쪽 언어에 유창하여 구문과 문법을 교정할 수 있다면 수작업 번역을 촉진하는 데도 사용할 수 있다.

LMT

1990년경 도입된 LMT는 컴퓨터가 쉽게 읽을 수 있는 색인 형태로 다시 작성된 콜린스 영독(CEG)과 같이 특수 제작된 2개 국어 사전에서 작동하는 프로로그 기반의 기계 번역 시스템이다.[2] 이 방법은 구조화된 어휘 데이터 베이스(LDB)를 사용하여 소스 언어에서 단어 범주를 정확하게 식별함으로써, 기초적인 형태학적 분석에 기초하여 대상 언어에서 일관성 있는 문장을 구성한다. 이 시스템은 "프레임"[2]을 사용하여 구문학적 관점에서 문장에서 특정 단어가 가져야 하는 위치를 식별한다. 이 "프레임"[2]은 영어의 경우 UDICT와 같은 언어 규약을 통해 매핑된다.

초기 (프로토타입) 형태에서 LMT는[2] 이 전체 정보를 하나의 어휘소로 캡슐화하는 것은 가능하지만 동시에 접근하는 세 개의 어휘소를 사용한다. 이 프로그램은 두 가지 주요 요소로 구성된 어휘 구성을 사용한다. 첫 번째 요소는 잘못 번역되었을 가능성이 있는 손으로 코딩된 어휘 부록이다. 두 번째 요소는 소스 언어와 대상 언어인 두 언어에 관한 다양한 이중언어 사전과 단일언어 사전으로 구성된다.

예제 기반 및 사전 기반 컴퓨터 변환

이 사전 기반 기계 번역 방법은 LMT와 같은 시스템과는 다른 패러다임을 탐구한다. 예시 기반 기계 번역 시스템은 "순서 정렬 이중 언어 말뭉치"[3]만 공급된다. 이 데이터를 사용하여 번역 프로그램은 추가 번역을 위해 사용되는 "단어용 이중언어 사전"[3]을 생성한다.

일반적으로 이 시스템은 사전 기반 기계 번역과는 전혀 다른 기계 번역 방법으로 간주되지만, 이 패러다임의 보완성을 이해하는 것이 중요하다. 한미 연합 전력은 시스템에 고유한 사실은Dictionary-Based 머신 번역 best 말의 사실은 이 두 번역 엔진에 대한 연결 장치, 의미론적으로 accu 외에도 그런 것은 매우 강력한 번역 도구를 발생시킬 것인가를 설명하는"2개 국어 사전word-for-word"[3] 일을 하고 있어.ra영구적인 피드백 루프를 통해 그 자체의 기능을 향상시킬 수 있다.

앞의 단락에서 설명한 것과 유사한 방식으로 두 패러다임을 결합한 시스템은 PanEBMT([3]Pangloss Practice-Based Machine Translation Engine) 기계번역 엔진이다. PanEBMT는 말뭉치를 만들기 위해 언어간 대응 테이블을 사용한다. 더욱이 PanEBMT는 말뭉치에 여러 증분 연산을 지원하여 필터링 목적으로 사용되는 편향된 변환을 용이하게 한다.

병렬 텍스트 처리

더글러스 호프스태터는 그의 "Le Ton Beau de Marot: '언어의 음악 찬양'은 복잡한 업무 번역이 무엇인지 증명한다. 저자는 18행의 프랑스 시를 수십 개 번역하여 수십 개의 번역본을 제작, 분석하여 구문, 형태학, 의미 등의 복잡한 내막을 밝혀냈다.[4] 출처 언어와 대상 언어의 지문을 백 대 백 비교하여 단일 번역을 선택하는 대부분의 번역 엔진과 달리, 더글러스 호프스태터의 작품은 출처 텍스트의 의미가 너무 상세하거나 복잡할 때 어떤 형태의 번역에도 존재하는 고유의 오류 수준을 증명한다. 따라서 텍스트 정렬과 "언어 통계"[4]의 문제가 주목을 받게 된다.

이러한 불일치는 번역과 번역 엔진 전반에 대한 마틴 케이의 견해로 이어졌다. Kay는 "이들 기업에서 더 실질적인 성공은 단순히 언어 사용의 통계로 만들어질 수 있는 어떤 것보다 더 날카로운 세계의 이미지를 필요로 할 것"이라고 말한다 [(page 16i) 병렬 텍스트 처리: Translation Communita][4]의 정렬 및 사용. 이리하여 케이는 언어 내부의 의미와 번역 과정을 통한 의미 왜곡에 대한 문제를 다시 조명하게 되었다.

어휘적 개념구조

사전 기반 기계 번역의 가능한 사용 중 하나는 "외국어 과외"를 촉진하는 것이다. 이는 기계번역 기술과 언어학, 의미론, 형태학 등을 사용하여 사실상 모든 주어진 언어로 "대규모 사전"[5]을 제작함으로써 달성할 수 있다. 1990년과 1996년 사이의 기간 동안 어휘 의미론과 계산 언어학의 발달은 "자연어 처리"(NLP)가 번창하고, 새로운 능력을 얻으며, 그럼에도 불구하고 기계 번역에 전반적으로 혜택을 주는 것을 가능하게 했다.[5]

"LCS(Lexical Conceptical Structure)"는 언어에 독립적인 표현이다. 외국어 과외, 특히 FLT의 자연어 처리 요소에서 주로 사용된다. LCS는 사전 기반 기계 번역과 같은 어떤 종류의 기계 번역에도 없어서는 안 될 도구임이 입증되었다. LCS의 전체적인 주요 목표 중 하나는 "동사 감각이 분배 패턴을 공유한다는 것을 증명하는 것"[5]이다.

"DKVEC"

"DKVEC는 시끄러운 병렬 회사에서 단어의 도착 거리를 기준으로 시끄러운 병렬 컴퍼니에서 이중 언어 어휘를 추출하는 방법이다." 이 방법은 이중언어 어휘의 통계적 추출을 방해하는 두 가지 문제에 대응하여 나타났다: "(1) 시끄러운 병렬 법인은 어떻게 사용할 수 있는가? (2) 어떻게 비병행적이지만 비교 가능한 법인을 사용할 수 있는가?"[6]

"DKVEC" 방법은 영어-일본어-영어-중국어-시끄러운 평행 회사에서 시행된 시험에서 놀라운 성공으로 기계 번역에 일반적으로 매우 귀중한 것으로 입증되었다. 정확도 수치는 "작은 말뭉치에서 55.35%의 정밀도와 큰 말뭉치에서 89.93%의 정밀도를 보여준다".[6] 이처럼 인상적인 숫자로 "DKvec"와 같은 방법들이 일반적으로 기계 번역, 특히 사전 기반 기계 번역의 진화에 미친 엄청난 영향을 가정해도 무방하다.

2개 국어로 된 병렬 기업 추출에 사용되는 알고리즘은 만족스러운 정확성과 전반적인 품질을 얻기 위해 다음 규칙을 이용한다.[6]

  1. 말은 말뭉치마다 하나의 의미를 갖는다.
  2. 단어들은 말뭉치당 하나의 번역이 있다.
  3. 대상 문서에 누락된 번역 없음
  4. 2개 국어의 단어 발생 빈도 비교 가능
  5. 이중언어 단어 발생의 위치 비교 가능

이 방법은 "DKvec" 방법에 의해 사용되는 이항 발생 벡터를 생성하거나 발생 패턴을 찾기 위해 사용될 수 있다.

기계 번역의 역사

기계번역(MT)의 역사는 1940년대 중반에 시작된다. 컴퓨터 번역은 아마도 컴퓨터가 비숫자적 목적으로 사용된 최초의 것이었을 것이다. 기계번역은 1950년대와 1960년대에 격렬한 연구 관심을 누렸으며, 1980년대까지 정체되었다.[7] 1980년대 이후 기계번역은 다시 주류가 되었고, 텍스트 코모네아 접근법을 바탕으로 급속한 팽창뿐만 아니라 1950년대와 1960년대보다 훨씬 더 큰 인기를 누렸다.

기계 번역의 기본 개념은 "보편 언어와 기계 사전"[7]을 둘러싼 추측에서 17세기로 거슬러 올라갈 수 있다. 최초의 진정한 실용 기계 번역 제안은 1933년 프랑스의 조르주 아르츠로니와 러시아의 페트르 트로얀스키에 의해 이루어졌다. 둘 다 어떤 언어에서 다른 언어로 의미를 번역하는 데 사용될 수 있다고 믿었던 특허받은 기계를 가지고 있었다. "1952년 6월, 첫 MT 회의가 MIT에서 예호수아 바힐렐에 의해 소집되었다."[7] 1954년 1월 7일, IBM의 후원으로 뉴욕에서 열린 머신 번역 컨벤션은 이 분야의 대중화에 기여했다. 컨벤션 인기는 짧은 영어 문장을 러시아어로 번역한 것에서 비롯되었다. 이 공학적 위업은 대중과 미국과 구소련 정부 모두를 매료시켰고, 따라서 기계 번역 연구에 대규모 자금을 지원하도록 자극했다.[7] 기계번역에 대한 열정이 극도로 높았지만, 기술적, 지식적 한계로 인해 기계번역이 실제로 어떤 일을 할 수 있는지에 대한 혼란스러움이 적어도 그 당시에는 이어졌다. 따라서 기계번역은 언어학과 기술의 발전이 이 분야에 대한 관심을 되살리는 데 도움을 주었던 1980년대까지 인기를 잃었다.

언어간 정보 검색

"TLIR(Translation Information Research, TLIR)은 하나의 언어로 쿼리를 제공하고 하나 이상의 다른 언어로 문서 컬렉션을 검색하는 것으로 구성된다." TLIR의 대부분의 방법은 통계-IR 접근법과 질의 번역이라는 두 가지 범주로 정량화할 수 있다. 기계번역 기반 TLIR은 두 가지 방법 중 하나로 작동한다. 쿼리를 대상 언어로 번역하거나, 가능한 결과의 컬렉션이 쿼리 언어로 번역되어 상호 참조용으로 사용되는 동안 원본 쿼리를 검색에 사용한다. 두 방법 모두 장단점이 있는데,[8] 즉 다음과 같다.

  • 번역 정확성 – 기계 번역의 정확성은 번역된 텍스트의 크기에 따라 달라지기 때문에 짧은 텍스트나 단어는 어휘적 모호성뿐만 아니라 더 큰 수준의 의미 오류를 겪을 수 있으며, 반면 큰 텍스트는 맥락을 제공하여 모호함을 해소할 수 있다.
  • 검색 정확도 – 이전 시점에서 실행된 동일한 논리에 근거하여, 큰 텍스트는 번역에서 의미 상실이 적고 짧은 질의보다 문서 전체를 번역하는 것이 바람직하다.
  • 실용성 – 이전 사항과 달리 짧은 질의어를 번역하는 것이 가장 좋은 방법이다. 도서관 전체 번역은 자원 집약도가 높은 반면, 짧은 텍스트 번역은 쉽기 때문이다. 게다가 이러한 번역 작업의 양은 새로운 번역 문서의 색인화를 의미하기 때문이다.

이 모든 점들은 사전 기반 기계 번역이 TLIR과 협력할 때 가장 효율적이고 신뢰할 수 있는 번역 형태라는 사실을 증명한다. 왜냐하면 이 과정은 "범용 이중언어 사전에서 각 질의어를 찾아보고 가능한 모든 번역을 사용한다"[8]고 하기 때문이다.

매우 가까운 언어의 기계 번역

체코어-러시아어 간 사전 기반 기계번역 시스템인 RUSLAN과 체코어-슬로바어 사전 기반 기계번역 시스템인 CESILKO의 예는 매우 가까운 언어의 경우 간단한 번역 방법이 더 효율적이고 빠르고 신뢰할 수 있다는 것을 보여준다.[9]

RUSLAN 시스템은 관련 언어가 번역하기 쉽다는 가설을 증명하기 위해 만들어졌다. 1985년 시스템 개발이 시작돼 5년 뒤 추가 자금 부족으로 종료됐다. RUSLAN 실험에서 가르친 교훈은 언어의 근접성과 상관없이 번역의 전송 기반 접근법이 그 품질을 유지한다는 것이다. "완전한 전송 기반 시스템"[9]의 주요 두 가지 병목 현상은 구문 분석의 복잡성과 신뢰성이라는 것이다.[10]

다국어 정보 검색 MLIR

"정보 검색 시스템은 질의어 및 문서의 용어 공동 발생에 근거한 통계 유사성 측정에 따라 문서의 순위를 매긴다." MLIR 시스템은 사전 기반의 질의 번역을 용이하게 하는 방식으로 만들어지고 최적화되었다. 문의를 짧게 하는 경향이 있기 때문인데, 문맥을 많이 제공하지 못함에도 불구하고 전체 문서를 번역하는 것보다 실현 가능한 것이 현실적 이유 때문이다. 이 모든 것에도 불구하고, MLIR 시스템은 자동화된 언어 탐지 소프트웨어와 같은 많은 자원에 의존하고 있다.[11]

참고 항목

참고 문헌 목록

  1. ^ Uwe Muegge(2006), "Crummy Machine 번역에 대한 우수한 응용 프로그램: Elisabeth Gréfe(2006; ed.), 독일 기술 커뮤니케이션 협회 연례 회의의 절차, 슈투트가르트: 테콤, 18–21.
  2. ^ a b c d Mary S. Neff Michael C. McCord (1990). "ACQUIRING LEXICAL DATA FROM MACHINE-READABLE DICTIONARY RESOURCES FOR MACHINE TRANSLATION". IBM T. J. Watson Research Center, P. O. Box 704, Yorktown Heights, New York 10598: 85–90. CiteSeerX 10.1.1.132.8355. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  3. ^ a b c d Ralf D. Brown. "Automated Dictionary Extraction for "Knowledge-Free" Example-Based Translation" (PDF). Language Technologies Institute (Center for Machine Translation) Carnegie Mellon University Pittsburgh, PA 15213-3890 USA. Retrieved 2 November 2015.
  4. ^ a b c Jean V´eronis (2001). Parallel Text Processing: Alignment and Use of Translation Corpora. Computational Linguistics. Vol. 27. Dordrecht: Kluwer Academic Publishers (Text, speech and language technology series, edited by Nancy Ide and Jean V´eronis, volume 13), 2000, xxiii+402 pp; hardbound. pp. 592–595. doi:10.1162/coli.2000.27.4.592. ISBN 978-0-7923-6546-4. S2CID 14796449.
  5. ^ a b c Dorr, Bonnie J. (1997). "Large-Scale Dictionary Construction for Foreign Language Tutoring and Interlingual Machine Translation". Machine Translation. 12 (4): 271–322. doi:10.1023/A:1007965530302. S2CID 1548552.
  6. ^ a b c David Farwell Laurie Gerber Eduard Hovy (1998). Machine Translation and the Information Soup. Lecture Notes in Computer Science. Vol. 1529. CR Subject Classification (1998): I.2.7, H.3, F.4.3, H.5, J.5 Springer-Verlag Berlin Heidelberg New York. doi:10.1007/3-540-49478-2. hdl:11693/27676. ISBN 978-3-540-65259-5. S2CID 19677267.
  7. ^ a b c d J. Hutchins (January 2006). "Machine Translation: History". Encyclopedia of Language & Linguistics. pp. 375–383. doi:10.1016/B0-08-044854-2/00937-8. ISBN 9780080448541. {{cite book}}: 누락 또는 비어 있음 title= (도움말)
  8. ^ a b Yiming Yang; Jaime G. Carbonell; Ralf D. Brown; Robert E. Frederking (August 1998). "Translingual information retrieval: learning from bilingual corpora". Artificial Intelligence. Language Technologies Institute, School of Computer Science, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA 15213, USA. 103 (1–2): 323–345. doi:10.1016/S0004-3702(98)00063-0.
  9. ^ a b Jan HAJIC; Jan HRIC; Vladislav KUBON (2000). "Machine translation of very close languages". Proceedings of the sixth conference on Applied natural language processing -. pp. 7–12. doi:10.3115/974147.974149. S2CID 8355580. Retrieved 2 November 2015.
  10. ^ Ari Pirkola (1998). The Effects of Query Structure and Dictionary Setups in DictionaryBased Cross-language Information Retrieval. Department of Information studies University of Tampere. pp. 55–63. CiteSeerX 10.1.1.20.3202. doi:10.1145/290941.290957. ISBN 978-1581130157. S2CID 16199588. Retrieved 2 November 2015.
  11. ^ David A. Hull; Gregory Grefenstette (1996). "Querying across languages". Querying Across Languages: A Dictionary-Based Approach to Multilingual Information Retrieval. Rank Xerox Research Centre 6 chemin de Maupertuis, 38240 Meylan France. pp. 49–57. doi:10.1145/243199.243212. ISBN 978-0897917926. S2CID 1274065.