병렬 텍스트

Parallel text
고대 이집트 문자뿐만 아니라 고대 그리스 문자에도 같은 법령이 새겨진 비석로제타석.이것의 발견은 고대 이집트 언어를 해독하는 데 핵심적이었다.

병렬 텍스트는 하나 이상의 [1][2]번역과 함께 배치되는 텍스트입니다.병렬 텍스트 정렬은 병렬 텍스트의 양쪽 절반에 해당하는 문장을 식별하는 것입니다.뢰브 고전 도서관과 클레이 산스크리트 도서관은 이중 언어 시리즈의 두 가지 예이다.레퍼런스 성경에는 비교와 연구를 용이하게 하기 위해 원문과 번역본 또는 여러 번역본이 포함되어 있을 있습니다.오리겐의 헥사플라(그리스어로 "6중"이라는 뜻)는 구약성서의 6가지 버전을 나란히 배치했습니다.유명한 예는 로제타석인데, 그의 발견은 고대 이집트어가 해독되기 시작할 수 있게 해주었다.

많은 병렬 텍스트 컬렉션을 병렬 말뭉치라고 한다(텍스트 말뭉치 참조).문장 수준에서 병렬 말뭉치의 정렬은 언어 연구의 많은 영역에서 필수적입니다.번역하는 동안 번역자가 문장을 분할, 병합, 삭제, 삽입 또는 재배열할 수 있습니다.따라서 정렬은 간단한 작업이 아닙니다.

언어 [3]교육에는 병렬 텍스트가 사용될 수 있습니다.

병렬 말뭉치의 종류

병렬 corpora 네가지 주요 품목:[표창 필요한]로 분류될 수 있다

  • 상이점을 취하는 같은 문서 두개 이상의 언어, 문장 수준 적어도로 정렬된에서 번역을 포함하고 있다.이less-comparable corpora보다 더 드문 경향이 있다.[표창 필요한]
  • 시끄러운 평행을 취하는 완벽하게 또는 나쁜 품질 번역이 일치하지는 않는다 2개 국어 문장이.특정 문서의 그럼에도 불구하고, 그것의 내용 대부분이 2개 국어로 번역.
  • 비슷한 취하고 번역되지 않은non-sentence-aligned 2개 국어를 구사하는 문서로부터지만 문서 topic-aligned 지어졌다.
  • Aquasi-comparable을 취할 수도 있는 것 topic-aligned지 않고은 이질적 언어를 사용하는 문서를 포함한다.

말뭉치 소음

큰 corpora 기계 번역 알고리즘에 대한 훈련 세트로 사용 보통 뉴스 기사가 첫번째와 두번째 언어 유사한 사건 묘사에 쓰여진 데이터베이스와 같은 유사한 출처의 큰 몸집에서 추출했다.

하지만, 추출해서 파편이 추가 요소 각 대전 집에 삽입하고 시끄러워 질 수 있다.추출 기술 2개 국어를 구사하는 요소 corpora고 하나의 언어를 사용하는 요소들 위해 2개 국어를 구사하는 요소의 청정 평행 조각을 추출하기는 대전 집에 나타내는 표현 사이에 구별할 수 있다.비유 corpora 직접 번역을 목적으로 지식을 얻기 위해 사용된다.높은 퀄리티의 병렬 데이터, 하지만,under-resourced 언어 특히를 받기 어렵다.[4]

Bitext

번역 연구 분야에서 bitext은 합병된 문서 지정된 텍스트의 양쪽 source-과target-language로.

Bitexts 소프트웨어를 자동으로 같은 텍스트의 변환 원래의 버전을 일직선이 되게 한 조각이 정렬 도구라고 불리는, 또는bitext 도구에 의해 유발된다.툴은 일반적으로 문장으로 이 두 텍스트 문장과 어울립니다.bitext 컬렉션은 bitext 데이터베이스 또는 2개 국어 말뭉치라고 불리며 검색 도구로 참조할 수 있습니다.

Bitext 및 번역 메모리

Bitexts는 번역 메모리와 몇 가지 유사점이 있습니다.가장 큰 차이점은 번역 메모리는 원래의 문맥을 잃는 반면 bitxt는 원래의 문맥을 유지한다는 것입니다.즉, 컴퓨터 지원 번역(CAT) 프로그램 에 번역 메모리를 교환하기 위한 표준 XML 형식인 Translation Memory eXchange(TMX; 번역 메모리 eXchange) 등 번역 메모리의 일부 실장에서는 원문 순서를 유지할 수 있습니다.

Bitext는 기계가 아닌 번역자가 참조하도록 설계되어 있습니다.따라서 작은 얼라인먼트 오류나 사소한 불일치 때문에 번역 메모리가 고장나는 것은 중요하지 않습니다.

Harris는 1988년 그의 첫 기사에서 bitxt는 번역자들이 그들의 소스 텍스트와 타겟 텍스트를 어떻게 그들의 정신적인 작업 기억에서 함께 유지하는지를 나타낸다고 가정했다.하지만, 이 가설은 [5]후속조치가 되지 않았다.

온라인 비트엑스트와 번역 메모리는 온라인 이중언어 일치라고도 불립니다.Linguie, Recoverso, Tradooit [6][7][8]등 몇 가지 공개 웹 사이트에서 이용할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Chan, Sin-Wai (2015). Routledge Encyclopedia of Translation Technology. London: Routledge. ISBN 978-1-315-74912-9.
  2. ^ Williams, Philip; Sennrich, Rico; Post, Matt; Koehn, Philipp (2016). Syntax-based Statistical Machine Translation. Morgan & Claypool. ISBN 978-1-62705-502-4.
  3. ^ 압달라, A. (2021년)병렬 텍스트 전략을 사용하는 것이 중급 II 수준의 학생들에게 읽기를 가르치는 데 미치는 영향.국제사회교육과학저널(IJonSES), 3(1), 95-108.https://doi.org/10.46328/ijonses.48
  4. ^ Wołk, Krzysztof (2015). "Noisy-Parallel and Comparable Corpora Filtering Methodology for the Extraction of Bi-Lingual Equivalent Data at Sentence Level". Computer Science. 16 (2): 169–184. arXiv:1510.04500. Bibcode:2015arXiv151004500W. doi:10.7494/csci.2015.16.2.169. S2CID 12860633.
  5. ^ Harris, B. (March 1988). "Bi-Text, A New Concept in Translation Theory" (PDF). Language Monthly. 54: 8–10. Archived from the original (PDF) on 2018-03-02.
  6. ^ Genette, Marie (2016). How Reliable Are Online Bilingual Concordancers? An investigation of Linguee, TradooIT, WeBiText and ReversoContext and Their Reliability Through a Contrastive Analysis of Complex Prepositions from French to English (M.A. thesis). Université catholique de Louvain & Universitetet i Oslo. hdl:10852/51577.
  7. ^ "TradooIT – Concordancier bilingue".
  8. ^ Désilets, Alain; Farley, Benoît; Stojanović, Marta; Patenaude, Geneviève (2008). WeBiText: Building Large Heterogeneous Translation Memories from Parallel Web Content (PDF). Proceedings of Translating and the Computer. Vol. 30. pp. 27–28. S2CID 14586900.

외부 링크

평행 말뭉치

문서

얼라인먼트 툴

  1. ^ Ralf, Ralf Steinberger; Pouliquen, Bruno; Widiger, Anna; Ignat, Camelia; Erjavec, Tomaž; Tufiş, Dan; Varga, Dániel (2006). The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24–26 May 2006.