병렬 텍스트
Parallel text병렬 텍스트는 하나 이상의 [1][2]번역과 함께 배치되는 텍스트입니다.병렬 텍스트 정렬은 병렬 텍스트의 양쪽 절반에 해당하는 문장을 식별하는 것입니다.뢰브 고전 도서관과 클레이 산스크리트 도서관은 이중 언어 시리즈의 두 가지 예이다.레퍼런스 성경에는 비교와 연구를 용이하게 하기 위해 원문과 번역본 또는 여러 번역본이 포함되어 있을 수 있습니다.오리겐의 헥사플라(그리스어로 "6중"이라는 뜻)는 구약성서의 6가지 버전을 나란히 배치했습니다.유명한 예는 로제타석인데, 그의 발견은 고대 이집트어가 해독되기 시작할 수 있게 해주었다.
많은 병렬 텍스트 컬렉션을 병렬 말뭉치라고 한다(텍스트 말뭉치 참조).문장 수준에서 병렬 말뭉치의 정렬은 언어 연구의 많은 영역에서 필수적입니다.번역하는 동안 번역자가 문장을 분할, 병합, 삭제, 삽입 또는 재배열할 수 있습니다.따라서 정렬은 간단한 작업이 아닙니다.
언어 [3]교육에는 병렬 텍스트가 사용될 수 있습니다.
병렬 말뭉치의 종류
병렬 corpora 네가지 주요 품목:[표창 필요한]로 분류될 수 있다
- 상이점을 취하는 같은 문서 두개 이상의 언어, 문장 수준 적어도로 정렬된에서 번역을 포함하고 있다.이less-comparable corpora보다 더 드문 경향이 있다.[표창 필요한]
- 시끄러운 평행을 취하는 완벽하게 또는 나쁜 품질 번역이 일치하지는 않는다 2개 국어 문장이.특정 문서의 그럼에도 불구하고, 그것의 내용 대부분이 2개 국어로 번역.
- 비슷한 취하고 번역되지 않은non-sentence-aligned 2개 국어를 구사하는 문서로부터지만 문서 topic-aligned 지어졌다.
- Aquasi-comparable을 취할 수도 있는 것 topic-aligned지 않고은 이질적 언어를 사용하는 문서를 포함한다.
말뭉치 소음
큰 corpora 기계 번역 알고리즘에 대한 훈련 세트로 사용 보통 뉴스 기사가 첫번째와 두번째 언어 유사한 사건 묘사에 쓰여진 데이터베이스와 같은 유사한 출처의 큰 몸집에서 추출했다.
하지만, 추출해서 파편이 추가 요소 각 대전 집에 삽입하고 시끄러워 질 수 있다.추출 기술 2개 국어를 구사하는 요소 corpora고 하나의 언어를 사용하는 요소들 위해 2개 국어를 구사하는 요소의 청정 평행 조각을 추출하기는 대전 집에 나타내는 표현 사이에 구별할 수 있다.비유 corpora 직접 번역을 목적으로 지식을 얻기 위해 사용된다.높은 퀄리티의 병렬 데이터, 하지만,under-resourced 언어 특히를 받기 어렵다.[4]
Bitext
번역 연구 분야에서 bitext은 합병된 문서 지정된 텍스트의 양쪽 source-과target-language로.
Bitexts 소프트웨어를 자동으로 같은 텍스트의 변환 원래의 버전을 일직선이 되게 한 조각이 정렬 도구라고 불리는, 또는bitext 도구에 의해 유발된다.툴은 일반적으로 문장으로 이 두 텍스트 문장과 어울립니다.bitext 컬렉션은 bitext 데이터베이스 또는 2개 국어 말뭉치라고 불리며 검색 도구로 참조할 수 있습니다.
Bitext 및 번역 메모리
Bitexts는 번역 메모리와 몇 가지 유사점이 있습니다.가장 큰 차이점은 번역 메모리는 원래의 문맥을 잃는 반면 bitxt는 원래의 문맥을 유지한다는 것입니다.즉, 컴퓨터 지원 번역(CAT) 프로그램 간에 번역 메모리를 교환하기 위한 표준 XML 형식인 Translation Memory eXchange(TMX; 번역 메모리 eXchange) 등 번역 메모리의 일부 실장에서는 원문 순서를 유지할 수 있습니다.
Bitext는 기계가 아닌 번역자가 참조하도록 설계되어 있습니다.따라서 작은 얼라인먼트 오류나 사소한 불일치 때문에 번역 메모리가 고장나는 것은 중요하지 않습니다.
Harris는 1988년 그의 첫 기사에서 bitxt는 번역자들이 그들의 소스 텍스트와 타겟 텍스트를 어떻게 그들의 정신적인 작업 기억에서 함께 유지하는지를 나타낸다고 가정했다.하지만, 이 가설은 [5]후속조치가 되지 않았다.
온라인 비트엑스트와 번역 메모리는 온라인 이중언어 일치라고도 불립니다.Linguie, Recoverso, Tradooit [6][7][8]등 몇 가지 공개 웹 사이트에서 이용할 수 있습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Chan, Sin-Wai (2015). Routledge Encyclopedia of Translation Technology. London: Routledge. ISBN 978-1-315-74912-9.
- ^ Williams, Philip; Sennrich, Rico; Post, Matt; Koehn, Philipp (2016). Syntax-based Statistical Machine Translation. Morgan & Claypool. ISBN 978-1-62705-502-4.
- ^ 압달라, A. (2021년)병렬 텍스트 전략을 사용하는 것이 중급 II 수준의 학생들에게 읽기를 가르치는 데 미치는 영향.국제사회교육과학저널(IJonSES), 3(1), 95-108.https://doi.org/10.46328/ijonses.48
- ^ Wołk, Krzysztof (2015). "Noisy-Parallel and Comparable Corpora Filtering Methodology for the Extraction of Bi-Lingual Equivalent Data at Sentence Level". Computer Science. 16 (2): 169–184. arXiv:1510.04500. Bibcode:2015arXiv151004500W. doi:10.7494/csci.2015.16.2.169. S2CID 12860633.
- ^ Harris, B. (March 1988). "Bi-Text, A New Concept in Translation Theory" (PDF). Language Monthly. 54: 8–10. Archived from the original (PDF) on 2018-03-02.
- ^ Genette, Marie (2016). How Reliable Are Online Bilingual Concordancers? An investigation of Linguee, TradooIT, WeBiText and ReversoContext and Their Reliability Through a Contrastive Analysis of Complex Prepositions from French to English (M.A. thesis). Université catholique de Louvain & Universitetet i Oslo. hdl:10852/51577.
- ^ "TradooIT – Concordancier bilingue".
- ^ Désilets, Alain; Farley, Benoît; Stojanović, Marta; Patenaude, Geneviève (2008). WeBiText: Building Large Heterogeneous Translation Memories from Parallel Web Content (PDF). Proceedings of Translating and the Computer. Vol. 30. pp. 27–28. S2CID 14586900.
외부 링크
평행 말뭉치
- 유럽 연합(EU) 법 전체의 JRC-Acquis 다국어 병렬 말뭉치: 231개의 언어 [1]쌍을 가진 Acquire Communautaire.
- 유럽의회 의사진행 병렬 말뭉치 1996-2011
- Opus 프로젝트는 자유롭게 이용할 수 있는 병렬 코퍼스를 수집하는 것을 목표로 하고 있습니다.
- 위키피디아 교토 기사 일영 이중언어 코퍼스
- COMPARA – 포르투갈어/영어 병행 코퍼스
- 용어 검색 – 영어/러시아어/프랑스어 병렬 말뭉치(주요 국제 조약, 조약, 협정 등)
- TradooIT – 영어/프랑스어/스페인어 – 무료 온라인 도구
- Nunavut Hansard – 영어/이누크티튜트 병렬 말뭉치
- ParaSol – 슬라브어 및 기타 언어의 병렬 말뭉치
- Glosbe: 온라인 검색 인터페이스를 갖춘 다국어 병렬 말뭉치
- InterCorp: 체코어 온라인 검색 인터페이스와 연계된 다국어 병렬 말뭉치 40개 언어
- myCAT – Olanto, Concordancer(오픈 소스 AGPL) 및 JCR 및 UNO 코퍼스에서 온라인 검색
- TAUS, 온라인 검색 인터페이스 포함.
- language tools 다국어 병렬 코퍼레이션, 온라인 검색 인터페이스.
- EUR-Lex 코퍼스 – EUR-Lex 데이터베이스로 구축된 코퍼스는 유럽연합의 법률 및 기타 공공 문서로 구성됩니다.
- 언어 그리드 – 병렬 텍스트 서비스를 포함한 다국어 서비스 플랫폼
문서
- J. Veronis와 M.-D.의 병렬 텍스트 처리 참고 문헌 목록.마히몬
- 2003년 병렬 텍스트 구축 및 활용 워크숍 진행 상황
- 2005년도 병렬텍스트 구축 및 활용 워크숍 진행상황
얼라인먼트 툴
- GIZA++ 얼라인먼트 툴(1999년)
- Uplug – 병렬 말뭉치를 처리하기 위한 도구(2003)
- Gale and Church 문장 정렬 알고리즘 구현(2005)
- Hunalign 문장 얼라이너(2005)
- 샹폴리온 (2006)
- mALIGNA (2008 ~2020)
- Gargantua 문장 얼라이너(2010)
- Bleualign – 기계번역 기반의 문장 정렬(2010년)
- YASA (2013)
- 계층형 정렬 도구(HAT)(2018)
- Vecalign 문장 정렬 알고리즘(2019)
- 그르노블 대학의 웹 얼라인먼트 도구
- ^ Ralf, Ralf Steinberger; Pouliquen, Bruno; Widiger, Anna; Ignat, Camelia; Erjavec, Tomaž; Tufiş, Dan; Varga, Dániel (2006). The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24–26 May 2006.