텍스트 말뭉치

Text corpus

언어학에서 말뭉치(복수 말뭉치) 또는 텍스트 말뭉치(text corpus)는 크고 구조화된 텍스트 집합으로 구성된 언어 리소스입니다(현재는 일반적으로 전자적으로 저장 및 처리됨).말뭉치 언어학에서는 특정 언어 영역 에서 통계 분석 및 가설 테스트, 발생 확인 또는 언어 규칙 검증에 사용됩니다.

검색 기술에서 말뭉치는 검색 중인 문서의 모음입니다.

개요

말뭉치는 단일 언어(단일 언어 말뭉치)의 텍스트 또는 다국어(다언어 말뭉치)의 텍스트 데이터를 포함할 수 있다.

말뭉치를 언어 연구에 더 유용하게 만들기 위해, 종종 주석이라고 불리는 과정을 거친다.코퍼스에 주석을 다는 예로는 각 단어의 언어 부분(동사, 명사, 형용사 등)에 대한 정보가 태그의 형태로 코퍼스에 추가되는 음성 부분 태그 또는 POS 태그가 있다.또 다른 예로는 각 단어의 보조어(기본어) 형식을 나타냅니다.말뭉치의 언어가 이를 사용하는 연구자의 작업 언어가 아닌 경우, 주석을 이중 언어화하기 위해 선형 간 광택을 사용한다.

일부 말뭉치는 더 구조화된 수준의 분석을 적용하고 있습니다.특히, 작은 말뭉치는 완전히 해석될 수 있다.이러한 말뭉치는 보통 트리뱅크스 또는 파시드 말뭉치로 불린다.전체 말뭉치가 완전하고 일관되게 주석을 달기가 어렵다는 것은 이러한 말뭉치가 보통 약 1백만 단어에서 3백만 단어를 포함하는 더 작다는 것을 의미한다.형태학, 의미론실용론에 대한 주석을 포함한 다른 수준의 언어 구조 분석이 가능하다.

적용들

코퍼스는 말뭉치 언어학의 주요 지식 기반이다.응용 프로그램의 기타 주목할 부분은 다음과 같습니다.

  • 기계 번역
    • 나란히 비교하기 위해 특별히 포맷된 다국어 말뭉치를 정렬 병렬 말뭉치라고 합니다.병렬 말뭉치에는 두 가지 주요 유형이 있으며 두 가지 언어로 된 텍스트를 포함합니다.번역 코퍼스에서 한 언어의 텍스트는 다른 언어의 텍스트 번역입니다.비교 가능한 말뭉치에서는 텍스트가 같은 종류이며 동일한 내용을 포함하지만 서로 [2]번역된 것은 아닙니다.병렬 텍스트를 이용하려면 동등한 텍스트 세그먼트(구절 또는 문장)를 식별하는 일종의 텍스트 정렬이 분석의 전제 조건입니다. 언어 간 번역용 기계번역 알고리즘은 제1언어 코퍼스와 제1언어 코퍼스의 [3]요소-요소 번역인 제2언어 코퍼스로 이루어진 병렬 fragment를 사용하여 훈련되는 경우가 많다.
  • 언어학
    • 텍스트 말뭉치는 고대 문자를 해독하려는 시도나 성경학술 역사 문서 연구에도 사용된다.어떤 고고학적 말뭉치는 너무 짧은 기간이어서 시간 내에 스냅사진을 제공할 수 있다.가장 짧은 말뭉치 중 하나는 아마르나의 15-30년 편지(기원전 1350년)일 것이다.고대 도시의 말뭉치(예를 들어 터키의 '퀼테페 텍스트')는 발견 장소에 따라 결정되는 일련의 말뭉치를 거칠 수 있다.

주목할 만한 텍스트 말뭉치

「 」를 참조해 주세요.

레퍼런스

  1. ^ 윤, H, & Hirvela, A. (2004).ESL 학생들의 L2 쓰기에서의 말뭉치 사용에 대한 태도.제2언어 쓰기 저널, 13(4), 257~283.2012년 3월 21일 취득.
  2. ^ Wołk, K.; Marasek, K. (7 April 2014). "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
  3. ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned and GPU-accelerated parallel data mining from comparable corpora". In Král, Pavel; Matousek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings. Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.

외부 링크