텍스트 말뭉치

언어학에서 말뭉치(복수 말뭉치) 또는 텍스트 말뭉치(text corpus)는 크고 구조화된 텍스트 집합으로 구성된 언어 리소스입니다(현재는 일반적으로 전자적으로 저장 및 처리됨).말뭉치 언어학에서는 특정 언어 영역 내에서 통계 분석 및 가설 테스트, 발생 확인 또는 언어 규칙 검증에 사용됩니다.

검색 기술에서 말뭉치는 검색 중인 문서의 모음입니다.

개요

말뭉치는 단일 언어(단일 언어 말뭉치)의 텍스트 또는 다국어(다언어 말뭉치)의 텍스트 데이터를 포함할 수 있다.

말뭉치를 언어 연구에 더 유용하게 만들기 위해, 종종 주석이라고 불리는 과정을 거친다.코퍼스에 주석을 다는 예로는 각 단어의 언어 부분(동사, 명사, 형용사 등)에 대한 정보가 태그의 형태로 코퍼스에 추가되는 음성 부분 태그 또는 POS 태그가 있다.또 다른 예로는 각 단어의 보조어(기본어) 형식을 나타냅니다.말뭉치의 언어가 이를 사용하는 연구자의 작업 언어가 아닌 경우, 주석을 이중 언어화하기 위해 선형 간 광택을 사용한다.

일부 말뭉치는 더 구조화된 수준의 분석을 적용하고 있습니다.특히, 작은 말뭉치는 완전히 해석될 수 있다.이러한 말뭉치는 보통 트리뱅크스 또는 파시드 말뭉치로 불린다.전체 말뭉치가 완전하고 일관되게 주석을 달기가 어렵다는 것은 이러한 말뭉치가 보통 약 1백만 단어에서 3백만 단어를 포함하는 더 작다는 것을 의미한다.형태학, 의미론 및 실용론에 대한 주석을 포함한 다른 수준의 언어 구조 분석이 가능하다.

적용들

코퍼스는 말뭉치 언어학의 주요 지식 기반이다.응용 프로그램의 기타 주목할 부분은 다음과 같습니다.

언어 테크놀로지, 자연어 처리, 컴퓨터 언어학
- 다양한 유형의 말뭉치의 분석과 처리는 컴퓨터 언어학, 음성 인식 및 기계 번역에서도 많은 작업의 주제이며, 여기서 종종 음성 태그 부착 및 다른 목적을 위한 숨겨진 마르코프 모델을 만드는 데 사용됩니다.그것들로부터 파생된 말뭉치와 빈도 리스트는 언어 교육에 유용하다.말뭉치는 원어민 이외의 사용자가 말뭉치 본문을 접하면서 습득한 문맥화된 문법지식을 통해 학습자가 대상 언어의 문장형성 방식을 파악할 수 있어 효과적인 ^[1]작문이 가능하기 때문에 외국어 작문 보조의 한 종류로 볼 수 있다.

기계 번역
- 나란히 비교하기 위해 특별히 포맷된 다국어 말뭉치를 정렬 병렬 말뭉치라고 합니다.병렬 말뭉치에는 두 가지 주요 유형이 있으며 두 가지 언어로 된 텍스트를 포함합니다.번역 코퍼스에서 한 언어의 텍스트는 다른 언어의 텍스트 번역입니다.비교 가능한 말뭉치에서는 텍스트가 같은 종류이며 동일한 내용을 포함하지만 서로 ^[2]번역된 것은 아닙니다.병렬 텍스트를 이용하려면 동등한 텍스트 세그먼트(구절 또는 문장)를 식별하는 일종의 텍스트 정렬이 분석의 전제 조건입니다.두 언어 간 번역용 기계번역 알고리즘은 제1언어 코퍼스와 제1언어 코퍼스의 ^[3]요소-요소 번역인 제2언어 코퍼스로 이루어진 병렬 fragment를 사용하여 훈련되는 경우가 많다.

언어학
- 텍스트 말뭉치는 고대 문자를 해독하려는 시도나 성경학술 등 역사 문서 연구에도 사용된다.어떤 고고학적 말뭉치는 너무 짧은 기간이어서 시간 내에 스냅사진을 제공할 수 있다.가장 짧은 말뭉치 중 하나는 아마르나의 15-30년 편지(기원전 1350년)일 것이다.고대 도시의 말뭉치(예를 들어 터키의 '퀼테페 텍스트')는 발견 장소에 따라 결정되는 일련의 말뭉치를 거칠 수 있다.

주목할 만한 텍스트 말뭉치

「」를 참조해 주세요.

레퍼런스

^ 윤, H, & Hirvela, A. (2004).ESL 학생들의 L2 쓰기에서의 말뭉치 사용에 대한 태도.제2언어 쓰기 저널, 13(4), 257~283.2012년 3월 21일 취득.
^ Wołk, K.; Marasek, K. (7 April 2014). "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned and GPU-accelerated parallel data mining from comparable corpora". In Král, Pavel; Matousek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings. Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.

외부 링크

ACL SIGLEX 자원 링크: Text Corpa 2013-08-13 Wayback Machine에서 아카이브된
언어학 코퍼스의 개발: 모범 사례 가이드
무료 샘플(무료 아님), 웹 기반 말뭉치(각 45~4억2500만 단어):미국(COCA, COHA, TIME), 영국(BNC), 스페인어, 포르투갈어
Charles University 예술학부에서 가르치는 언어의 Intercorp Building 동기 병렬 말뭉치.
스케치 엔진:무료 액세스 가능한 말뭉치 열기
TS 코퍼스 – 학술 연구에 자유롭게 사용할 수 있는 터키 코퍼스.
터키어 국가 말뭉치 – 현대 터키어를 위한 범용 말뭉치
홍콩침례대학도서관이 개발한 미·중 정치인의 정치연설 자료집(Corpus of Political Speechs)
러시아 국립 말뭉치

[Yoon-1] 윤, H, & Hirvela, A. (2004).ESL 학생들의 L2 쓰기에서의 말뭉치 사용에 대한 태도.제2언어 쓰기 저널, 13(4), 257~283.2012년 3월 21일 취득.

[2] Wołk, K.; Marasek, K. (7 April 2014). "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.

[3] Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned and GPU-accelerated parallel data mining from comparable corpora". In Král, Pavel; Matousek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings. Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.

[1]

[2]

[3]

Search

텍스트 말뭉치

네임스페이스

더

목차

개요

적용들

주목할 만한 텍스트 말뭉치

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

텍스트 말뭉치

개요

적용들

주목할 만한 텍스트 말뭉치

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.