텍스트 말뭉치
Text corpus언어학에서 말뭉치(복수 말뭉치) 또는 텍스트 말뭉치(text corpus)는 크고 구조화된 텍스트 집합으로 구성된 언어 리소스입니다(현재는 일반적으로 전자적으로 저장 및 처리됨).말뭉치 언어학에서는 특정 언어 영역 내에서 통계 분석 및 가설 테스트, 발생 확인 또는 언어 규칙 검증에 사용됩니다.
검색 기술에서 말뭉치는 검색 중인 문서의 모음입니다.
개요
말뭉치는 단일 언어(단일 언어 말뭉치)의 텍스트 또는 다국어(다언어 말뭉치)의 텍스트 데이터를 포함할 수 있다.
말뭉치를 언어 연구에 더 유용하게 만들기 위해, 종종 주석이라고 불리는 과정을 거친다.코퍼스에 주석을 다는 예로는 각 단어의 언어 부분(동사, 명사, 형용사 등)에 대한 정보가 태그의 형태로 코퍼스에 추가되는 음성 부분 태그 또는 POS 태그가 있다.또 다른 예로는 각 단어의 보조어(기본어) 형식을 나타냅니다.말뭉치의 언어가 이를 사용하는 연구자의 작업 언어가 아닌 경우, 주석을 이중 언어화하기 위해 선형 간 광택을 사용한다.
일부 말뭉치는 더 구조화된 수준의 분석을 적용하고 있습니다.특히, 작은 말뭉치는 완전히 해석될 수 있다.이러한 말뭉치는 보통 트리뱅크스 또는 파시드 말뭉치로 불린다.전체 말뭉치가 완전하고 일관되게 주석을 달기가 어렵다는 것은 이러한 말뭉치가 보통 약 1백만 단어에서 3백만 단어를 포함하는 더 작다는 것을 의미한다.형태학, 의미론 및 실용론에 대한 주석을 포함한 다른 수준의 언어 구조 분석이 가능하다.
적용들
코퍼스는 말뭉치 언어학의 주요 지식 기반이다.응용 프로그램의 기타 주목할 부분은 다음과 같습니다.
- 기계 번역
- 나란히 비교하기 위해 특별히 포맷된 다국어 말뭉치를 정렬 병렬 말뭉치라고 합니다.병렬 말뭉치에는 두 가지 주요 유형이 있으며 두 가지 언어로 된 텍스트를 포함합니다.번역 코퍼스에서 한 언어의 텍스트는 다른 언어의 텍스트 번역입니다.비교 가능한 말뭉치에서는 텍스트가 같은 종류이며 동일한 내용을 포함하지만 서로 [2]번역된 것은 아닙니다.병렬 텍스트를 이용하려면 동등한 텍스트 세그먼트(구절 또는 문장)를 식별하는 일종의 텍스트 정렬이 분석의 전제 조건입니다.두 언어 간 번역용 기계번역 알고리즘은 제1언어 코퍼스와 제1언어 코퍼스의 [3]요소-요소 번역인 제2언어 코퍼스로 이루어진 병렬 fragment를 사용하여 훈련되는 경우가 많다.
주목할 만한 텍스트 말뭉치
「 」를 참조해 주세요.
- 콩코드
- 말뭉치 언어학
- 분포-관계 데이터베이스
- 언어 데이터 컨소시엄
- 자연어 처리
- 내추럴 랭귀지 툴킷
- 병렬 텍스트 정렬
- 검색 엔진: "웹 말뭉치"에 액세스합니다.
- 음성 말뭉치
- 번역 메모리
- 트리뱅크
- Zipf의 법칙
레퍼런스
- ^ 윤, H, & Hirvela, A. (2004).ESL 학생들의 L2 쓰기에서의 말뭉치 사용에 대한 태도.제2언어 쓰기 저널, 13(4), 257~283.2012년 3월 21일 취득.
- ^ Wołk, K.; Marasek, K. (7 April 2014). "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned and GPU-accelerated parallel data mining from comparable corpora". In Král, Pavel; Matousek, Václav (eds.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings. Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.
외부 링크
- ACL SIGLEX 자원 링크: Text Corpa 2013-08-13 Wayback Machine에서 아카이브된
- 언어학 코퍼스의 개발: 모범 사례 가이드
- 무료 샘플(무료 아님), 웹 기반 말뭉치(각 45~4억2500만 단어):미국(COCA, COHA, TIME), 영국(BNC), 스페인어, 포르투갈어
- Charles University 예술학부에서 가르치는 언어의 Intercorp Building 동기 병렬 말뭉치.
- 스케치 엔진:무료 액세스 가능한 말뭉치 열기
- TS 코퍼스 – 학술 연구에 자유롭게 사용할 수 있는 터키 코퍼스.
- 터키어 국가 말뭉치 – 현대 터키어를 위한 범용 말뭉치
- 홍콩침례대학도서관이 개발한 미·중 정치인의 정치연설 자료집(Corpus of Political Speechs)
- 러시아 국립 말뭉치