테헤란 모놀링구 코퍼스

이 글에는 출처가 없다 신뢰할 수 있는 출처에 인용문을 추가하여 이 기사를 개선할 수 있도록 도와주십시오. 공급되지 않은 재료는 도전하여 제거할 수 있다.
출처 찾기: "Tehran Monolingual Corpus" – 뉴스 · 신문 · 책 · 학자 · JSTOR (2010년 12월) (이 템플릿 메시지를 제거하는 방법과 시기 학습)

테헤란 모놀링구스(TMC)는 페르시아 모놀링구스(Monolingual Corpus)의 대규모 모놀링구스다.TMC는 언어 모델링과 자연 언어 처리의 관련 연구 분야에 적합하다.

말뭉치는 함샤리 코퍼스와 ISNA 통신사 웹사이트에서 추출한 것이다.함샤흐리 말뭉치의 품질은 토큰화 및 철자 검사 단계를 통해 언어 모델링 목적으로 향상된다.

TMC는 2억 5천만 개 이상의 단어로 구성되어 있다.말뭉치의 고유어(빈도 2개 이상)의 총수는 약 30만 개로 페르시아어와 같은 고선형 언어에 비교적 좋다.

TMC는 테헤란 대학의 자연 언어 처리 연구소에 의해 만들어졌다.말뭉치는 말뭉치 집적자의 허가를 받은 후 연구용으로 무료로 사용할 수 있다.

참고 항목

v t 말뭉치 언어학
Text corpora, 영어	아메리칸 내셔널 코퍼스 영국은행 런던 10대 언어의 베르겐 코퍼스 브리티시 내셔널 코퍼스 브라운 코퍼스 부케예 코퍼스 케임브리지 잉글리시 코퍼스 코퍼스 오브 컨템포러리 아메리칸 잉글리시 엔론 코퍼스 엔텐텐 국제 영어 코퍼스 랭카스터오슬로베르겐 코퍼스 옥스퍼드 잉글리시 코퍼스 프로프뱅크 구어 잉글리시 코퍼스 티밋 버버넷 Wellington Corpus of Speak New Zealand English
Text corpora, 영어가 아닌	비잔칸 코퍼스 칠드런스 코르켄CC 컨템포러리 웨일스 국립 코르켄CC 크로아티아어 코퍼스 크로아티아 국립 코퍼스 체코 국립 코퍼스 유로팔 코퍼스 독일 참조 코퍼스 함샤리 코퍼스 폴란드 국립 코퍼스 네오아시리아 문자 코퍼스 프로젝트 페르시안 스피치 코퍼스 쿠란어 아랍어 코퍼스 러시아 국립 코퍼스 스코틀랜드 문자와 언어의 코퍼스 슬로베니아 국립 코퍼스 토크뱅크 타토에바 테헤란 모놀링구 코퍼스 테크스타로 데 에스페란토 텐텐 코퍼스 패밀리 사우루스 링귀게 그라케
단체들	BNC 컨소시엄 코빌드 스케치 엔진