테헤란 모놀링구 코퍼스
Tehran Monolingual Corpus테헤란 모놀링구스(TMC)는 페르시아 모놀링구스(Monolingual Corpus)의 대규모 모놀링구스다.TMC는 언어 모델링과 자연 언어 처리의 관련 연구 분야에 적합하다.
말뭉치는 함샤리 코퍼스와 ISNA 통신사 웹사이트에서 추출한 것이다.함샤흐리 말뭉치의 품질은 토큰화 및 철자 검사 단계를 통해 언어 모델링 목적으로 향상된다.
TMC는 2억 5천만 개 이상의 단어로 구성되어 있다.말뭉치의 고유어(빈도 2개 이상)의 총수는 약 30만 개로 페르시아어와 같은 고선형 언어에 비교적 좋다.
TMC는 테헤란 대학의 자연 언어 처리 연구소에 의해 만들어졌다.말뭉치는 말뭉치 집적자의 허가를 받은 후 연구용으로 무료로 사용할 수 있다.