CMU 발음 사전
CMU Pronouncing Dictionary개발자 | 카네기 멜론 대학교 |
---|---|
안정적 해제 | 0.7b / 2014년 11월 19일; 전 |
다음에서 사용 가능 | 영어 |
면허증 | BSD |
웹사이트 | www |
CMU 발음 사전(CMU 발음 사전(CMUdict라고도 함)은 카네기멜론 대학(CMU)의 스피치 그룹이 음성 인식 연구에 사용하기 위해 원래 만든 오픈소스 발음 사전이다.
CMUdict는 북아메리카 발음의 영어 단어에 대한 매핑 맞춤법/음향법을 제공한다. 일반적으로 음성인식(ASR), 예를 들어 CMU 스핑크스 시스템과 음성합성(TTS), 예를 들어 페스티벌 시스템 등을 위한 표현을 생성하기 위해 사용된다. CMUdict는 사전에 포함되지 않은 단어에 대한 발음을 생성하는 통계 그래핀 투 포네임(g2p) 모델을 구축하는[1] 훈련 말뭉치로 사용될 수 있다.
가장 최근 발매된 작품은 0.7b로 13만 4천 개가 넘는 출품작을 담고 있다. 대화형 룩업 버전을 사용할 수 있다.[2]
데이터베이스 형식
데이터베이스는 일반 텍스트 파일로 배포되며, 한 항목은 " 형식"으로 줄에 입력된다.WORD <pronunciation>
" 부품 사이에 2칸의 분리기가 있다. 한 단어에 여러 발음을 사용할 수 있는 경우 번호가 매겨진 버전(예:)을 사용하여 변형을 식별한다. WORD(1)
) 발음은 ARPAB의 변형된 형태를 사용하여 암호화된다.수준 0, 1, 2의 모음에 스트레스 표시가 추가된 ET 시스템. 선 이니셜 ;;;
토큰은 코멘트를 나타낸다. 음성 인식 엔진에 직접 적합한 파생 형식도 분포의 일부로 사용할 수 있다. 이 형식은 응력 구분을 붕괴시킨다(일반적으로 ASR에서는 사용되지 않음).
역사
버전 | 출시일자[3] | 면허증 |
---|---|---|
0.1 | 1993년 9월 16일 | 공용 도메인 |
0.2 | 1994년 3월 10일 | 공용 도메인 |
0.3 | 1994년 9월 28일 | 공용 도메인 |
0.4 | 1995년 11월 8일 | 공용 도메인 |
0.5 | 공개 금지 | 공용 도메인 |
0.6 | 1998년 8월 11일 | 공용 도메인 |
0.7 | 공개 금지 | 공용 도메인 |
0.7a | 2008년 2월 18일 | 2-클라우드 BSD |
0.7b | 2014년[4] 11월 19일 | 2-클라우드 BSD |
적용들
- 유니폰 변환기는 CMU 발음사전을 기반으로 한다.
- Natural Language Toolkit에는 CMU 발음 사전의 인터페이스가 포함되어 있다.
- Carnegie Mellon[5] Logios 도구는 CMU 발음 사전을 통합한다.
- 미국 영어의 발음 사전인 FrontunDict는 CMU 발음사전을 데이터 소스로 사용한다. 발음은 IPA 기호로 표기되어 있다. 이 사전은 발음에 의한 검색도 지원한다.
- CEVIO Creative Studio나 Synthetizer V와 같은 몇몇 노래하는 목소리 합성기 소프트 웨어들은 영어 노래 목소리를 합성하기 위해 CMU 발음 사전의 변형 버전을 사용한다.
- 본문 음성전사 도구인 전사자는 CMU 발음사전을 사용한다.
참고 항목
- 비슷한 프로젝트인 모비 발광기
참조
- ^ "Sequitur G2P - A trainable Grapheme-to-Phoneme converter".
- ^ "The CMU Pronouncing Dictionary".
- ^ ftp://ftp.cs.cmu.edu/project/speech/dict/[영구적 데드링크]
- ^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt
- ^ "Archived copy". Archived from the original on 2011-05-20. Retrieved 2009-12-19.CS1 maint: 제목으로 보관된 복사본(링크)
외부 링크
- 현재 버전의 사전은 GitHub에 유지되는 버전도 있지만 SourceForge에 있다.
- 홈페이지 – 데이터베이스 검색 포함
- 오픈 소스 Texai 프로젝트에 의해 자원 기술 프레임워크로 변환된 RDF.