시간
TIMITTIMIT는 다른 성별과 사투리를 가진 미국 영어 사용자들의 음성 및 어휘적으로 번역된 말뭉치이다.각 문자화된 요소는 시간에 따라 설명되었습니다.
TIMIT는 음향-음성 지식과 자동 음성 인식 시스템을 더욱 발전시키기 위해 설계되었습니다.DARPA의 의뢰로 말뭉치 설계는 매사추세츠 공과대학, SRI International 및 TI(Texas Instruments)가 공동으로 실시한 것입니다.이 연설은 TI에서 녹음되고 MIT에서 녹음되며 국립표준기술연구소(NIST)[1]에 의해 검증되고 출판을 위해 준비되었다.전화 대역폭 버전인 NTIMIT(Network TIMIT)도 있습니다.
TIMIT와 NTIMIT는 무료로 이용할 수 없습니다.데이터셋에 액세스하려면 Languistical Data Consortium 멤버십 또는 금전적 지불이 필요합니다.
역사
TIMIT 전화 코퍼스는 음성 [2]샘플로 데이터베이스를 구축하기 위한 초기 시도였다.그것은 1988년에 CD-ROM으로 출판되었고 스피커 한 명당 10문장으로만 구성되어 있다.각 화자에 의해 두 개의 '변증' 문장이 읽혔고, 더 큰 집합에서 선택된 또 다른 7개의 문장이 읽혔다. 각 문장은 평균 3초 길며, 630명의 다른 [4]화자에 의해 이야기된다.이는 음성 말뭉치를 만들고 배포하는 첫 번째 주목할 만한 시도였으며 전체 프로젝트는 150만 US$[5]의 비용을 발생시켰다.
프로젝트의 전체 이름은 DARPA-TIMIT Acoustic-Phonetic Continuous Speech[6] Corpus이며 TIMIT는 Texas Instruments/Massachusetts Institute of Technology의 약자입니다.전화 음성 코퍼스가 만들어진 주된 이유는 음성 인식 소프트웨어를 훈련시키기 위해서였다.Blazzard 과제에서는 다른 소프트웨어가 오디오 녹음을 텍스트 데이터로 변환할 의무가 있으며 TIMIT 코퍼스가 표준화된 기준선으로 [7]사용되었습니다.
기계학습방법비교
| 스터디 | 방법 | 정확도(%) |
|---|---|---|
| 카오와[8] 팬 | KIRF | 93.1 |
| 버드 [9]등 | DEVO MLP | 92.85 |
| 카오와[8] 팬 | NPCD/MPLSR | 92.8 |
| 카오와[8] 팬 | NPCD/PCA | 92.1 |
| 카오와[8] 팬 | MPLSR | 91.1 |
| 카오와[8] 팬 | PDA/리지 | 91.1 |
| 리와 고살 | UMP | 89.25 |
| 리와 고살 | MLO | 85.25 |
| 리와 고살 | QDA | 83.75 |
| Ager 등 | GMM | 81.5 |
| 리와[10] 유 | FSDA | 81.5 |
| 리와[10] 유 | FSVM | 78 |
「 」를 참조해 주세요.
레퍼런스
- ^ Fisher, William M.; Doddington, George R.; Goudie-Marshall, Kathleen M. (1986). "The DARPA Speech Recognition Research Database: Specifications and Status". Proceedings of DARPA Workshop on Speech Recognition. pp. 93–99.
- ^ Morales, Nicolas and Tejedor, Javier and Garrido, Javier and Colas, Jose and Toledano, Doroteo T (2008). "STC-TIMIT Generation of a single-channel telephone corpus". Proceedings of the Sixth International Language Resources and Evaluation (LREC'08): 391–395.
{{cite journal}}: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Lori F Lamel and Robert H. Kassel and Stephanie Seneff (1986). Speech Database Development: Design and Analysis of the Acoustic-Phonetic Corpus (Technical report). DARPA (SAIC-86/1546).
- ^ John S Garofolo and Lori F Lamel and William M Fisher and Jonathan G Fiscus and David S Pallett and Nancy L Dahlgren (1993). DARPA TIMIT: (Technical report). National Institute of Standards and Technology. doi:10.6028/nist.ir.4930.
- ^ Nattanun Chanchaochai and Christopher Cieri and Japhet Debrah and Hongwei Ding and Yue Jiang and Sishi Liao and Mark Liberman and Jonathan Wright and Jiahong Yuan and Juhong Zhan and Yuqing Zhan (2018). GlobalTIMIT: Acoustic-Phonetic Datasets for the World's Languages. Interspeech 2018. ISCA. doi:10.21437/interspeech.2018-1185.
- ^ Bauer, Patrick and Scheler, David and Fingscheidt, Tim (2010). WTIMIT: The TIMIT Speech Corpus Transmitted Over The 3G AMR Wideband Mobile Network. LREC.
{{cite conference}}: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Sawada, Kei and Asai, Chiaki and Hashimoto, Kei and Oura, Keiichiro and Tokuda, Keiichi (2016). The NITech text-to-speech system for the Blizzard Challenge 2016. Blizzard Challenge 2016 Workshop.
{{cite conference}}: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ a b c d e Cao, Jiguo; Fan, Guangzhe (2010). Signal Classification Using Random Forest with Kernels. IEEE. doi:10.1109/aict.2010.81. ISBN 978-1-4244-6748-8.
- ^ Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Optimisation of phonetic aware speech recognition through multi-objective evolutionary algorithms" (PDF). Expert Systems with Applications. Elsevier BV. 153: 113402. doi:10.1016/j.eswa.2020.113402. ISSN 0957-4174.
- ^ a b Li, Bin; Yu, Qingzhao (2008). "Classification of functional data: A segmentation approach". Computational Statistics & Data Analysis. Elsevier BV. 52 (10): 4790–4800. doi:10.1016/j.csda.2008.03.024. ISSN 0167-9473.