eSpeak(말하기)

eSpeak
eSpeakNG
원저작자조너선 더딩턴
개발자리스 던
초기 릴리즈2006년 2월, 16년 전(2006-02)
안정된 릴리스
1.51 / 2022년 4월 2일; 4개월 전(2022-04-02)
저장소github.com/espeak-ng/espeak-ng/
기입처C
운영 체제리눅스
창문들
MacOS
FreeBSD
유형음성 신시사이저
면허증.GPLv3
웹 사이트github.com/espeak-ng/espeak-ng/

eSpeakNG자유 오픈 소스 크로스 플랫폼 컴팩트 소프트웨어 음성 신시사이저입니다.포만트 합성 방식을 사용하여 비교적 작은 파일 크기로 많은 언어를 제공합니다.eSpeak용 프로그래밍의 많은 부분NG의 언어 지원은 원어민으로부터 피드백을 받은 규칙 파일을 사용하여 구현됩니다.

크기가 작고 언어가 다양하기 때문에 Windows용 NVDA 오픈 소스 화면 리더와 Android,[2] Ubuntu[3] 및 기타 Linux 배포판에 포함되어[1] 있습니다.그 전작인 eSpeak는 2016년에[4] 마이크로소프트에 의해 추천되었고 [5]2010년에 27개 언어로 Google Translate에 의해 사용되었습니다.그 중 17개는 그 후에 독점적인 [6]음성으로 대체되었습니다.

언어 음성의 질은 매우 다양하다.eSpeak의 경우NG의 전신인 eSpeak는 일부 언어의 초기 버전은 [7]위키피디아에서 발견된 정보를 기반으로 했습니다.일부 언어들은 다른 언어들보다 원어민들로부터 더 많은 작업이나 피드백을 받았다.다양한 언어를 향상시키는데 도움을 준 대부분의 사람들은 텍스트 투 스피치의 맹인 사용자들이다.

역사

ESpeak 로고

1995년 조나단 더딩턴은 영국 [8]영어를 지원하는 RISC OS 컴퓨터용 Speak Speech Synthizer를 출시했습니다.2006년 2월 17일에 Speak 1.05가 GPLv2 라이선스로 출시되었으며, 2007년 [9]1월에 Windows SAPI 5 버전이 추가되었습니다.Speak의 개발은 버전 1.14까지 계속되었으며, 그 후 eSpeak으로 이름이 변경되었습니다.

eSpeak의 개발은 1.16([9]릴리스 1.15는 없었다)부터 계속되었으며 eSpeak 음성 데이터의 편집 및 구축을 위한 eSpeakEdit 프로그램이 추가되었다.이것들은 eSpeak 1.24까지 별도의 소스 및 바이너리 다운로드로만 이용할 수 있었습니다.1.24.02 버전의 eSpeak은 서브버전을 사용하여 버전을 제어한 최초의 eSpeak 버전으로,[10] SourceForge에서 [9]별도의 소스 및 바이너리 다운로드를 이용할 수 있습니다.eSpeak 1.27부터는 GPLv3 [11]라이선스를 사용하도록 eSpeak가 업데이트되었습니다.마지막 공식 eSpeak 릴리스는 Windows 및 Linux 1.48.04, RISC OS 1.47.06, MacOS 1.[12]45.04였습니다.eSpeak의 마지막 개발 릴리스는 2015년 [13]4월 16일 1.48.15였습니다.

eSpeak 는, 유즈넷 방식을 사용하고, ASCII [14]문자로 음소를 나타냅니다.

eSpeak NG

2010년 [15]6월 25일 리스 던은 1.43.46 릴리스를 사용하여 GitHub에서 eSpeak의 포크를 시작했다.이는 Linux 및 기타 POSIX 플랫폼에서 eSpeak를 쉽게 구축하기 위한 노력의 일환으로 시작되었습니다.

2015년 10월 4일(eSpeak 1.48.15 출시 6개월 후)에 이 포크는 원래의 [16][17]eSpeak에서 더 크게 벗어나기 시작했습니다.

2015년 12월 8일, 마지막 eSpeak 개발 릴리즈 이후 8개월 동안 Jonathan Duddington의 활동 부족에 대한 eSpeak 메일링 리스트에 대한 논의가 있었습니다.이것은 Jonathan의 [18][19]부재중에 eSpeak의 계속적인 개발에 관한 논의로 발전했습니다.그 결과 eSpeak의 GitHub 버전을 미래 개발의 기반으로 사용하여 espeak-ng(차세대) 포크를 만들었습니다.

2015년 12월 11일, espeak-ng 포크가 시작되었습니다.[20]espeak-ng의 첫 번째 릴리스는 2016년 [21]9월 10일 1.49.0으로 상당한 코드 정리, 버그 수정 및 언어 업데이트가 포함되어 있습니다.

특징들

eSpeakNG는 명령줄 프로그램 또는 공유 라이브러리로 사용할 수 있습니다.

음성 합성 마크업 언어(SSML)를 서포트하고 있습니다.

언어 음성은 언어의 ISO 639-1 코드로 식별됩니다.그것들은 "음성 변형"에 의해 수정될 수 있습니다.이들은 음역 범위 등의 특성을 변경하거나 에코, 위스퍼, 크로키 보이스 등의 효과를 추가하거나 포만트 주파수를 체계적으로 조정하여 음성의 소리를 변경할 수 있는 텍스트파일입니다.예를 들어 "af"는 아프리칸스의 목소리입니다."af+f2"는 "f2" 음성 변종으로 변형된 아프리칸스 음성으로, 암컷 소리를 내기 위해 포맨트와 음역을 변경합니다.

eSpeakNG는 Usenet 시스템에 느슨하게 기반을 둔 음소 이름의 ASCII 표현을 사용합니다.

음성표현은 이중 사각괄호 안에 포함시킴으로써 텍스트 입력에 포함할 수 있다.예를 들어 espeak-ng -v en "Hello [[w3:ld]"는 영어로 Hello world 라고 합니다.

합성법

영어판 eSpeakNG의 ESpeakNG 도입

eSpeakNG는 사용자가 사용하는 텍스트/스피치 변환 단계에 따라 다양한 방법으로 텍스트/스피치 변환기로 사용할 수 있습니다.

1. 순서 - 텍스트에서 음소로 변환

많은 언어(특히 영어)가 쓰기와 발음 사이에 직접적인 일대일 규칙을 가지고 있지 않기 때문에 텍스트에서 음성으로 변환하는 것이 텍스트에서 음성으로 변환되어야 합니다.

  1. 입력 텍스트는 발음 음소로 번역됩니다(예를 들어 입력 텍스트 제록스는 로 번역됩니다).zi@r0ks).
  2. 발음 음소는 소리로 합성된다.를 들어 zi@r0ks단조로운 방법으로 zi@r0ks로 발음된다.

음성을 위한 억양(예: 음절의 강세, 기본 주파수의 하강 또는 상승 피치, 일시정지 등) 및 보다 인간적이고 단조롭지 않은 음성을 합성할 수 있는 기타 정보를 추가합니다. 예를 들어 EspeakNG 형식에서는 보다 자연스러운 z'0ks를 제공하는 아포스트로피 z'i@0ks를 사용하여 강조된 음절을 추가합니다.억양이 있는

운율 데이터가 있는 경우와 없는 경우의 두 표본 비교:

  1. [DIS Iz m0noUntoUn spi:tS]철자가 단조롭다.
  2. [DIS Iz 'Int@n,eItI2d sp'i:tS]의 철자는 억양입니다.

eSpeak의 경우NG는 운율 데이터 생성에만 사용되며, 운율 데이터는 MBROLA 쌍음 음성에 대한 입력으로 사용될 수 있습니다.

2. 스텝 - 운율 데이터에서 음성 합성

eSpeakNG는 두 가지 다른 접근방식을 사용하여 두 가지 유형포만트 음성 합성을 제공한다.독자적인 eSpeak 탑재NG 신시사이저와 Klatt 신시사이저:[22]

  1. eSpeakNG 신시사이저는 정현파를 합산해 모음, 공명음 등 유성 음성을 만들어 낸다./s/ 같은 비음성 자음[23]녹음된 소리를 재생함으로써 만들어지는데, 이는 조화가 풍부하기 때문에 가법 합성이 덜 효과적이기 때문이다./z/와 같은 유성 자음은 합성된 유성음과 녹음된 무성음을 혼합하여 만들어진다.
  2. Klatt 신시사이저는 대부분 eSpeak와 동일한 포맨트 데이터를 사용합니다.NG 신시사이저단, 고조파가 풍부한 발생 소음에서 시작하여 디지털 필터적용하고 포락선을 적용하여 특정 자음(s, t, k) 또는 공명음(l, m, n) 소리에 필요한 주파수 스펙트럼과 소리 외피를 걸러냄으로써 감산 합성을 통해 소리를 생성한다.

MBROLA의 음성에 대해서는 eSpeakNG는 텍스트를 음소 및 관련 피치 등고선으로 변환합니다.이를 PHO 파일 형식을 사용하여 MBROLA 프로그램에 전달하고 MBROLA에 의해 출력으로 작성된 오디오를 캡처합니다.그 오디오는 eSpeakNG에 의해 처리됩니다.

언어들

eSpeakNG는 다음 [24][25]언어에 대해 텍스트/스피치 합성을 수행합니다.

  1. 아바자
  2. 아베나키
  3. 아치어
  4. 아디게
  5. 멀리
  6. 아프리칸스[26]
  7. 알바니아어[27]
  8. 암하라어
  9. 아파치
  10. 아라벨라
  11. 고대 그리스어
  12. 아랍어1
  13. 아라곤어[28]
  14. 아라파호
  15. 아르메니아어(동부 아르메니아어)
  16. 아르메니아어(서부 아르메니아어)
  17. 아로마니아인
  18. 앗사메
  19. 아시니보인
  20. 아바릭
  21. 아와디
  22. 아이마라
  23. 아제르바이잔어
  24. 바시키르
  25. 바스크어
  26. 기본 영어
  27. 벨라루스 사람
  28. 벵골어
  29. 보즈푸리
  30. 비콜라노
  31. 보도
  32. 비슈누프리야 마니푸리
  33. 보스니아어
  34. 불가리아어[28]
  35. 브르타뉴
  36. 버마어
  37. 카도
  38. 카후야
  39. 광둥어[28]
  40. 운송 회사
  41. 카탈로니아어[28]
  42. 카토바
  43. 카유가
  44. 세부아노
  45. 차모로
  46. 체첸
  47. 체로키
  48. 샤이엔
  49. 차티스가르히
  50. 치히와
  51. 치카소
  52. 중국어(만다린)
  53. 치페위안
  54. 치페와
  55. 치통가
  56. 치타곤어
  57. 촉토
  58. 코네스토가
  59. 코르시카인
  60. 크로아티아어[28]
  61. 까마귀
  62. 체코
  63. 추바시
  64. 교회 슬라브어
  65. 크림 타타르
  66. 다코타
  67. 덴마크어[28]
  68. 다리
  69. 디베히
  70. 도그리
  71. 도그리브
  72. 네덜란드[28]
  73. 종카
  74. 에도
  75. 영어(미국)[28]
  76. 영어(영국)
  77. 영어(카리브어)
  78. 영어(Lancastian)
  79. 영어(수신된 발음)
  80. 영어(스코틀랜드어)
  81. 영어(웨스트 미들랜드)
  82. 에스페란토[28]
  83. 에스토니아어[28]
  84. 이위
  85. 에야크
  86. 핀란드어[28]
  87. 필리핀 사람
  88. 폭스
  89. 프랑스어(벨기에)[28]
  90. 프랑스어(캐나다)
  91. 프랑스어(프랑스)
  92. 프랑스어(스위스)
  93. 프리지안
  94. 가가우즈
  95. 갈리시아인
  96. 가르와리
  97. 가리푸나
  98. 가로
  99. 그루지야어[28]
  100. 독일의[28]
  101. 그리스어(현대어)[28]
  102. 그린란드어
  103. 과라니
  104. 구자라티
  105. 귀친
  106. 하이다
  107. 하슬라
  108. 객가 중국어3
  109. 아이티 크리올
  110. 하얀비
  111. 하우사
  112. 하와이안
  113. 히브리어
  114. 히다사
  115. 하이발리안
  116. 힐리가이논
  117. 힌디어[28]
  118. 흐몽
  119. 호청크
  120. 호피
  121. 헝가리어[28]
  122. 훈스리크
  123. 이반
  124. 이비오
  125. 아이슬란드어[28]
  126. 이그보
  127. 일로코
  128. 인도네시아어[28]
  129. 그렇습니다.
  130. 인터링구아
  131. 인터링거
  132. 아일랜드어[28]
  133. 이탈리아의[28]
  134. 일본인입니다4[29]
  135. 자바어
  136. 유대어-스페인어
  137. 칸나다[28]
  138. 칸사
  139. 카슈미르
  140. 카자흐스탄어
  141. 카카스
  142. 크메르어
  143. 클링온
  144. 키체
  145. 키룬디
  146. 키쿠유
  147. 킨야르완다
  148. 곤카니[30]
  149. 한국인입니다
  150. 크리오
  151. 쿠미크
  152. 쿠르드어[28]
  153. 키르기스어
  154. 케추아
  155. 라다키
  156. 라코타
  157. 라오스
  158. 라틴어
  159. 라트갈리아어
  160. 라트비아어[28]
  161. 랑 벨타
  162. 링구아프랑카노바
  163. 렙차
  164. 레즈기
  165. 림부
  166. 림부르크어
  167. 링갈라
  168. 리투아니아어
  169. 로지반[28]
  170. 루간다
  171. 룩셈부르크어
  172. 마케도니아어
  173. 마두레스
  174. 마가히
  175. 마이틸리
  176. 마카사레스
  177. 말라가시
  178. 말레이어[28]
  179. 말레이람[28]
  180. 몰타어
  181. 만단
  182. 마니푸리
  183. 마오리
  184. 마라티[28]
  185. 모호크
  186. 몰도반
  187. 몽골어
  188. Nahuatl (클래식)
  189. 나바호
  190. 네팔어[28]
  191. 노르웨이어(보크몰)[28]
  192. 북소토
  193. 노비알
  194. 노가이
  195. 고대 영어
  196. 오디아
  197. 오마하폰카
  198. 오네이다
  199. 오논다가
  200. 오로모
  201. Occtian
  202. 파피아멘토
  203. 팔라우안
  204. 파슈토어족
  205. 포니
  206. 페르시아어[28]
  207. 페르시아어(라틴 문자)2
  208. 폴란드의[28]
  209. 포르투갈어(브라질)[28]
  210. 포르투갈어(포르투갈어)
  211. 펀자비[31]
  212. Pyash(건설된 언어)
  213. 콰파우
  214. 루마니아어[28]
  215. 라라무리
  216. 러시아[28]
  217. 러시아어(라트비아)
  218. 사드리
  219. 살라르
  220. 사모아어
  221. 산스크리트어
  222. 산탈리
  223. 스코틀랜드 게일어
  224. 세네카
  225. 세르비아어[28]
  226. (타이타이타이)
  227. 샤르다
  228. 세소토
  229. 시피보
  230. 쇼나
  231. 신디
  232. 신할라
  233. 슬로바키아어[28]
  234. 슬로베니아어
  235. 소말리아어
  236. 스페인어(스페인)[28]
  237. 스페인어(남미)
  238. 스페인어(미국)
  239. 스토니
  240. 순다어
  241. 스와힐리[26]
  242. 스웨덴어[28]
  243. 실헤티
  244. 타지크어
  245. 타밀어[28]
  246. 타타르
  247. 테툼
  248. 텔루구
  249. 티베트어
  250. 츠와나
  251. 태국어
  252. 투반
  253. 투르크멘어
  254. 터키어[28]
  255. 타타르
  256. 위구르족
  257. 우크라이나어
  258. 우라리나
  259. 우르두어
  260. 우즈벡어
  261. 베트남어(중앙 베트남어)[28]
  262. 베트남어(북베트남어)
  263. 베트남어(남베트남어)
  264. 볼라퓌크
  265. 와유우
  266. 웨일스어
  267. 월로프
  268. 자반떼
  269. 호사
  270. 이디시어
  271. 요루바
  272. 유카테코
  273. 줄루
  274. 주니
  1. 현재 완전히 분음화된 아랍어만 지원됩니다.
  2. 영어(라틴어) 문자를 사용하여 쓰여진 페르시아어.
  3. 현재 지원되는 것은 Pha'k-fa-s'뿐입니다.
  4. 현재 지원되는 것은 히라가나가타카나뿐입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ NVDA 배포 번호 5651의 eSpeak NG로 전환합니다.
  2. ^ Android용 eSpeak TTS
  3. ^ Ubuntu의 espeak-ng 패키지
  4. ^ "Download voices for Immersive Reader, Read Mode, and Read Aloud".
  5. ^ Google 블로그, Google 번역으로 더 많은 언어에 목소리를 제공, 2010년 5월
  6. ^ 구글 블로그, 지금 바로 들어주세요, 2010년 12월.
  7. ^ eSpeak 스피치 신시사이저 3. Languages
  8. ^ http://espeak.sourceforge.net/
  9. ^ a b c "ESpeak: Speech synthesis - Browse /Espeak at SourceForge.net".
  10. ^ 서브버전 이력(리비전 1)
  11. ^ 서브버전 이력(리비전 56)
  12. ^ "Espeak: Downloads".
  13. ^ http://espeak.sourceforge.net/test/latest.html
  14. ^ van Leussen, Jan-Wilem; Tromp, Maarten (26 July 2007). "Latin to Speech": 6. CiteSeerX 10.1.1.396.7811. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  15. ^ "Build: Allow portaudio 18 and 19 to be switched easily. · rhdunn/Espeak@63daaec". GitHub.
  16. ^ "Espeakedit: Fix argument processing for unicode argv types · rhdunn/Espeak@61522a1". GitHub.
  17. ^ "Switch to eSpeak NG in NVDA distribution · Issue #5651 · nvaccess/Nvda". GitHub.
  18. ^ eSpeak 프로젝트와 그 미래에 대한 소유권 획득
  19. ^ 새로운 메인 eSpeak 개발자에 투표
  20. ^ espeak 프로그램을 espeak-ng로 리브랜딩합니다.
  21. ^ espeak-ng 1.49.0
  22. ^ Klatt, Dennis H. (1979). "Software for a cascade/parallel formant synthesizer" (PDF). J. Acoustical Society of America, 67(3) March 1980.
  23. ^ eSpeak에 기록된 마찰음 목록NG
  24. ^ "ESpeak NG Text-to-Speech". GitHub. 13 February 2022.
  25. ^ "ESpeak NG Text-to-Speech". GitHub. 22 October 2021.
  26. ^ a b Butgereit, L., & Botha, A. (2009년, 5월)하데다: 휴대폰으로 맞춤법 연습하는 시끄러운 방법.우간다 캄팔라에서 열린 IST-아프리카 2009 회의.
  27. ^ Hamiti, M., & Kastrati, R. (2014년)알바니아어로 텍스트를 음성으로 변환하기 위해 eSpeak를 채택합니다.IJCSI(International Journal of Computer Science Issues), 11(4), 21.
  28. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap S. Kayte, & Gawali, D. B. (2015년)Marathi 음성 합성:리뷰.컴퓨팅과 커뮤니케이션의 최근 및 혁신 동향에 관한 국제 저널, 3 (6) , 3708-3711.
  29. ^ Prunk, R. (2013년)eSpeak 시스템에 일본어 합성 지원 추가.암스테르담 대학교
  30. ^ Mohanan, S., S., Naik, G., Desai, N. F. 및 Naik, S.(2012).Konkani 언어용 텍스트 리더.자동화자율 시스템, 4(8), 409-414.
  31. ^ Kaur, R. & Sharma, D. (2016).eSpeak를 사용하여 텍스트를 Punjabi 언어용 음성으로 변환하는 개선된 시스템.국제공학기술연구저널, 3(4), 500-504.

외부 링크