중국어 음성 합성

Chinese speech synthesis

중국어 음성 합성은 중국어(일반적으로 표준 중국어)에 음성 합성을 적용하는 것이다. 한자(각의 문맥에서 발음이 다른 경우가 많음), 말의 의미를 전달하는데 필수적인 복잡한 프러소디, 때로는 특정 음소의 정확한 발음이 무엇인지에 대한 원어민 간의 합의를 얻기 어려워 추가적인 어려움을 제기한다.

연결(Ekho 및 KeyTip)

녹음은 원하는 조합으로 연결될 수 있지만 조인 소리 강제(단순 연결 기반 음성 합성에 대해 보통 그렇듯이)와 이것은 프로소디에 심각한 영향을 줄 수 있다. 이러한 합성기는 속도와 표현 측면에서도 융통성이 없다. 그러나 이러한 신디사이저는 말뭉치에 의존하지 않기 때문에 더 이상 특이하거나 어색한 구절이 주어졌을 때 성능 저하가 눈에 띄게 나타나지 않는다.

Ekho는 샘플링된 음절을 간단히 연결해주는 오픈 소스 TTS이다. 현재 광둥어, 만다린어, 실험적으로 한국어를 지원하고 있다. 중국어의 일부 음절은 프라트어로 정규화되었다. 이것들의 변형된 버전은 Gradint의 "부분으로부터 합성"에 사용된다.

cjkware.com은 비슷한 기능을 하는 KeyTip Putonghua Reader라는 제품을 배송하곤 했다; 그것은 120메가바이트의 음반을 포함하고 있었다; 그것은 1만개의 다음 사전 단어와 6개의 다른 프로소디 (4 톤, 중립 톤, 그리고 3차 톤의 엑스트라)에 단일음반 녹음으로 구성되어 있다.e 구문의 끝에 사용하기 위한 기록).

경량 합성기(eSpeak 및 Yuet)

자체 합성 접근법을 갖고 있는 경량 오픈소스 스피치 프로젝트 eSpeak은 만다린어와 광둥어로 실험했다. eSpeak은 2010년[1] 5월부터 2010년 12월까지 구글 번역기에 의해 사용되었다.[2]

상용 제품 「Yuet」도 경량화(임베디드 시스템과 같은 자원 제약 환경에 적합하도록 하는 것)로, 2013년부터 ANSI C에서 처음부터 작성했다. 유에트는 별도의 사전을 필요로 하지 않는 내장형 NLP 모델을 주장하고 있으며, 엔진에 의해 합성된 음성에서는 명확한 단어 경계와 적절한 단어를 강조한다고 주장한다. 사본을 입수하기 위해서는 그 저자와의 교신이 필요하다.[3]

eSpeak과 Yuet은 모두 같은 입력 텍스트에서 광둥어와 만다린어를 합성할 수 있으며, 그에 상응하는 로마자화를 출력할 수 있다(광둥어의 경우 Yuet은 예일을 사용하고 eSpeak은 Jyutping을 사용하며, 둘 다 중국어를 위해 Pinyin을 사용한다). eSpeak은 어떤 음절을 사용해야 하는지에 대한 질문을 바꾸지 않을 때 단어 경계와 관련이 없다.

코퍼스 기반

"corpus 기반" 접근법은 대부분의 경우 매우 자연스럽게 들릴 수 있지만, 말뭉치와 일치하지 않을 경우 특이한 구절을 잘못 다룰 수 있다.[4] 합성기 엔진은 말뭉치의 크기 때문에 일반적으로 매우 크다(수백 또는 심지어 수천 메가바이트).

아이플라이텍

안후이 USTC iFlyTek 주식회사(iFlyTek)는 W3C 논문을 발표했는데, W3C 논문이 채택되어 문자의 발음을 명확히 하고 일부 프로소디 정보를 추가하기 위한 마크업을 포함할 수 있는 마크업 언어(CSML)라고 불리는 마크업 언어를 제작하였다.[5] 관련 데이터의 양은 iFly에 의해 공개되지 않음Tek 그러나 iFly라는 상업용 제품에서 볼 수 있다.Tek는 그들의 기술을 허가했다. 예를 들어, Bider's SpeechPlus는 1.3 기가바이트의 다운로드로, 1.2 기가바이트의 다운로드는 하나의 중국 음성을 위한 고도로 압축된 데이터에 사용된다. iFlyTek의 합성기는 또한 같은 음성으로 중국어와 영어의 혼합된 텍스트를 합성할 수 있다. 그들은 그들의 영어 합성이 "평균"이라고 주장한다.

아이플라이tek corpus는 한자에 대한 의존도가 높은 것으로 보이며, 피닌만으로는 합성할 수 없다. 때때로 CSSML을 통해 가능한 여러 발음을 구분하기 위해 캐릭터에 피닌을 추가하는 것이 가능하지만, 이것이 항상 효과가 있는 것은 아니다.

네오스피치

NeoSpeech 음성 합성을 위한 온라인 인터랙티브 데모가 있는데,[6] 한자를 받아 들이고, 그들의 독점적인 "VTML" 마크업으로 동봉하면 핀인(pinyin)도 받는다.[7]

매코스

맥 OS는 중국어 음성 합성기를 버전 9까지 사용할 수 있게 했다. 이것은 10.0년에 제거되었다가 10.7년(라이온)에 복권되었다.[8]

과거 말뭉치 기반 신디사이저(더 이상 사용할 수 없음)

말뭉치에 기반한 접근법은 중국 소닉에 있는 칭화대학교에 의해 취해져 하얼빈 방언 음성 데이터가 800메가바이트가 소요되었다. 이것은 다운로드로 제공될 계획이었지만 링크는 활성화되지 않았다. 오늘날, 그것에 대한 언급은 오직 인터넷 아카이브에서만 찾을 수 있다.[9]

1997년 온라인에서 시연되었으나 이후 제거된 Bell Labs의 접근방식은 모노그래프 "다국어 텍스트와 음성 간 합성: 벨 연구소의 접근법 (1997년 10월 31일 스프링어, Springer, 1997년 10월 31일, ISBN978-0-7923-8027-6)와 이 프로젝트를 담당했던 전 직원 칠린시(이후 일리노이 대학에서 근무한)는 자신의 웹사이트에 자신의 방식에 대해 메모를 남겼다.[10]

참조

  1. ^ "Giving a voice to more languages on Google Translate".
  2. ^ "Listen to us now!".
  3. ^ "Yuet, the tiny Cantonese TTS engine, Cantonese speech synthesis engine for offline embedded system".
  4. ^ "Chinese mistakes in commercial speech synthesizers".
  5. ^ http://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf
  6. ^ http://www.neospeech.com/
  7. ^ 예를 들어, https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf의 7페이지와 25-27페이지를 참조하십시오.
  8. ^ 음성 팩은 시스템 기본 설정, 음성 설정, 텍스트 음성, 시스템 음성, 사용자 지정에서 선택하면 필요에 따라 자동으로 다운로드된다. 이 시스템에는 세 명의 중국 여성 목소리가 있다. 중국 본토, 홍콩, 대만에 각각 하나씩.
  9. ^ "Archived copy". hcsi.cs.tsinghua.edu.cn. Archived from the original on 13 August 2004. Retrieved 12 January 2022.CS1 maint: 제목으로 보관된 복사본(링크)
  10. ^ 홈 페이지: 칠린시 (인터넷 아카이브 링크)