딥 러닝 음성 합성
Deep learning speech synthesis| 시리즈의 일부 |
| 기계 학습 및 데이터 마이닝 |
|---|
딥 러닝 음성 합성은 DNN(Deep Neural Network)을 사용하여 텍스트(텍스트 대 음성) 또는 스펙트럼(보코더)에서 인공 음성을 생성한다.심층 신경망은 대량의 녹음 음성을 사용하여 훈련되며, 텍스트 투 스피치 시스템의 경우 관련 라벨 및/또는 입력 텍스트를 사용한다.
일부 DNN 기반 음성 합성기는 인간의 목소리의 자연성에 근접하고 있다.
공식화
입력 텍스트 또는 언어 Y({Y의 일부 시퀀스를 지정하면 음성X({X})는 다음과 같이 도출할 수 있습니다.
서 { 는 모델 파라미터입니다.
일반적으로 입력 텍스트는 먼저 음향 특성 발생기에 전달되고 다음으로 음향 특성이 신경 보코더에 전달됩니다.음향 피쳐 제너레이터의 경우 손실 함수는 일반적으로 L1 또는 L2 손실입니다.이러한 손실 함수는 출력 음향 특성 분포가 가우스 또는 라플라시안이어야 한다는 제약을 가합니다.실제로 인간의 음성 대역은 약 300~4000Hz 범위이므로 손실 함수는 이 범위에서 더 많은 패널티가 발생하도록 설계됩니다.
서 human (\loss은 인간의 음성 대역에 의한 이고α(\는 일반적으로 0.5 정도의 스칼라입니다.음향 기능은 일반적으로 스펙트로그램 또는 Mel 스케일의 스펙트로그램입니다.이러한 기능은 음성 신호의 시간 주파수 관계를 캡처하므로 이러한 음향 기능을 사용하여 지능형 출력을 생성하기에 충분합니다.음성 인식 태스크에 사용되는 멜 주파수 캡스트럼 기능은 너무 많은 정보를 감소시키기 때문에 음성 합성에 적합하지 않습니다.
간단한 이력
2016년 9월 DeepMind는 딥 러닝 기반 모델이 원시 파형을 모델링하고 스펙트로그램이나 멜 스펙트로그램과 같은 음향 기능에서 음성을 생성할 수 있음을 입증하는 원시 오디오 파형의 딥 생성 모델인 WaveNet을 제안했습니다.WaveNet은 처음에는 계산 비용이 너무 많이 들고 소비자 제품에서 사용하기에는 느린 것으로 여겨졌지만, 출시 1년 후 DeepMind는 오리지널보다 1,000 [1]빠른 생산 모델인 "Parallel WaveNet"으로 알려진 WaveNet의 수정 버전을 공개했다.
2017년 초, Mila는 엔드 투 엔드 방식으로 원시 파형을 생성하는 모델인 char2wav를 제안했다.같은 해 구글과 페이스북은 각각 입력 텍스트에서 직접 음향 기능을 생성하기 위해 Tacotron과 VoiceLoop을 제안했고, 몇 달 후 Google은 Tacotron2를 제안했는데, Tacotron2는 WaveNet 보코더를 수정된 Tacotron 아키텍처와 결합하여 엔드 투 엔드 음성 합성을 수행하였다.Tacotron2는 사람의 목소리에 근접하는 고품질의 음성을 발생시킬 수 있다.그 이후로, 엔드 투 엔드 방법은 전 세계의 많은 연구자들이 엔드 투 엔드 음성 합성기의 힘을 [2][3]깨닫기 시작했기 때문에 가장 뜨거운 연구 주제가 되었다.
준지도 학습
현재, 자기 지도 학습은 라벨이 부착되지 않은 데이터의 더 나은 사용을 통해 많은 관심을 받고 있다.연구에[4][5] 따르면 자가 관리 손실의 도움으로 쌍으로 구성된 데이터의 필요성이 감소하는 것으로 나타났습니다.
제로샷 스피커 어댑테이션
단일 모델이 다양한 스피커 스타일과 특성을 가진 음성을 낼 수 있어 제로샷 스피커 적응이 유망하다.2018년 6월, 구글은 스피커 [6]임베딩을 추출하기 위한 스피커 인코더로 사전 교육을 받은 스피커 검증 모델을 사용할 것을 제안했다.스피커 인코더는 출력 음성의 스타일과 특성을 결정할 수 있도록 신경 텍스트 투 스피치 모델의 일부가 됩니다.이 절차에서는 단일 모델만 사용하여 여러 스타일의 음성을 생성할 수 있음을 커뮤니티에 보여 줍니다.
뉴럴 보코더
딥 러닝 기반 음성 합성에서 신경 보코더는 음향 특성에서 고품질 음성을 생성하는 데 중요한 역할을 한다.2016년에 제안된 WaveNet 모델은 음성 품질에서 우수한 성능을 달성합니다.Wavenet은 의 결합 확률을 과 같이 조건부 확률의 곱으로 인수분해했습니다. { 1,. , T { } = \ {_ {1} _ {T \ }
서 { 는 다수의 확장 컨볼루션 층을 포함하는 모델 파라미터입니다.따라서 각 tt})는 이전의 모든 시간 단계에서 샘플에 따라 조정됩니다.그러나 WaveNet의 자동 퇴행적 특성으로 인해 추론 프로세스가 크게 느려집니다.이 문제를 해결하기 위해 Parallel[7] WaveNet이 제안되었습니다.Parallel WaveNet은 사전 교육을 받은 교사 WaveNet 모델을 사용하여 지식 증류를 통해 훈련되는 역 자기 회귀 흐름 기반 모델입니다.이러한 역자기회귀 흐름 기반 모델은 추론을 수행할 때 비자동회귀적이므로, 추론 속도는 실시간보다 빠르다.한편, 엔비디아는 실시간보다 빠른 스피치를 생성할 수 있는 흐름 기반의[8] WaveGlow 모델을 제안했다.그러나 병렬 WaveNet은 높은 추론 속도에도 불구하고 사전 훈련된 WaveNet 모델을 필요로 하는 한계가 있으므로 WaveGlow가 제한된 컴퓨팅 장치와 수렴하는 데 몇 주가 걸립니다.이 문제는 다중 분해능 스펙트럼 손실 및 GAN 학습 전략을 통해 음성을 생성하는 방법을 배우는 병렬 파형 [9]GAN에 의해 해결되었다.
레퍼런스
- ^ a b van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.
- ^ Hsu, Wei-Ning (2018). "Hierarchical Generative Modeling for Controllable Speech Synthesis". arXiv:1810.07217 [cs.CL].
- ^ Habib, Raza (2019). "Semi-Supervised Generative Modeling for Controllable Speech Synthesis". arXiv:1910.01709 [cs.CL].
- ^ Chung, Yu-An (2018). "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis". arXiv:1808.10128 [cs.CL].
- ^ Ren, Yi (2019). "Almost Unsupervised Text to Speech and Automatic Speech Recognition". arXiv:1905.06791 [cs.CL].
- ^ Jia, Ye (2018). "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis". arXiv:1806.04558 [cs.CL].
- ^ van den Oord, Aaron (2018). "Parallel WaveNet: Fast High-Fidelity Speech Synthesis". arXiv:1711.10433 [cs.CL].
- ^ Prenger, Ryan (2018). "WaveGlow: A Flow-based Generative Network for Speech Synthesis". arXiv:1811.00002 [cs.SD].
- ^ Yamamoto, Ryuichi (2019). "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram". arXiv:1910.11480 [eess.AS].
