WaveNet(WaveNet)
WaveNet시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
WaveNet은 원시 오디오를 생성하기 위한 심층 신경 네트워크입니다.그것은 런던에 본사를 둔 AI 회사인 딥마인드의 연구원들에 의해 만들어졌다.2016년 [1]9월 논문에 개략적으로 설명된 이 기술은 실제 음성 녹음을 통해 훈련된 뉴럴 네트워크 방법을 사용하여 파형을 직접 모델링함으로써 비교적 사실적으로 들리는 인간과 같은 목소리를 생성할 수 있다.보도에 따르면, 미국 영어와 중국어를 사용한 테스트 결과, 이 시스템은 구글의 현존하는 최고의 TTS(Text-to-Speech) 시스템을 능가하는 것으로 나타났지만, 2016년 현재 텍스트-to-speech 통합은 여전히 실제 인간의 [2]음성보다 설득력이 떨어졌다.WaveNet의 원시 파형 생성 기능은 음악을 [3]포함한 모든 종류의 오디오를 모델링할 수 있다는 것을 의미합니다.
역사
애플의 시리, 마이크로소프트의 코타나, 아마존 알렉사, 구글 [4]어시스턴트와 같은 소프트웨어의 인기 덕분에 텍스트에서 음성을 생성하는 것이 점점 더 흔한 일이 되고 있다.
대부분의 그러한 시스템은 인식 가능한 소리와 [5]단어를 형성하기 위해 연결된 소리 조각들을 함께 포함하는 기술의 변형을 사용한다.이들 중 가장 일반적인 것은 연결형 [6]TTS라고 불립니다.그것은 하나의 스피커에서 녹음된 음성 단편들로 이루어진 큰 라이브러리로 구성되어 있으며, 그 후 완전한 단어와 소리를 만들기 위해 연결된다.그 결과는 이상한 운율과 [7]톤으로 부자연스럽게 들린다.또, 녹음된 라이브러리에 의존하고 있기 때문에,[8] 음성의 변경이나 변경이 어려워집니다.
파라메트릭 [9]TTS로 알려진 또 다른 기술은 수학적 모델을 사용하여 소리를 재생하고 그 소리를 단어와 문장으로 조립합니다.사운드를 생성하는 데 필요한 정보는 모델의 파라미터에 저장됩니다.출력 음성의 특성은 모델에 대한 입력을 통해 제어되며, 음성은 일반적으로 보코더로 알려진 음성 합성기를 사용하여 생성됩니다.이로 인해 음성이 비정상적으로 들릴 수도 있습니다.
설계 및 지속적인 연구
배경

WaveNet은 심층 컨볼루션 뉴럴 네트워크(CNN)로 알려진 피드포워드 뉴럴 네트워크의 일종입니다.WaveNet에서 CNN은 원시 신호를 입력으로 받아 출력을 한 번에 한 샘플씩 합성합니다.이는 μ-law 압축 변환을 사용하여 부호화되어 256개의 [11]가능한 값으로 양자화된 신호 값의 소프트맥스(즉, 범주형) 분포에서 샘플링함으로써 이루어집니다.
초기 개념 및 결과
2016년 9월 DeepMind 연구 논문 WaveNet: A Generative Model for [12]Raw Audio에 따르면 네트워크는 영어와 중국어로 된 실제 언어 파형을 제공받았다.이러한 신호가 네트워크를 통과할 때 오디오 파형이 시간에 따라 어떻게 진화하는지 설명하는 일련의 규칙을 학습합니다.그런 다음 훈련된 네트워크를 사용하여 초당 16,000개의 샘플로 새로운 음성 파형을 생성할 수 있습니다.이러한 파형에는 사실적인 호흡과 립 스맥이 포함되지만 어떤 [13]언어에도 부합하지 않습니다.
WaveNet은 다양한 음성을 정확하게 모델링할 수 있으며 입력의 액센트와 톤이 출력과 관련되어 있습니다.예를 들어 독일어로 훈련하면 독일어가 [14]나온다.이 기능은 WaveNet에 음악 등의 다른 입력 정보를 공급하면 출력이 음악적이 된다는 의미이기도 합니다.출시 당시 딥마인드는 웨이브넷이 클래식 음악처럼 들리는 파형을 [15]만들 수 있다는 것을 보여줬다.
콘텐츠(음성) 스와프
2018년 6월 발행된 논문 Disentangled Sequential Autoencoder에 [16]따르면, DeepMind는 오디오 및 음성 "콘텐츠 스왑"을 위해 WaveNet을 성공적으로 사용했습니다. 즉, 네트워크는 원래 녹음의 텍스트 및 기타 기능을 유지하면서 오디오 녹음의 음성을 다른 기존 음성과 교환할 수 있습니다.또, 오디오 시퀀스 데이터도 실험하고 있습니다.우리의 분리된 표현은 연설의 내용을 조절하면서 화자의 신원을 서로 변환할 수 있게 한다." (p. 5) "오디오의 경우 남성 화자를 여성 화자로 변환할 수 있고 [...] (p.1) 종이에 따르면, 기존 연설의 최소 두 자리 수 시간(c.50시간)이다.프로그램이 만족스러운 품질로 한 음성에서 다른 음성으로 변환을 수행하기 전에 각각의 기능을 학습하기 위해 소스 및 타깃 음성의 코딩을 WaveNet에 공급해야 합니다.저자들은 ""모델의 장점 중 하나는 정적 기능으로부터 동적으로 분리된다는 것입니다." (p. 8). 즉, WaveNet은 음성 텍스트와 전달 모드(변조, 속도, 피치, 분위기 등)를 구별하여 다른 한편으로 음성에서 다른 음성으로 변환하는 동안 유지할 수 있으며, 기본 기능도 갖추고 있습니다."다른 쪽과 교환할 필요가 있다는 소스 및 타깃 양쪽의 목소리입니다.
1월의 이 2019년 후속 종이Unsupervised 연설 표현 WaveNet autoencoders[17]을 사용하여 배우는 것은 법 성공적으로 정적 동적 특징 사이에"콘텐츠 교환"에 특히 위해서 mor을 만들기 위해 기존 오디오 녹음에 목소리를 바꾸는 등 적절한 자동 인식과 차별을 향상시키기 위해서 묘사하고 있다.e아무도2018년 9월호(최신 개정판 2019년 1월호)의 또 다른 후속 논문인 Sample Efficient Adaptive [18]Text-to-Speech에 따르면 DeepMind는 고품질 결과를 유지하면서 WaveNet을 통해 기존 음성을 샘플링하는 데 필요한 최소 실제 녹음량을 "단 몇 분간의 오디오 데이터"로 줄이는 데 성공했습니다.
WaveNet의 목소리를 복제하는 능력은 살아있는 사람과 죽은 사람의 목소리를 흉내내는 능력에 대한 윤리적 우려를 불러일으켰다.2016년 BBC 기사에 따르면, 유사한 음성 복제 기술(Adobe Voco 등)에 종사하는 기업들은 위조를 방지하기 위해 인간이 들을 수 없는 워터마크를 삽입할 계획이며, 예를 들어 엔터테인먼트 산업 목적의 요구를 충족시키는 음성 복제는 훨씬 더 낮은 복잡성과 다른 m을 사용한다.법의학적 증명 방법 및 전자 신분증 장치를 속이는 데 필요한 것보다 더 많은 ethods가 필요하기 때문에 엔터테인먼트 산업 목적으로 복제된 자연스러운 목소리와 목소리는 여전히 기술 [19]분석으로 쉽게 구별할 수 있다.
적용들
출시 당시 DeepMind는 WaveNet이 실제 [20]애플리케이션에서 사용하기에는 너무 많은 연산 처리 능력을 필요로 한다고 말했습니다.2017년 10월 현재, 구글은 음성 품질 향상과 함께 1,000배 성능 향상을 발표했습니다.그 후 WaveNet은 모든 Google [21]플랫폼에서 미국 영어와 일본어를 위한 Google Assistant 음성을 생성하기 위해 사용되었습니다.2017년 11월, DeepMind 연구진은 "실시간보다 20배 이상 빠른 속도로 고화질 음성 샘플을 생성하는 방법"을 상세하게 설명하는 "확률 밀도 증류"[22]라는 연구 논문을 발표했습니다.2018년 5월 연례 I/O 개발자 컨퍼런스에서 새로운 Google Assistant 음성을 사용할 수 있고 WaveNet에 의해 가능해진 것으로 발표되었으며, WaveNet은 성우 [23]샘플의 원시 오디오를 모델링하여 성우 모델을 만드는 데 필요한 오디오 녹음 수를 크게 줄였습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.
- ^ Meyer, David (2016-09-09). "Google's DeepMind Claims Massive Progress in Synthesized Speech". Fortune. Retrieved 2017-07-06.
- ^ Kahn, Jeremy (2016-09-09). "Google's DeepMind Achieves Speech-Generation Breakthrough". Bloomberg.com. Retrieved 2017-07-06.
- ^ Condliffe, Jamie (2016-09-09). "When this computer talks, you may actually want to listen". MIT Technology Review. Retrieved 2017-07-06.
- ^ Hunt, A. J.; Black, A. W. (May 1996). Unit selection in a concatenative speech synthesis system using a large speech database (PDF). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. Vol. 1. pp. 373–376. CiteSeerX 10.1.1.218.1335. doi:10.1109/ICASSP.1996.541110. ISBN 978-0-7803-3192-1. S2CID 14621185.
- ^ Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.
- ^ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Retrieved 2017-07-06.
- ^ Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). "Statistical parametric speech synthesis". Speech Communication. 51 (11): 1039–1064. CiteSeerX 10.1.1.154.9874. doi:10.1016/j.specom.2009.04.004. S2CID 3232238.
- ^ van den Oord, Aäron (2017-11-12). "High-fidelity speech synthesis with WaveNet". DeepMind. Retrieved 2022-06-05.
- ^ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Oord et al. (2016년)WaveNet: Raw Audio 생성 모델, 코넬 대학교, 2016년 9월 19일
- ^ Gershgorn, Dave (2016-09-09). "Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike". Quartz. Retrieved 2017-07-06.
- ^ Coldewey, Devin (2016-09-09). "Google's WaveNet uses neural nets to generate eerily convincing speech and music". TechCrunch. Retrieved 2017-07-06.
- ^ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (2016-09-08). "WaveNet: A Generative Model for Raw Audio". DeepMind. Retrieved 2017-07-06.
- ^ Li & Mand (2016).University Cornell University, 2018년 6월 12일, Dissanglediscandled sequential autocoder
- ^ Chorowsky et al. (2019).WaveNet 자동 인코더를 사용한 비감독 음성 표현 학습, 2019년 1월 25일, 코넬 대학교
- ^ 첸 외 (2018년)샘플 효율적인 적응형 텍스트 투 스피치, 2018년 9월 27일, 코넬 대학교.또한 본 문서의 최신 2019년 1월 개정판을 참조하십시오.
- ^ Adobe Voco 'Photoshop-for-voice'가 우려를 불러일으킴, 2016년 11월 7일, BBC
- ^ "Adobe Voco 'Photoshop-for-voice' causes concern". BBC News. 2016-11-07. Retrieved 2017-07-06.
- ^ Google Assistant에서 WaveNet 부팅
- ^ Oord 등 (2017년):Parallel WaveNet: 고속 고충실성 음성 합성, 코넬 대학교, 2017년 11월 28일
- ^ Martin, Taylor (May 9, 2018). "Try the all-new Google Assistant voices right now". CNET. Retrieved May 10, 2018.