음성 합성

Speech synthesis

음성 합성은 인간의 언어의 인위적인 생산이다.이를 위해 사용되는 컴퓨터 시스템을 스피치 컴퓨터스피치 신디사이저라고 하며, 소프트웨어하드웨어 제품에서도 구현할 수 있다.TTS(Text-to-Speech) 시스템은 정상 언어 텍스트를 언어로 변환한다. 다른 시스템은 음성 기록과 같은 상징적인 언어 표현을 언어로 변환한다.[1]그 반대의 과정은 음성 인식이다.

합성 음성은 데이터베이스에 저장되어 있는 녹음된 음성의 조각을 연결함으로써 생성될 수 있다.시스템은 저장된 음성 유닛의 크기에 따라 다르다; 전화기디프혼을 저장하는 시스템은 가장 큰 출력 범위를 제공하지만 명확성이 결여될 수 있다.특정 사용영역의 경우 전체 단어나 문장을 저장하면 고품질 출력이 가능하다.또는, 신디사이저는 완전히 "합성"된 음성 출력을 생성하기 위해 보컬 트랙의 모델과 기타 인간의 음성 특성을 통합할 수 있다.[2]

스피치 신디사이저의 품질은 인간의 목소리와 유사하며 명확하게 이해할 수 있는 능력에 의해 판단된다.인식 가능한 텍스트 음성 변환 프로그램은 시각 장애독서 장애가 있는 사람들이 집 컴퓨터로 쓰여진 단어를 들을 수 있게 해준다.많은 컴퓨터 운영체제는 1990년대 초부터 음성 신디사이저를 포함하고 있다.

일반적인 TTS 시스템 개요

문자 대 음성 시스템(또는 "엔진")은 프런트 엔드(front-end)와 백엔드([3]back-end)의 두 부분으로 구성되어 있다.프런트엔드는 크게 두 가지 과제가 있다.첫째, 숫자나 약어와 같은 기호가 포함된 원문을 문자로 변환한다.이 과정을 흔히 텍스트 표준화, 전처리 또는 토큰화라고 부른다.그리고 나서 앞끝은 각 단어에 음성대본을 할당하고, 본문을 구절, , 문장운문 단위로 나누어 표시한다.단어에 음성대본을 할당하는 과정을 문자 대 포네임(text-to-phoneme) 또는 그래핀 대 포네임(grapheme-to-phoneme) 변환이라고 한다.음성 필사본과 프루소디 정보가 함께 전단에 의해 출력되는 상징적인 언어 표현을 구성한다.백엔드(흔히 신디사이저라고도 함)는 상징적인 언어 표현을 소리로 변환한다.특정 시스템에서 이 파트는 목표 프로소디(피치 등고선, 음소 지속 시간)[4]의 계산을 포함하며, 그 다음 출력 스피치에 부과된다.

역사

전자 신호 처리가 발명되기 훨씬 전에, 어떤 사람들은 인간의 말을 모방하기 위해 기계를 만들려고 했다."브라젠 헤드"의 존재에 대한 초기 전설에는 교황 실베스터 2세 (d. 1003 AD), 알베르투스 마그누스 (1198–1280), 로저 베이컨 (1214–1294)이 포함되어 있었다.

1779년 독일-덴마크 과학자 크리스티안 고틀립 크라첸슈타인은 5개의 긴 모음 음을 낼 수 있는 인간 발성(국제음문자 표기법: [aː], [eː], [iː], [oː], [uː])[5]로 만든 모델을 러시아 제국과학예술원이 발표한 대회에서 1등을 차지했다.1791년 헝가리 프레스부르크의 볼프강 폰 켐펠렌의 벨로우즈 작동 "음향 기계식 연설 기계"가 그 뒤를 이었다.[6]이 기계는 혀와 입술 모형을 추가하여 모음뿐만 아니라 자음도 만들 수 있다.1837년 찰스 휘트스톤은 폰 켐펠렌의 디자인을 바탕으로 한 '말하는 기계'를 제작하였고, 1846년 조셉 파버가 '유포니아'를 전시하였다.1923년에 파게트는 휘트스톤의 디자인을 부활시켰다.[7]

1930년대에 Bell Labs는 음성을 기본 음색과 공명으로 자동 분석하는 보컬을 개발했다.호머 더들리는 보컬 작업을 통해 1939년 뉴욕 세계 박람회에 출품한 더 보더(보이스 시승자)라는 키보드 작동식 음성 합성기를 개발했다.

프랭클린 S 박사 Haskins 연구소Cooper와 그의 동료들은 1940년대 후반에 Pattern 재생을 만들었고 1950년에 그것을 완성했다.이 하드웨어 장치에는 몇 가지 다른 버전이 있었다; 현재 살아남은 것은 오직 한 가지뿐이다.그 기계는 분광기 형태의 언어의 음향 패턴을 다시 소리로 변환한다.앨빈 리버먼과 동료들은 이 장치를 사용하여 음성 부분(음성과 모음)의 지각에 대한 음향 신호를 발견했다.

전자기기

1999년 스티븐 호킹이 사용한 컴퓨터 및 음성 합성기 하우징

최초의 컴퓨터 기반 음성 합성 시스템은 1950년대 후반에 시작되었다.노리코 우메다 외 연구소는 1968년 일본의 전기 기술 연구소에서 처음으로 일반 영어 텍스트 음성 변환 시스템을 개발했다.[8]1961년 물리학자인 존 래리 켈리 주니어와 그의 동료 루이스 게스트먼은[9] IBM 704 컴퓨터를 사용하여 Bell Labs 역사상 가장 두드러진 사건 중 하나인 스피치를 합성했다.[citation needed]켈리의 녹음기 신디사이저(보코더)는 맥스 매튜스의 음악 반주로 노래 '데이시 벨'을 재현했다.공교롭게도 아서 C. 클라크는 벨 연구소 머레이 힐 시설에 있는 그의 친구이자 동료인 존 피어스를 방문하고 있었다.클라크는 이 시연에 감명을 받아 2001년 소설 '우주 오디세이'의 각본의 기후 장면에서 이 장면을 사용했는데,[10] 이 장면에서는 HAL 9000 컴퓨터가 우주비행사 데이브 보우먼이 잠들게 하는 것과 같은 노래를 부른다.[11]순수하게 전자적인 음성 합성의 성공에도 불구하고, 기계적인 음성-합성자에 대한 연구는 계속되고 있다.[12][third-party source needed]

음성 코딩의 한 형태인 선형 예측 코딩(LPC)은 1966년 나고야 대학의 이타쿠라 후미타다와 닛폰 텔레그래프·전화(NTT)의 사이토 슈조의 작품으로 개발을 시작했다.LPC 기술의 추가 발전은 Bishnu S에 의해 이루어졌다. 아탈맨프레드 R. 1970년대 벨 연구소슈뢰더.[13]LPC는 이후 1978년부터 스피크 스펠 장난감에 사용된 텍사스 인스트루먼트 LPC 스피치 칩과 같은 초기 음성 합성기 칩의 기초가 되었다.

1975년, 이타쿠라 후미타다는 NTT동서에 있는 동안 고압 음성 부호화를 위한 LSP(Line Spectrum Pair) 방식을 개발했다.[14][15][16]1975년부터 1981년까지 이타쿠라는 LSP 방법에 근거한 음성 분석과 합성의 문제를 연구했다.[16]1980년 그의 팀은 LSP 기반의 음성 합성기 칩을 개발했다.LSP는 음성 합성 및 코딩에 중요한 기술로, 1990년대에는 거의 모든 국제 음성 코딩 표준이 필수 요소로 채택되어 모바일 채널과 인터넷을 통한 디지털 음성 통신의 향상에 기여하였다.[15]

1975년에 MUSA가 출시되었고, 최초의 음성 합성 시스템 중 하나이다.독립형 컴퓨터 하드웨어와 이탈리아어를 읽을 수 있는 전문 소프트웨어로 구성되었다.1978년에 발매된 두 번째 버전도 "아펠라" 스타일로 이탈리아어를 부를 수 있었다.

Perfect Paul과 Uppity Ursula 음성을 사용한 DECtalk 데모 녹음

1980년대와 1990년대의 지배적 시스템은 주로 MIT의 데니스 클라트의 작업에 기반을 둔 DECtalk 시스템과 Bell Labs 시스템이었다.[17] 후자는 자연 언어 처리 방법을 광범위하게 사용한 최초의 다국어 독립 시스템 중 하나이다.

DNC(Differentiable Neural Computer).png
최초의 말하는 체스 컴퓨터인 피델리티 보이스 체스 챌린저(1979년)
피델리티 보이스 체스 챌린저의 음성 출력

음성 합성을 특징으로 하는 휴대용 전자기기가 1970년대에 등장하기 시작했다.그 중 하나는 1976년 시각장애인을 위한 TSI(Telesensory Systems Inc. TSI) Speech+ 휴대용 계산기였다.[18][19]1978년 텍사스 인스트루먼트사가 제작한 스피크 스펠 장난감과 같은 다른 장치들은 주로 교육적인 목적을 가지고 있었다.[20]피델리티는 1979년에 전자 체스 컴퓨터의 말하기 버전을 발표했다.[21]음성 합성을 특징으로 한 최초의 비디오 게임1980년 촬영된 아케이드 게임인 썬 일렉트로닉스스트라토복스(일본에서는 Speak & Rescue로 알려져 있다)이다.[22][23]음성 합성이 있는 최초의 개인용 컴퓨터 게임은 1980년 PET 2001을 위해 출시된 만비키 쇼우조(숍리프팅 걸)로, 게임의 개발자인 스즈키 히로시가 합성 음성 파형을 만들기 위해 "제로 크로스" 프로그래밍 기법을 개발했다.[24]또 다른 초기 사례인 Berzerk의 오락실 버전도 1980년부터 시작되었다.밀턴 브래들리 컴퍼니는 같은 해 음성 합성 밀턴을 이용한 멀티플레이어 전자게임을 최초로 제작했다.

초기의 전자 음성-합성기는 로봇처럼 들렸으며 종종 겨우 이해할 수 있었다.합성언어의 품질은 꾸준히 향상되었지만, 2016년 현재 현대 음성 합성 시스템으로부터의 산출물은 실제 인간의 언어와 명확하게 구별할 수 있다.

합성된 목소리는 AT&T 연구소의 앤 시럴이 여성 목소리를 만들 때인 1990년까지 일반적으로 남성처럼 들렸다.[25]

쿠르즈웨일은 2005년 비용 대비 성능으로 음성 합성기가 저렴해지고 접근성이 높아짐에 따라 문자 대 음성 프로그램의 사용으로 더 많은 사람들이 혜택을 볼 것으로 전망했다.[26]

신디사이저 기술

음성 합성 시스템의 가장 중요한 특성은 자연성지능이다.[27]자연스러움은 출력이 인간의 언어와 얼마나 가깝게 들리는가를 묘사하는 반면, 지능성은 출력이 이해되는 용이성이다.이상적인 스피치 신디사이저는 자연스러우면서도 알 수 있다.음성 합성 시스템은 보통 두 가지 특성을 최대화하려고 한다.

합성 음성 파형을 생성하는 두 가지 주요 기술은 결합합성조형합성이다.각 기술은 장단점을 가지고 있으며, 합성 시스템의 의도된 사용은 일반적으로 어떤 접근법을 사용하는지 결정할 것이다.

결합합성

결합합성은 녹음된 음성 부분의 결합(함께 끈을 묶는 것)에 기초한다.일반적으로 결합합성은 가장 자연적으로 들리는 합성언어를 생산한다.단, 음성의 자연적 변화와 파형을 분할하는 자동화된 기법의 특성 간의 차이는 때때로 출력에 청각적 결함을 야기한다.연결 합성에는 세 가지 주요 하위 유형이 있다.

단위선택합성

단위 선택 종합은 녹음된 음성의 큰 데이터베이스를 사용한다.데이터베이스를 작성하는 동안 기록된 각 발음은 개별 전화, 디폰, 하프폰, 음절, 형태소, 단어, 구문, 문장 등 일부 또는 전체로 분할된다.일반적으로 세그먼트로 분할은 "강제 정렬" 모드로 설정된 특별하게 수정된 음성 인식기를 사용하여 수행되며, 이후 일부 수동 보정은 파형스펙트로그램과 같은 시각적 표현을 사용한다.[28]음성 데이터베이스에서 단위의 색인기본 주파수(피치), 지속시간, 음절에서의 위치 및 인접 전화와 같은 분할 및 음향 매개변수에 기초하여 작성된다.런타임에 데이터베이스(단위 선택)에서 후보 단위의 최적 사슬을 결정하여 원하는 목표 발음이 생성된다.이 프로세스는 일반적으로 특별히 가중치가 부여된 의사결정 트리를 사용해 달성된다.

유닛 선택은 녹음된 스피치에 소량의 디지털 신호 처리(DSP)만 적용하기 때문에 가장 자연스러움을 제공한다.DSP는 일부 시스템이 파형을 부드럽게 하기 위해 연결 지점에서 소량의 신호 처리를 사용하지만 녹음된 음성을 자연스럽지 않게 만드는 경우가 많다.가장 좋은 단위 선택 시스템의 출력은 종종 실제 인간의 음성과 구별할 수 없으며, 특히 TTS 시스템이 조정된 맥락에서 그러하다.그러나 최대 자연성은 일반적으로 단위 선택 음성 데이터베이스가 매우 커야 하며, 기록된 데이터의 기가바이트에 이르는 일부 시스템에서는 수십 시간의 음성을 나타낸다.[29]또한 단위 선택 알고리즘은 데이터베이스에 더 나은 선택이 존재하더라도 이상적인 합성(예: 사소한 단어가 불명확해지는 등) 이하의 결과를 초래하는 장소에서 세그먼트를 선택하는 것으로 알려져 있다.[30]최근, 연구원들은 단위 선택 음성 합성 시스템에서 부자연스러운 부분을 감지하기 위한 다양한 자동화된 방법을 제안했다.[31]

디프혼합성

디폰 합성은 한 언어로 발생하는 모든 디폰(소리 대 소리 전환)을 포함하는 최소 음성 데이터베이스를 사용한다.디포톤의 수는 언어의 음운역학에 따라 달라진다. 예를 들어, 스페인어는 약 800개의 디포톤을 가지고 있고, 독일어는 약 2500개의 디포톤을 들 수 있다.diphone 합성에서는 각 diphone의 한 예만 음성 데이터베이스에 수록된다.런타임에 문장의 표적 프로소디는 선형 예측 코드, PSOLA[32] 또는 MBROLA와 같은 디지털 신호 처리 기법 또는 이산 코사인 변환을 사용한 소스 영역의 피치 수정과 같은 최신 기법에 의해 이 최소 단위들에 중첩된다.[33][34]디프혼 합성은 결합합성의 음속 결함과 거푸집 합성의 로봇 소리 성질에 시달리며, 작은 크기 외에는 어느 한쪽 접근의 장점도 거의 없다.이와 같이, 자유롭게 이용할 수 있는 소프트웨어 구현이 많아 연구에 계속 이용되고 있지만,[citation needed] 상용 애플리케이션에서의 이용은 감소하고 있다.Diphone 합성의 초기 예는 Michael J. Freeman에 의해 발명된 교육용 로봇 Leachim이다.[35]Leachim은 수업 커리큘럼에 관한 정보와 그것이 가르치도록 프로그램된 학생들에 대한 특정한 전기적 정보를 포함하고 있었다.[36]그것은 뉴욕 브롱크스의 4학년 교실에서 테스트되었다.[37][38]

도메인별 합성

도메인별 합성은 사전 녹음된 단어와 구문을 결합하여 완전한 발음을 만든다.이는 시스템이 출력할 다양한 텍스트가 전송 일정 발표나 기상 보고서와 같이 특정 영역으로 제한되는 애플리케이션에서 사용된다.[39]이 기술은 구현이 매우 간단하며, 말하는 시계나 계산기와 같은 장치에서 오랫동안 상업적으로 사용되어 왔다.이러한 시스템의 자연스러움 수준은 문장 유형의 다양성이 제한되어 있고, 원본 녹음의 운율과 억양과 밀접하게 일치하기 때문에 매우 높을 수 있다.[citation needed]

이러한 시스템은 데이터베이스의 단어와 구에 의해 제한되기 때문에 범용적이지 않으며 사전 프로그래밍된 단어와 구문의 조합만 합성할 수 있다.그러나 자연적으로 사용되는 언어 내에서 단어들의 혼합은 많은 변화를 고려하지 않는 한 여전히 문제를 일으킬 수 있다.예를 들어 영어의 비호질 방언에서 "clear" / /klɪə/와 같은 단어의 "r"은 보통 다음 단어의 첫 글자로 모음(예: "clear out"/klklɹˈˈˈʌtt//로 실현)이 있을 때만 발음된다.프랑스어처럼 많은 최종 자음도 모음으로 시작하는 단어가 뒤따르면 더 이상 침묵하지 않게 되는데, 는 연락이라는 효과다.대체는 문맥에 민감한 추가적인 복잡성을 필요로 하는 단순한 단어 조합 시스템으로는 재현할 수 없다.

거문합성

공식 합성은 런타임에 인간의 음성 샘플을 사용하지 않는다.대신 합성 음성 출력은 가법 합성 및 음향 모델(물리적 모델링 합성)을 사용하여 생성된다.[40]기본 주파수, 음성, 노이즈 수준과 같은 파라미터는 시간이 지남에 따라 달라져 인공 음성의 파형을 만든다.이 방법을 규칙 기반 합성이라고도 하지만, 많은 결합 시스템도 규칙 기반 구성요소를 가지고 있다.조형 합성 기술에 기반한 많은 시스템들은 인간의 언어와 결코 오인되지 않을 인공적이고 로봇처럼 들리는 언어를 만들어 낸다.그러나, 최대 자연성이 항상 음성 합성 시스템의 목표는 아니며, 조형 합성 시스템은 결합 시스템보다 장점을 가지고 있다.포만트 합성 음성은 매우 빠른 속도에서도 신뢰할 수 있게 이해할 수 있으며, 일반적으로 결합 시스템을 괴롭히는 음향 결함을 피할 수 있다.초고속 합성언어는 시각장애인이 화면 판독기를 이용해 컴퓨터를 빠르게 탐색하는 데 사용한다.포뮬러 신디사이저는 음성 샘플의 데이터베이스가 없기 때문에 보통 결합 시스템보다 작은 프로그램이다.따라서 그것들은 메모리와 마이크로프로세서 전력이 특히 제한된 임베디드 시스템에서 사용될 수 있다.공식 기반 시스템은 출력 스피치의 모든 측면을 완벽하게 제어하기 때문에 다양한 프로소디와 억양이 출력되어 질문과 진술뿐만 아니라 다양한 감정과 음색을 전달할 수 있다.

조형 합성에서의 비실시간 그러나 매우 정확한 억양 제어의 예로는 1970년대 후반 텍사스 인스트루먼트 장난감 스피크 스펠과 1980년대 초 세가 아케이드 기계와[41] TMS5220 LPC 칩을 사용한 많은 아타리 아케이드 게임에서[42] 수행된 작업을 포함한다.이러한 프로젝트에 대한 적절한 억양을 만드는 것은 힘든 일이었고, 그 결과는 실시간 텍스트와 음성 간 인터페이스로 아직 비교가 되지 않았다.[43]

관절합성

발성합성은 인간의 발성체 모델과 발성체에서 발생하는 발성과정을 바탕으로 발성을 합성하기 위한 연산 기법을 말한다.실험실 실험에 정기적으로 사용되는 최초의 관절형 신시사이저는 1970년대 중반 Haskins Laboratory에서 필립 루빈, 톰 배어, 폴 머멜슈타인에 의해 개발되었다.AUSE로 알려진 이 신시사이저는 폴 머멜슈타인, 세실 코커, 그리고 동료들에 의해 1960년대와 1970년대에 벨 연구소에서 개발된 발성기 모델들을 바탕으로 만들어졌다.

최근까지, 발성 합성 모델은 상용 음성 합성 시스템에 통합되지 않았다.주목할 만한 예외는 원래 NeXT 기반 시스템이 개발되어 시판되고 있는 것으로 칼가리 대학의 스핀오프 회사인 트릴리움 사운드 리서치에 의해 초기 연구의 상당 부분이 행해진 것이다.NeXT(Steve Jobs가 1980년대 후반 시작, 1997년 애플 컴퓨터와 합병)의 다양한 화살이 소멸된 후, GNU General Public License에 따라 트릴리움 소프트웨어가 출판되었고, 그누스페치(gnuspeech)로서 작업이 계속되었다.1994년에 처음 출시된 이 시스템은 Carré의 "distintive region model"에 의해 제어되는 인간의 구강 및 비강 트렉션의 도파관이나 전송선 아날로그를 이용한 완전한 발현 기반 텍스트-음성 변환을 제공한다.

호르헤 C에 의해 개발된 보다 최근의 신디사이저.루케로와 동료들은 브론키, 트라키아, 비강 및 구강 캐비티에서 성악 폴드 생물역학, 글로탈 공기역학 및 음향파 전파 모델을 통합하여 물리 기반 음성 시뮬레이션의 전체 시스템을 구성한다.[44][45]

HM 기반 합성

HM 기반 합성은 숨겨진 마르코프 모델을 기반으로 한 합성법으로, 통계 파라메트릭 합성이라고도 한다.이 시스템에서 음성의 주파수 스펙트럼(보컬트랙트), 기본 주파수(음성 소스) 및 지속시간(프로소디)은 HMM에 의해 동시에 모델링되며, 음성 파형최대우도 기준에 기초하여 HMM 자체에서 생성된다.[46]

사인파합성

사인파 합성포뮬러(에너지의 주요 밴드)를 순수한 톤 휘파람으로 대체하여 음성을 합성하는 기법이다.[47]

딥러닝 기반 합성

딥러닝 스피치 합성심층신경망(DNN)을 이용해 텍스트(텍스트 대 스피치)나 스펙트럼(보코더)에서 인공 스피치를 만들어낸다.심층 신경 네트워크는 다량의 녹음된 음성 및 텍스트 대 음성 시스템의 경우 관련 라벨 및/또는 입력 텍스트를 사용하여 훈련된다.

DNN 기반의 스피치 신디사이저가 인간의 목소리의 자연스러움에 접근하고 있다.이 방법의 단점의 예로는 데이터가 충분하지 않을 때 낮은 강건성, 관리 가능성 부족 및 자동 억제 모델에서의 낮은 성능 등이 있다.한계(제어성 결여 등)의 일부는 향후 연구에 의해 해결할 수 있다.

과제들

텍스트 표준화 문제

텍스트 정상화 과정은 좀처럼 간단하지 않다.텍스트는 모두 발음표현으로 확장해야 하는 이질, 숫자, 약어로 가득 차 있다.영어에는 문맥에 따라 다르게 발음되는 철자가 많다.예를 들어, "나의 최근 프로젝트는 내 목소리를 더 잘 투영하는 방법을 배우는 것이다"는 "프로젝트"의 두 가지 발음을 포함하고 있다.

대부분의 TTS(Text-to-Speech) 시스템은 입력 텍스트의 의미적 표현을 생성하지 않는다. 입력 텍스트의 프로세스는 신뢰할 수 없고, 제대로 이해되지 않으며, 계산적으로 효과적이지 않기 때문이다.그 결과, 다양한 휴리스틱 기법들이 이웃 단어들을 조사하고 발생 빈도에 대한 통계를 사용하는 것과 같이, 동음이의어들을 분석하는 적절한 방법을 추측하기 위해 사용된다.

최근 TTS 시스템은 HMM(위에서 설명)을 사용하여 "언어의 일부"를 생성하여 호모그래프를 혼란스럽게 하는 데 도움을 주기 시작했다.이 기법은 "읽기"를 과거 시제를 의미하는 "빨간색"으로 발음해야 하는지 또는 현재 시제를 의미하는 "자유"로 발음해야 하는지와 같은 많은 경우에서 꽤 성공적이다.이러한 방식으로 HMM을 사용할 때의 일반적인 오류율은 대개 5% 미만이다.이러한 기술은 대부분의 유럽 언어에서도 잘 작동하지만 필수 훈련 기업에 대한 접근은 종종 어렵다.

숫자 변환 방법을 결정하는 것은 TTS 시스템이 다루어야 하는 또 다른 문제다.'1325'가 '천삼백오십오'가 되는 것처럼 숫자를 (적어도 영어로) 단어로 바꾸는 것은 간단한 프로그래밍 난제다.그러나, 숫자는 많은 다른 맥락에서 발생한다; "1325"는 또한 "132.5", "1425" 또는 "1400과 25"로 읽힐 수 있다.TTS 시스템은 종종 주변의 단어, 숫자, 구두점을 기반으로 숫자를 확장하는 방법을 유추할 수 있으며, 때때로 시스템이 모호한 경우 문맥을 구체화하는 방법을 제공한다.[48]로마 숫자도 문맥에 따라 다르게 읽을 수 있다.예를 들어, "헨리 8세"는 "8장"으로, "8장"은 "8장"으로 읽는다.

마찬가지로 약어도 모호할 수 있다.예를 들어, "inches"의 약어 "in"은 "in"과 구별되어야 하며, "12 St John St"는 "Saint"와 "Street" 양쪽 모두에 동일한 약어를 사용한다.지능적인 프론트 엔드를 가진 TTS 시스템은 모호한 약어에 대해 교육받은 추측을 할 수 있는 반면, 다른 시스템들은 모든 경우에 동일한 결과를 제공하는 반면, "Ulysses S. Grant"가 "Ulysses S. Grant"로 렌더링되는 것과 같은 불합리한(그리고 때로는 코믹한) 산출물을 초래한다.

문자 메시지 간 문제

음성 합성 시스템은 두 가지 기본적인 접근법을 사용하여 철자를 기준으로 단어의 발음을 결정하는데, 이 과정을 흔히 텍스트 대 포네임 또는 그래핀 대 포네임 변환이라고 부른다(phoneme은 언어학자들언어에서 독특한 소리를 설명하기 위해 사용하는 용어다).텍스트 대 포네임 변환에 대한 가장 간단한 접근법은 사전 기반 접근법인데, 여기에는 언어의 모든 단어와 정확한 발음이 수록된 큰 사전이 프로그램에 의해 저장되어 있다.각 단어의 정확한 발음을 결정하는 것은 사전의 각 단어를 찾아보고 사전에 명시된 발음으로 철자를 대체하는 일이다.다른 접근법은 규칙 기반인데, 단어에 발음 규칙을 적용하여 철자에 따라 발음을 결정한다.이것은 독서를 배우는 "소리나는 소리" 즉, 합성 음운학자들이 접근하는 것과 비슷하다.

각각의 접근방식은 장점과 단점이 있다.사전 기반 접근법은 빠르고 정확하지만 사전에 없는 단어가 주어지면 완전히 실패한다.사전 크기가 커짐에 따라 합성 시스템의 메모리 공간 요구 사항도 커진다.반면에 규칙 기반 접근법은 어떤 입력에도 효과가 있지만, 시스템이 불규칙한 철자나 발음을 고려함에 따라 규칙의 복잡성은 실질적으로 증가한다. ("of"라는 단어는 영어에서 매우 흔하지만, 문자 "f"가 [v]로 발음되는 유일한 단어임을 고려하라.)결과적으로 거의 모든 음성 합성 시스템은 이러한 접근법의 조합을 사용한다.

음소성 맞춤법을 사용하는 언어는 매우 규칙적인 문자 체계를 가지고 있으며, 철자를 바탕으로 한 단어의 발음을 예측하는 것은 상당히 성공적이다.그러한 언어에 대한 음성 합성 시스템은 종종 규칙 기반 방법을 광범위하게 사용하며, 철자법에서 발음이 분명하지 않은 외래어 이름이나 외래어 같은 몇 개 단어에만 사전을 사용한다.반면에 영어와 같은 언어의 음성 합성 시스템은 극도로 불규칙한 철자 체계를 가지고 있어 사전에 의존할 가능성이 높으며, 단지 특이한 단어나 그들의 사전에 없는 단어에 대해서만 규칙 기반의 방법을 사용하게 된다.

평가 과제

음성 합성 시스템의 일관된 평가는 보편적으로 합의된 객관적 평가 기준이 부족하기 때문에 어려울 수 있다.조직마다 다른 음성 데이터를 사용하는 경우가 많다.음성 합성 시스템의 품질은 또한 (아날로그 또는 디지털 녹음을 포함할 수 있음) 제작 기법의 품질과 음성 재생에 사용되는 시설에 따라 달라진다.그러므로 음성 합성 시스템을 평가하는 것은 종종 생산 기법과 재생 시설의 차이로 인해 손상되었다.

그러나 2005년 이후 일부 연구자들은 공통 음성 데이터 집합을 사용하여 음성 합성 시스템을 평가하기 시작했다.[49]

프로소디컬과 감성 콘텐츠

영국 포츠머스 대학교의 에이미 드라호타와 동료들의 저널 음성 통신에 실린 연구는 음성 녹음을 듣는 사람들이 화자가 웃고 있는지 아닌지를 우연한 수준 이상으로 판단할 수 있다고 보고했다.[50][51][52]합성된 음성을 보다 자연스럽게 발음할 수 있도록 정서적 함량을 나타내는 음성을 식별하는 것이 도움이 될 수 있다고 제안했다.관련 문제 중 하나는 긍정, 의문 또는 감탄 문장의 여부에 따라 문장의 피치 윤곽을 수정하는 것이다.피치 수정[53] 기술 중 하나는 소스 영역에 이산 코사인 변환(선형 예측 잔류)을 사용한다.그러한 피치 동기식 피치 수정 기법은 음성 음성 영역의 통합된 선형 예측 잔차에 적용된 동적 플로션 지수를 이용한 에폭 추출과 같은 기법을 사용하는 합성 음성 데이터베이스의 선행 피치 마크가 필요하다.[54]

전용 하드웨어

하드웨어 및 소프트웨어 시스템

음성 합성을 내장된 기능으로 제공하는 인기 있는 시스템.

마텔

Mattel Intellivision 게임 콘솔은 1982년에 Intellivisvison 음성 합성 모듈을 제공했다.탈착식 카트리지에 SP0256 내레이터 스피치 신시사이저 칩이 포함됐다.내레이터는 2kB의 읽기 전용 메모리(ROM)를 가지고 있었고, 이것은 인터엘리비전 게임에서 구문을 만들기 위해 결합될 수 있는 일반적인 단어의 데이터베이스를 저장하는 데 활용되었다.오라토르 칩은 외부 메모리의 음성 데이터도 수용할 수 있기 때문에 필요한 추가 단어나 구문은 카트리지 자체 안에 저장할 수 있었다.데이터는 단순한 디지털화된 샘플이 아닌 칩의 합성 보컬 트랙트 모델의 동작을 수정하기 위해 아날로그 필터 계수의 문자열로 구성되었다.

샘.

C64의 SAM 데모

또한 1982년에 출시된 소프트웨어 오토매틱 마우스(Software Automatic Mouth)는 최초의 상용 올소프트웨어 음성 합성 프로그램이었다.그것은 후에 매킨토크의 기초로 사용되었다.이 프로그램은 매킨토시가 아닌 애플 컴퓨터(애플 2와 리사 포함), 다양한 아타리 모델과 코모도어 64에 사용할 수 있었다.애플 버전은 카드가 없을 경우 컴퓨터의 1비트 오디오 출력(왜곡도 많이 추가)을 대신 사용할 수 있지만 DAC가 포함된 추가 하드웨어를 선호했다.아타리는 내장된 POKEY 오디오 칩을 사용했다.아타리의 음성 재생은 일반적으로 인터럽트 요청을 비활성화하고 보컬 출력 중에 ANTIC 칩을 종료했다.화면이 켜져 있을 때 가청 출력은 극도로 왜곡된 음성이다.코모도어 64는 64의 내장형 SID 오디오 칩을 사용했다.

아타리

논쟁의 여지 없이, 운영체제에 통합된 최초의 음성시스템은 1983년에 Botras SC01 칩을 사용하여 주식회사 Atari가 디자인한 1400XL/1450XL 개인용 컴퓨터였다.1400XL/1450XL 컴퓨터는 세계 영어 철자법과 음성 간 합성을 가능하게 하기 위해 유한 상태 기계를 사용했다.[56]불행하게도 1400XL/1450XL 개인용 컴퓨터는 수량이 결코 선적되지 않았다.

아타리 ST 컴퓨터는 플로피 디스크에 "stspech.to"와 함께 팔렸다.

사과

MacinTalk 1 데모
휴즈 씨와 마빈의 목소리를 담은 MacinTalk 2 데모

대량으로 출하된 운영체제에 통합한 최초의 음성시스템은 애플컴퓨터맥인토크였다.이 소프트웨어는 제3자 개발자인 조셉 캣츠와 마크 바튼(Later, SoftVoice, Inc.)으로부터 라이선스를 받았으며 1984년 매킨토시 컴퓨터의 도입 과정에서 피처링되었다.이번 1월 데모에는 512킬로바이트의 RAM 메모리가 필요했다.결과적으로, 맥이 실제로 출하한 첫 번째 RAM의 128 킬로바이트에서 실행될 수 없었다.[57]따라서, 데모는 512k Mac의 프로토타입으로 완성되었지만, 참석한 사람들은 이것에 대해 이야기하지 않았고 합성 데모는 매킨토시에게 상당한 흥분을 불러일으켰다.1990년대 초 애플은 문자 메시지 대 음성 지원을 제공하는 기능을 확장했다.더 빠른 PowerPC 기반 컴퓨터의 도입으로 그들은 더 높은 품질의 음성 샘플링을 포함했다.애플은 또한 유동 명령어 세트를 제공하는 시스템에 음성 인식을 도입했다.최근에는 애플이 샘플 기반 음성을 추가했다.애플 매킨토시의 스피치 시스템은 호기심으로 시작해 시각장애를 가진 사람들을 위해 완전히 지원되는 프로그램인 플레인토크로 진화했다.VoiceOver2005년에 처음으로 Mac OS X Tiger(10.4)에서 선보였다.10.4 (타이거)와 10.5 (Leopard)의 첫 출시 기간에는 맥 OS X를 탑재한 표준 음성 배송이 단 하나뿐이었습니다. 10.6 (Snow Leopard)부터, 사용자는 다양한 음성 목록 중에서 선택할 수 있다.VoiceOver 음성은 문장 사이에 사실적으로 들리는 입김을 취하는 것과 더불어 플레인토크를 통해 높은 읽기 속도에서 선명도를 향상시키는 것이 특징이다.맥 OS X는 또한 텍스트를 청각언어로 변환하는 명령줄 기반 응용 프로그램인 say를 포함하고 있다.AppleScript Standard Additions는 대본이 설치된 음성을 사용하고 구어 본문의 피치, 말하기 속도 및 변조를 제어할 수 있는 say 동사를 포함하고 있다.

아마존

알렉사 및 AWS에서[58] Software as a Service(2017년)로 사용됨.

아미가오스

Workbench 1.3에 포함된 Say 유틸리티를 사용한 음성 합성 예제
SoftVoice.svg

첨단 음성 합성 기능을 특징으로 하는 두 번째 운영체제는 1985년에 도입된 아미가OS였다.음성 합성은 SoftVoice, Inc.의 Commodore International에 의해 허가되었고, 그는 또한 원래의 MacinTalk 문자-to-speech 시스템을 개발했다.아미가 오디오 칩셋을 통해 가능해진 미국식 영어 음성 에뮬레이션의 완벽한 시스템을 특징으로, 남성과 여성 음성 모두와 "스트레스" 표시기가 있다.[59]합성 시스템은 제한되지 않은 영어 텍스트를 음성 코드의 표준 세트로 변환하는 번역기 라이브러리와 언어 생성의 형식적인 모델을 구현하는 내레이터 장치로 구분되었다.아미가OS는 또한 높은 수준의 "Speak Handler"를 특징으로 하여 명령줄 사용자가 텍스트 출력을 음성으로 리디렉션할 수 있도록 하였다.음성 합성은 제3자 프로그램, 특히 워드프로세서와 교육용 소프트웨어에서 종종 사용되었다.합성 소프트웨어는 최초의 아미가와는 크게 변함이 없었다.OS 릴리즈와 Commodore는 결국 AmigaOS 2.1에서 음성 합성 지원을 삭제했다.

미국의 영어 음소 제한에도 불구하고, 다국어 음성 합성을 가진 비공식 버전이 개발되었다.이것은 각 언어에 대한 일련의 규칙들을 주어진 여러 언어를 번역할 수 있는 번역기 라이브러리의 향상된 버전을 이용했다.[60]

마이크로소프트 윈도

현대의 Windows 데스크톱 시스템은 SAPI 4SAPI 5 구성 요소를 사용하여 음성 합성 및 음성 인식을 지원할 수 있다.SAPI 4.0은 Windows 95Windows 98의 옵션 추가 기능으로 제공되었다.윈도 2000은 시각 장애가 있는 사람들을 위한 텍스트 음성 변환 유틸리티인 내레이터를 추가했다.JAWS for Windows, Window-Eyes, Non-visual Desktop Access, 초신성 및 System Access와 같은 타사 프로그램은 지정된 웹 사이트에서 텍스트를 소리내어 읽는 것, 이메일 계정, 텍스트 문서, Windows 클립보드, 사용자의 키보드 타이핑 등과 같은 다양한 텍스트 음성 변환 작업을 수행할 수 있다.모든 프로그램이 음성 합성을 직접 사용할 수 있는 것은 아니다.[61]일부 프로그램은 플러그인, 확장자 또는 추가 기능을 사용하여 텍스트를 소리내어 읽을 수 있다.시스템 클립보드에서 텍스트를 읽을 수 있는 타사 프로그램을 사용할 수 있다.

마이크로소프트 스피치 서버는 음성 합성 및 인식을 위한 서버 기반 패키지다.웹 애플리케이션 및 콜 센터와 함께 네트워크 사용을 위해 설계되었다.

텍사스 인스트루먼트 TI-99/4a

내장된 어휘를 사용한 TI-99/4A 음성 데모

1980년대 초 TI는 음성 합성 분야의 선구자로 알려졌으며, TI-99/4와 4A에는 매우 인기 있는 플러그인 음성 합성기 모듈을 이용할 수 있었다.스피치 신디사이저는 다수의 카트리지 구입과 함께 무료로 제공되었고 많은 TI-write 비디오 게임에서 사용되었다(이 프로모션 기간 동안 스피치와 함께 제공되는 공지는 알피너파르섹이었다).신디사이저는 선형 예측 코딩의 변형을 사용하며 작은 내장 어휘를 가지고 있다.원래 취지는 신디사이저 유닛에 직접 꽂은 작은 카트리지를 풀어 장치의 내장 어휘를 늘리는 것이었다.그러나 터미널 에뮬레이터 II 카트리지에서 소프트웨어 텍스트 음성 변환의 성공으로 그 계획은 취소되었다.

보트락스

1971년부터 1996년까지 보트락스는 많은 상업용 음성 합성기 부품을 생산했다.1세대 쿠르즈와일 시각장애인을 위한 읽기 기계에 보트라시스 신디사이저가 포함됐다.

텍스트 음성 변환 시스템

TTS(Text-to-Speech, TTS)는 컴퓨터가 텍스트를 소리내어 읽을 수 있는 기능을 말한다.TTS 엔진은 쓰여진 텍스트를 음소 표현으로 변환한 다음 음소 표현을 소리로 출력할 수 있는 파형으로 변환한다.언어, 방언, 전문 어휘 등이 다른 TTS 엔진은 제3자 출판사를 통해 구입할 수 있다.[62]

안드로이드

안드로이드 버전 1.6은 음성 합성(TTS)을 위한 지원을 추가했다.[63]

인터넷

현재, 전자 메일 클라이언트와 웹 페이지의 메시지를 웹 브라우저구글 툴바에서 직접 읽을 수 있는 많은 응용 프로그램, 플러그인 및 가젯이 있다.어떤 전문화된 소프트웨어는 RSS-feeds를 서술할 수 있다.한편, 온라인 RSS-나레이터는 사용자가 좋아하는 뉴스 소스를 청취하고 팟캐스트로 변환할 수 있도록 함으로써 정보 전달을 단순화한다.반면에, 온라인 RSS 리더는 인터넷에 연결된 거의 모든 개인용 컴퓨터에서 사용할 수 있다.사용자는 팟캐스트 수신기의 도움을 받아 생성된 오디오 파일을 휴대용 장치에 다운로드하고, 걷거나 조깅을 하거나 출근하면서 들을 수 있다.

인터넷 기반 TTS에서 성장하고 있는 분야는 웹 기반 보조 기술이다. 예를 들어 영국 회사와 Read speaker의 'Browsealoud'가 그것이다.그것은 웹 브라우저에 대한 접근으로 누구에게나 TTS 기능(접근성, 편의성, 엔터테인먼트 또는 정보)을 제공할 수 있다.비영리 프로젝트 페디아폰은 위키피디아에 유사한 웹 기반 TTS 인터페이스를 제공하기 위해 2006년에 만들어졌다.[64]

다른 작업은 BBC와 구글이 참여한 W3C 오디오 인큐베이터 그룹을 통해 W3C의 맥락에서 이루어지고 있다.

오픈 소스

다음과 같은 일부 오픈 소스 소프트웨어 시스템을 이용할 수 있다.

다른이들

  • 하드웨어 기반의 인텔리브이스의 상업적 실패 이후, 게임 개발자들은 후기 게임에서[citation needed] 소프트웨어 합성을 거의 사용하지 않았다.아타리 5200(야구)과 아타리 2600(쿼드런·오픈 세러시) 등 아타리의 초기 시스템도 소프트웨어 합성을 활용한 게임이 있었다.[citation needed]
  • 아마존 킨들, 삼성 E6, 포켓북 eReader Pro, enTourage eDGe, Bebook Neo와 같은 일부 전자책 리더.
  • BBC Micro는 텍사스 인스트루먼트 TMS5220 음성 합성 칩을 통합했다.
  • 1979년과 1981년에 생산된 텍사스 인스트루먼트 홈 컴퓨터(Texas Instruments TI-99/4TI-99/4A)의 일부 모델은 매우 인기 있는 음성 합성기 주변장치를 사용하여 문자 대 음성 합성이나 완전한 단어와 구문(텍스트 대 설명)을 암송할 수 있었다.TI는 독점 코덱을 사용하여 응용 프로그램, 주로 비디오 게임에 완전한 구문을 포함시켰다.[69]
  • IBMOS/2 Warp 4에는 IBM ViaVoice의 선구자인 VoiceType이 포함되었다.
  • 가민, 마젤란, 톰톰 등이 제작한 GPS 네비게이션 유닛은 자동차 내비게이션에 음성 합성을 사용한다.
  • 야마하는 1999년에 Formant 합성 기능을 포함한 Yamaha FS1R 음악 합성기를 제작했다.최대 512개의 개별 모음과 자음 표현식의 시퀀스를 저장하고 재생할 수 있어 짧은 성구들을 합성할 수 있다.

디지털 사운드 알리크

2016년 Adobe Voco 오디오 편집 및 생성 소프트웨어 프로토타입이 Adobe Creative Suite에 포함될 예정이고 이와 유사하게 활성화된 DeepMind WaveNet의 도입으로, 구글 음성[70] 합성의 심층 신경 네트워크 기반 오디오 합성 소프트웨어는 실제 인간의 음성과 완전히 구별할 수 없는 것을 증명하고 있다.

어도비 보코는 원하는 대상의 연설의 약 20분이 소요되며, 그 후에는 훈련 자료에는 없던 음소까지 나와 음성과 비슷한 음성을 낼 수 있다.이 소프트웨어는 다른 사람들의 목소리를 훔치고 그들이 원하는 것을 말하도록 조작할 수 있기 때문에 윤리적 우려를 제기한다.[71]

2018년 구글의 신경정보처리시스템(NeurIPS) 콘퍼런스에서는 스피커 검증에서 문자 대 음성 합성으로 학습전달하는 '스피어 검증에서 다중 스피커 텍스트-투-스피어 합성'이라는 작품을 발표했는데, 이 작업은 스피어 검증에서 거의 다른 사람과 비슷하게 들릴 수 있다.ch 샘플은 단 5초.[72]

또한 바이두 연구소의 연구원들은 2018 뉴런에 유사한 목적을 가진 음성 복제 시스템을 제시했다.IPS 컨퍼런스는 다소 납득할 수 없는 결과가 나왔다.[73]

2019년까지 디지털 사운드 앨리크는 범죄자들의 손에 넘어갔다. 시만텍 연구원들이 디지털 사운드 앨리크 기술이 범죄에 이용된 3가지 사례를 알고 있기 때문이다.[74][75]

이것은 다음과 같은 사실과 함께 부정 상황에 대한 스트레스를 증가시킨다.

  • 2000년대 초반부터 인간의 이미지 합성은 실제 카메라로 이미징된 인간을 카메라로 시뮬레이션한 것으로부터 알 수 없는 수준을 넘어 향상되었다.
  • 기존 2D 영상에서 얼굴 표정거의 실시간 위조에 가깝게 할 수 있는 2D 영상 위변조 기법이 2016년 제시됐다.[76]
  • SIGGRAPH 2017에서 버락 오바마의 상반신을 오디오로 구동하는 디지털 외관이 워싱턴 대학의 연구원들에 의해 발표되었다.오디오가 있는 2D 비디오로 구성된 훈련 자료에서 립싱크 및 얼굴 정보를 획득하기 위한 훈련 단계가 끝난 후 음성 트랙만으로 애니메이션 출처 데이터를 구동했다.[77]

2020년 3월, 다양한 미디어 소스의 가상 인물들의 조합으로부터 고품질의 목소리를 내는 프리웨어 웹 어플리케이션 15.ai이 출시되었다.[78]초기 등장인물로는 포털의 GLaDOS, My Little Pony: Friendly Is Magic트와일라잇 스파클리플루터쉬, 닥터 후의 열 번째 닥터가 포함되었다.

음성 합성 마크업 언어

XML 호환 형식의 스피치로서 텍스트를 렌더링하기 위해 많은 마크업 언어가 설정되었다.가장 최근의 것은 2004년 W3C 권고안이 된 음성합성 마크업 언어(SSML)이다.이전 음성 합성 마크업 언어로는 자바 음성 마크업 언어(JSML)와 SABLE이 있다.이들 각각이 표준으로 제시되었지만, 널리 채택된 것은 없다.[citation needed]

음성 합성 마크업 언어는 대화 마크업 언어와 구별된다.예를 들어, VoiceXML에는 텍스트 음성 변환 마크업 외에도 음성 인식, 대화 관리 및 터치 톤 다이얼링과 관련된 태그가 포함되어 있다.[citation needed]

적용들

음성 합성은 오랫동안 필수적인 보조 기술 도구였으며 이 분야에서 그것의 적용은 중요하고 널리 퍼져 있다.그것은 광범위한 장애를 가진 사람들에게 환경적인 장벽이 제거되도록 한다.가장 오랜 기간 동안 응용된 것은 시각장애인을 위한 화면 판독기 사용이었지만, 문자 대 음성 시스템은 현재 난독증 및 기타 읽기 어려움을 겪는 사람들은 물론 사전 문맹 아동들도 흔히 사용하고 있다.그들은 또한 주로 전용 음성 출력 통신 지원을 통해 심각한 언어 장애를 가진 사람들을 돕기 위해 자주 고용된다.음성 합성기의 주목할 만한 응용 분야는 Haskins Laboratory의 작업에 기반한 텍스트 대 포네틱스 소프트웨어와 Botrach[79] 제작한 블랙박스 합성기를 통합한 Kurzweil Reading Machine for the Blind였다.

음성 합성 기술은 게임이나 애니메이션과 같은 엔터테인먼트 프로덕션에서도 사용된다.2007년에 애니모 리미티드사는 엔터테인먼트 산업에서 고객들에게 명확하게 맞춘 음성 합성 소프트웨어 FineSpeech를 기반으로 한 소프트웨어 어플리케이션 패키지 개발을 발표하여 사용자 사양에 따라 내레이션과 대화 라인을 생성할 수 있다.[80]이 애플리케이션은 NEC 빅로베가 2008년 일본 애니메이션 시리즈 코드기스: 반란 R2렐라우치에서 등장인물들의 목소리로 문구를 만들 수 있는 웹 서비스를 발표하면서 만기가 되었다.[81]

최근 몇 년 동안 장애와 통신 보조기구의 문자 대 음성화가 널리 보급되고 있다.문자 대 음성 또한 새로운 응용 프로그램을 찾고 있다. 예를 들어 음성 인식과 결합된 음성 합성은 자연 언어 처리 인터페이스를 통한 모바일 장치와의 상호작용을 가능하게 한다.

텍스트 음성 변환은 제2언어 습득에도 사용된다.예를 들어 보키는 오드캐스트가 만든 교육용 도구로 사용자들이 서로 다른 억양을 사용하여 자신만의 말하는 아바타를 만들 수 있다.그것들은 이메일로 보내지거나 웹사이트에 내장되거나 소셜 미디어에 공유될 수 있다.

또한 음성 합성은 음성 장애의 분석과 평가를 위한 귀중한 계산 보조 수단이다.호르헤 C가 개발한 음성 품질 신시사이저.브라질 대학의 Lucero 외 연구진은 음운화의 물리학을 시뮬레이션하고 음역, 발성 주파수 지터와 떨림, 기류 소음, 후두부 비대칭의 모델을 포함한다.[44]신디사이저는 거칠고, 숨쉬고, 긴장된 정도를 조절하는 이상음향 스피커의 음색을 흉내 내는 데 사용되어 왔다.[45]

스티븐 호킹은 음성 컴퓨터를 사용하여 의사소통을 한 가장 유명한 사람들 중 한 명이었다.

참고 항목

참조

  1. ^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.
  2. ^ Rubin, P.; Baer, T.; Mermelstein, P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America. 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
  3. ^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.
  4. ^ Van Santen, J. (April 1994). "Assignment of segmental duration in text-to-speech synthesis". Computer Speech & Language. 8 (2): 95–128. doi:10.1006/csla.1994.1005.
  5. ^ 2006년 11월 4일 회수된 헬싱키 공과대학 음성합성의 역사와 발전
  6. ^ Mechanismus der Menschlichen Sprache nebst der Beschreibung sainer sprerchenden Maschine("말하는 기계에 대한 설명과 함께 인간 연설의 기계론" J. B.데겐, 빈.(독일어로)
  7. ^ Mattingly, Ignatius G. (1974). Sebeok, Thomas A. (ed.). "Speech synthesis for phonetic and phonological models" (PDF). Current Trends in Linguistics. Mouton, The Hague. 12: 2451–2487. Archived from the original (PDF) on 2013-05-12. Retrieved 2011-12-13.
  8. ^ Klatt, D (1987). "Review of text-to-speech conversion for English". Journal of the Acoustical Society of America. 82 (3): 737–93. Bibcode:1987ASAJ...82..737K. doi:10.1121/1.395275. PMID 2958525.
  9. ^ Lambert, Bruce (March 21, 1992). "Louis Gerstman, 61, a Specialist In Speech Disorders and Processes". The New York Times.
  10. ^ "Arthur C. Clarke Biography". Archived from the original on December 11, 1997. Retrieved 5 December 2017.
  11. ^ "Where "HAL" First Spoke (Bell Labs Speech Synthesis website)". Bell Labs. Archived from the original on 2000-04-07. Retrieved 2010-02-17.
  12. ^ 웨이백머신에 2016-03-04 보관의인형 토킹로봇 와세다토커 시리즈
  13. ^ Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  14. ^ Zheng, F.; Song, Z.; Li, L.; Yu, W. (1998). "The Distance Measure for Line Spectrum Pairs Applied to Speech Recognition" (PDF). Proceedings of the 5th International Conference on Spoken Language Processing (ICSLP'98) (3): 1123–6.
  15. ^ a b "List of IEEE Milestones". IEEE. Retrieved 15 July 2019.
  16. ^ a b "Fumitada Itakura Oral History". IEEE Global History Network. 20 May 2009. Retrieved 2009-07-21.
  17. ^ Sproat, Richard W. (1997). Multilingual Text-to-Speech Synthesis: The Bell Labs Approach. Springer. ISBN 978-0-7923-8027-6.
  18. ^ [TSI 스피치+ & 기타 말하는 계산기]
  19. ^ 게바랴후, 조나단, [TSI S14001A 음성 합성기 LSI 집적회로 안내서][dead link]
  20. ^ 브레슬로 등 US 4326710 : 1982년 4월 27일 "토킹 일렉트로닉 게임"
  21. ^ 보이스 체스 챌린저
  22. ^ 게임에서 가장 중요한 진화 2011-06-15년 Wayback Machine, GamesRadar보관
  23. ^ Adlum, Eddie (November 1985). "The Replay Years: Reflections from Eddie Adlum". RePlay. Vol. 11, no. 2. pp. 134-175 (160-3).
  24. ^ Szczepaniak, John (2014). The Untold History of Japanese Game Developers. Vol. 1. SMG Szczepaniak. pp. 544–615. ISBN 978-0992926007.
  25. ^ CadeMetz (2020-08-20). "Ann Syrdal, Who Helped Give Computers a Female Voice, Dies at 74". The New York Times. Retrieved 2020-08-23.
  26. ^ Kurzweil, Raymond (2005). The Singularity is Near. Penguin Books. ISBN 978-0-14-303788-0.
  27. ^ Taylor, Paul (2009). Text-to-speech synthesis. Cambridge, UK: Cambridge University Press. p. 3. ISBN 9780521899277.
  28. ^ Alan W. Black, 항상 모든 사람들을 위한 완벽한 합성.IEEE TTS 워크샵 2002.
  29. ^ 존 코미넥과 앨런 W. 블랙.(2003).음성 합성을 위한 CMU 북극 데이터베이스.CMU-LTI-03-177.카네기 멜론 대학의 컴퓨터 과학 학교 언어 기술 연구소.
  30. ^ 줄리아 장.언어 학습 대화상자에서 언어 생성 및 음성 합성, 석사 논문, 섹션 5.6(54페이지)
  31. ^ 윌리엄 양 왕과 칼리루이 게오르길라.(2011).단위 선택 음성 합성, IEEE ASRU 2011에서 비정상적인 단어 수준 세그먼트의 자동 감지
  32. ^ "Pitch-Synchronous Overlap and Add (PSOLA) Synthesis". Archived from the original on February 22, 2007. Retrieved 2008-05-28.
  33. ^ T. 두투이트, V. 파겔, N. 피에레트, F. 바타유, O. 반 데어 브레켄.MBROLA 프로젝트: 고품질 음성 합성기 세트를 향해상업용 사용.ICSLP Procedures, 1996.
  34. ^ Muralishankar, R; Ramakrishnan, A.G.; Prathibha, P (2004). "Modification of Pitch using DCT in the Source Domain". Speech Communication. 42 (2): 143–154. doi:10.1016/j.specom.2003.05.001.
  35. ^ "Education: Marvel of The Bronx". Time. 1974-04-01. ISSN 0040-781X. Retrieved 2019-05-28.
  36. ^ "1960 - Rudy the Robot - Michael Freeman (American)". cyberneticzoo.com. 2010-09-13. Retrieved 2019-05-23.
  37. ^ LLC, New York Media (1979-07-30). New York Magazine. New York Media, LLC.
  38. ^ The Futurist. World Future Society. 1978. pp. 359, 360, 361.
  39. ^ L.F. 라멜, J.L. 고베인, B. 프라우츠, C.부하이어, 알 보쉬1993년 9월 방송 메시지 생성합성, 절차 ESCA-NATO 워크샵 음성 기술의 적용.
  40. ^ 다트머스 대학교:음악컴퓨터 1993년 웨이백 머신보관된 2011-06-08
  41. ^ 예로는 아스트로 블라스터, 스페이스 퓨리, 스타트랙: 전략적 운영 시뮬레이터 등이 있다.
  42. ^ 예로는 스타워즈, 파이어폭스, 리턴 오브제다이, 로드 러너, 엠파이어 스트라이크백, 인디애나 존스, 720°종말사원이 있다.건틀렛, 건틀렛 II, 에이피비, 페이퍼보이, 로드블래스터, 앙디케이터 파트 II, 로봇 몬스터의 행성에서 탈출.
  43. ^ John Holmes and Wendy Holmes (2001). Speech Synthesis and Recognition (2nd ed.). CRC. ISBN 978-0-7484-0856-6.
  44. ^ a b Lucero, J. C.; Schoentgen, J.; Behlau, M. (2013). "Physics-based synthesis of disordered voices" (PDF). Interspeech 2013. Lyon, France: International Speech Communication Association: 587–591. doi:10.21437/Interspeech.2013-161. Retrieved Aug 27, 2015.
  45. ^ a b Englert, Marina; Madazio, Glaucya; Gielow, Ingrid; Lucero, Jorge; Behlau, Mara (2016). "Perceptual error identification of human and synthesized voices". Journal of Voice. 30 (5): 639.e17–639.e23. doi:10.1016/j.jvoice.2015.07.017. PMID 26337775.
  46. ^ "The HMM-based Speech Synthesis System". Hts.sp.nitech.ac.j. Retrieved 2012-02-22.
  47. ^ Remez, R.; Rubin, P.; Pisoni, D.; Carrell, T. (22 May 1981). "Speech perception without traditional speech cues" (PDF). Science. 212 (4497): 947–949. Bibcode:1981Sci...212..947R. doi:10.1126/science.7233191. PMID 7233191. Archived from the original (PDF) on 2011-12-16. Retrieved 2011-12-14.
  48. ^ "Speech synthesis". World Wide Web Organization.
  49. ^ "Blizzard Challenge". Festvox.org. Retrieved 2012-02-22.
  50. ^ "Smile -and the world can hear you". University of Portsmouth. January 9, 2008. Archived from the original on May 17, 2008.
  51. ^ "Smile – And The World Can Hear You, Even If You Hide". Science Daily. January 2008.
  52. ^ Drahota, A. (2008). "The vocal communication of different kinds of smile" (PDF). Speech Communication. 50 (4): 278–287. doi:10.1016/j.specom.2007.10.001. Archived from the original (PDF) on 2013-07-03.
  53. ^ Muralishankar, R.; Ramakrishnan, A. G.; Prathibha, P. (February 2004). "Modification of pitch using DCT in the source domain". Speech Communication. 42 (2): 143–154. doi:10.1016/j.specom.2003.05.001.
  54. ^ Prathosh, A. P.; Ramakrishnan, A. G.; Ananthapadmanabha, T. V. (December 2013). "Epoch extraction based on integrated linear prediction residual using plosion index". IEEE Trans. Audio Speech Language Processing. 21 (12): 2471–2480. doi:10.1109/TASL.2013.2273717. S2CID 10491251.
  55. ^ EE 타임즈.2001년 6월 14일 "TI는 전용 음성 합성 칩을 종료하고 WebCiteSensory Archived 2012-02-17에 제품을 이전할 것이다."
  56. ^ "1400XL/1450XL Speech Handler External Reference Specification" (PDF). Archived from the original (PDF) on 2012-03-24. Retrieved 2012-02-22.
  57. ^ "It Sure Is Great To Get Out Of That Bag!". folklore.org. Retrieved 2013-03-24.
  58. ^ "Amazon Polly". Amazon Web Services, Inc. Retrieved 2020-04-28.
  59. ^ Miner, Jay; et al. (1991). Amiga Hardware Reference Manual (3rd ed.). Addison-Wesley Publishing Company, Inc. ISBN 978-0-201-56776-2.
  60. ^ Devitt, Francesco (30 June 1995). "Translator Library (Multilingual-speech version)". Archived from the original on 26 February 2012. Retrieved 9 April 2013.
  61. ^ "Accessibility Tutorials for Windows XP: Using Narrator". Microsoft. 2011-01-29. Archived from the original on June 21, 2003. Retrieved 2011-01-29.
  62. ^ "How to configure and use Text-to-Speech in Windows XP and in Windows Vista". Microsoft. 2007-05-07. Retrieved 2010-02-17.
  63. ^ Jean-Michel Trivi (2009-09-23). "An introduction to Text-To-Speech in Android". Android-developers.blogspot.com. Retrieved 2010-02-17.
  64. ^ Andreas Bischoff, The Pediaphon 휴대 전화, PDA 및 MP3 플레이어를 위한 무료 위키백과사전 음성 인터페이스, 제18차 데이터베이스 및 전문가 시스템 응용에 관한 국제 회의의 진행, 페이지: 575–579 ISBN 0-7695-2932-1, 2007
  65. ^ "RHVoice.org". rhvoice.org. Retrieved 2022-03-27.
  66. ^ "Languages RHVoice.org". rhvoice.org. Retrieved 2022-03-27.
  67. ^ "gnuspeech". Gnu.org. Retrieved 2010-02-17.
  68. ^ "The MARY Text-to-Speech System (MaryTTS)". mary.dfki.de. Retrieved 2021-11-19.
  69. ^ "Smithsonian Speech Synthesis History Project (SSSHP) 1986–2002". Mindspring.com. Archived from the original on 2013-10-03. Retrieved 2010-02-17.
  70. ^ "WaveNet: A Generative Model for Raw Audio". Deepmind.com. 2016-09-08. Retrieved 2017-05-24.
  71. ^ "Adobe Voco 'Photoshop-for-voice' causes concern". BBC.com. BBC. 2016-11-07. Retrieved 2017-06-18.
  72. ^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (2018-06-12), "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis", Advances in Neural Information Processing Systems, 31: 4485–4495, arXiv:1806.04558
  73. ^ Arık, Sercan Ö.; Chen, Jitong; Peng, Kainan; Ping, Wei; Zhou, Yanqi (2018), "Neural Voice Cloning with a Few Samples", Advances in Neural Information Processing Systems, 31, arXiv:1802.06006
  74. ^ "Fake voices 'help cyber-crooks steal cash'". bbc.com. BBC. 2019-07-08. Retrieved 2019-09-11.
  75. ^ Drew, Harwell (2019-09-04). "An artificial-intelligence first: Voice-mimicking software reportedly used in a major theft". Washington Post. Retrieved 2019-09-08.
  76. ^ Thies, Justus (2016). "Face2Face: Real-time Face Capture and Reenactment of RGB Videos". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Retrieved 2016-06-18.
  77. ^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Synthesizing Obama: Learning Lip Sync from Audio, University of Washington, retrieved 2018-03-02
  78. ^ Ng, Andrew (2020-04-01). "Voice Cloning for the Masses". deeplearning.ai. The Batch. Archived from the original on 2020-08-07. Retrieved 2020-04-02.
  79. ^ https://www.rehab.research.va.gov/jour/84/21/1/pdf/cooper.pdf[bare URL PDF]
  80. ^ "Speech Synthesis Software for Anime Announced". Anime News Network. 2007-05-02. Retrieved 2010-02-17.
  81. ^ "Code Geass Speech Synthesizer Service Offered in Japan". Animenewsnetwork.com. 2008-09-09. Retrieved 2010-02-17.

외부 링크