조음 합성

Articulatory synthesis
조음 합성을 위한 3D 성로 모델 자음-보웰 조음 모델링에 기초한 독일어 문장 "Lea und Doreen Mögen Bananen"은 기본 주파수와 통화 [1]지속 시간 측면에서 자연스럽게 말해지는 문장에서 재현되었습니다.

조음 합성이란 인간의 성관 모델과 거기에서 일어나는 조음 과정을 바탕으로 음성을 합성하는 계산 기술을 말한다.성관의 모양은 보통 , 턱, 입술과 같은 발성 관절의 위치를 수정하는 여러 가지 방법으로 조절될 수 있습니다.음성은 성관의 표현을 통해 공기의 흐름을 디지털로 시뮬레이션함으로써 만들어집니다.

기계식 토킹 헤드

기계적인 "말하는 헤드"[2]를 만들기 위한 오랜 시도의 역사가 있습니다.거버트 (d. 1003), 알베르투스 매그너스 (1198–1280), 로저 베이컨 (1214–1294) 모두 말하는 머리를 만들었다고 한다.그러나 역사적으로 확인된 음성 합성은 1791년에 그의 연구에 대한 설명을 발표한 볼프강켐펠렌 (1734–1804)에서 시작된다.

전기 성로 아날로그

던(1950년), 스티븐스, 그리고 동료들(1953년), 군나르 판타지(1960년)와 같은 최초의 전기 성로 아날로그는 정적이었다.로젠(1958)은 동적 성관(DAVO)을 만들었고 데니스(1963)는 나중에 컴퓨터로 제어하려고 시도했다.Dennis et al.(1964), Hiki et al.(1968), Baxter and Strong(1969)도 하드웨어 보컬 트랙 아날로그에 대해 기술했다.Kelly and Lockebaum(1962)이 최초의 컴퓨터 시뮬레이션을 실시했습니다.나중에 디지털 컴퓨터 시뮬레이션은 나카타와 미츠오카(1965), 마쓰이(1968), 폴 메르멜슈타인(1971)에 의해서 행해졌습니다.혼다 외 연구진(1968년)은 아날로그 컴퓨터 시뮬레이션을 만들었다.

하스킨스와 마에다 모델

실험실 실험에 정기적으로 사용되는 최초의 소프트웨어 조음 신시사이저는 1970년대 중반 Haskins Laboratory에서 Philip Rubin, Tom Baer 및 Paul Mermelstein에 의해 개발되었습니다.ASY로 [3]알려진 이 신시사이저는 Paul Mermelstein, Cecil Coker, 그리고 동료들에 의해 1960년대와 1970년대에 Bell Laboratories에서 개발된 성대 모델을 기반으로 한 음성 생산의 컴퓨터 모델이었다.자주 사용되는 또 하나의 모델은 마에다 신지입니다.마에다 신지 모델은, 혀의 모양을 조절하는 요소 베이스의 어프로치를 채용하고 있습니다.

최신 모델

음성 생산 영상, 조음 제어 모델링 및 혀 생체역학 모델링의 최근 발전은 조음 합성이 수행되는 방식에 변화를 가져왔다[1].[permanent dead link]예를 들어 Philip Rubin, Mark Tiede [2] 및 Louis Goldstein [3]의해 설계된 Haskins CASY 모델(구성 가능한 관절 합성)[4]이 있으며, 이는 MRI 데이터를 사용하여 성관의 3D 모델을 구성합니다.완전한 3D 조음 합성 모델은 Olov Engwall에 의해 설명되었습니다.기하학적 기반의 3D 조음 음성 신시사이저는 Peter Birkholz(VocalTractLab[5])에 의해 개발되었습니다.음성 생산의 기초가 되는 신경 계산을 고려하는 피드포워드 제어 접근방식인 Directions Into Velocities of Architulators(DIVA) 모델은 보스턴 대학의 프랭크 H. Guenther에 의해 개발되었다.British Columbia 대학의 Sidney Fels[4]가 이끄는 ArtiSynth [6]프로젝트는 인간의 성관과 상기도용 3D 생체역학적 모델링 툴킷입니다.와 같은 관절의 생체역학적 모델링은 라이너 윌헬름스 트리카리코[5], 요한 파얀[6], 장 미셸 제라르[7], 지안우 당 및 키요시 혼다[8]를 포함한 많은 과학자들에 의해 개척되었다.

상용 모델

몇 안 되는 상업용 조음 음성 합성 시스템 중 하나는 원래 캘거리 대학의 스핀오프 회사인 트릴리움 사운드 리서치에 의해 개발되고 판매된 NeXT 기반 시스템입니다. 이 시스템은 원래 연구의 많은 부분을 수행했습니다.NeXT의 다양한 화신(1980년대 후반 스티브 잡스에 의해 시작되어 1997년에 애플 컴퓨터와 합병됨)이 소멸된 후, 트릴리움 소프트웨어는 GNU General Public License로 발행되었으며, 그누스피크로 계속되었다.1994년에 처음 출시된 이 시스템은 Rene Caré의 "구강 및 비강 부위 모델"[7]에 의해 제어되는 도파관 또는 전송선 유사체를 사용하여 완전한 조음 기반 텍스트 대 음성 변환을 제공합니다.

「 」를 참조해 주세요.

각주

  1. ^ Birkholz, Peter (2013). "Modeling Consonant-Vowel Coarticulation for Articulatory Speech Synthesis". PLOS ONE. 8 (4): e60603. Bibcode:2013PLoSO...860603B. doi:10.1371/journal.pone.0060603. PMC 3628899. PMID 23613734.
  2. ^ "Talking Heads". Archived from the original on 2006-12-07. Retrieved 2006-12-06.
  3. ^ 동작하지 않다
  4. ^ 케이스
  5. ^ VocalTractLab
  6. ^ 아티신스
  7. ^ 규칙별 실시간 조음 음성 합성

참고 문헌

  • 백스터, 브렌트, 윌리엄 J. 스트롱(1969년).WINDBAG : 보컬 트랙 아날로그 음성 신시사이저미국 음향학회지, 45, 309(A)
  • Birkholz P, Jackel D, Kröger BJ(2007) 시변성 음성 시스템의 난류로 인한 손실 시뮬레이션.오디오, 음성언어 처리 15에 관한 IEEE 트랜잭션: 1218-1225
  • Birkholz P, Jackel D, Kröger BJ(2006) 3차원 성로 모델 구축 및 제어.국제음향, 음성, 신호처리에 관한 회의(ICASSP 2006) (프랑스 툴루즈) 873~876페이지
  • C. H. (1968년)코커파라메트릭 조음 모델을 사용한 음성 합성.검사, 연설. 교토의, 일본, A-4 용지.
  • Coker, C. H. (1976). "A model for articulatory dynamics and control". Proceedings of the IEEE. 64 (4): 452–460. doi:10.1109/PROC.1976.10154. S2CID 1412611.
  • Coker; Fujimura, O. (1966). "Model for the specification of the vocal tract area function". Journal of the Acoustical Society of America. 40 (5): 1271. Bibcode:1966ASAJ...40.1271C. doi:10.1121/1.2143456.
  • 데니스, 잭 B. (1963년).아날로그 성관의 컴퓨터 제어.미국 음향학회지, 35, 1115(A)
  • Dudley, Homer; Tarnoczy, Thomas H. (1950). "The speaking machine of Wolfgang von Kempelen" (PDF). Journal of the Acoustical Society of America. 22 (2): 151–166. Bibcode:1950ASAJ...22..151D. doi:10.1121/1.1906583.
  • Dunn, Hugh K. (1950). "Calculation of vowel resonances, and an electrical vocal tract". Journal of the Acoustical Society of America. 22 (6): 740–53. Bibcode:1950ASAJ...22..740D. doi:10.1121/1.1906681.
  • Engwall, O. (2003)MRI, EMA 및 EPG 측정을 3차원 혀 모델로 조합.음성 통신, 41, 303–329.
  • 환타,군나르 M. (1960년)음성 생성의 음향 이론.헤이그, 무통.
  • Gariel, M. (1879). "Machine parlante de M. Faber". J. Physique Théorique et Appliquée. 8: 274–5. doi:10.1051/jphystap:018790080027401.
  • Gerard, J.M.; Wilhelms-Tricarico, R.; Perrier, P.; Payan, Y. (2003). "A 3D dynamical biomechanical tongue model to study speech motor control" (PDF). Recent Research Developments in Biomechanics. 1: 49–64.
  • 헨크, W. L. (1966)컴퓨터 시뮬레이션을 이용한 음성 생성의 동적 조음 모델미발표 박사학위 논문, MIT, 캠브리지, 매사추세츠.
  • 혼다, 다카시, 이노우에 세이이치, 오가와 야스오(1968).인간 성로 시뮬레이터의 하이브리드 제어 시스템.제6회 국제음향학회의 보고서 (편집: Y)코하시, 페이지 175-8도쿄, 국제과학연합협의회
  • 켈리, 존 L., 캐롤 록바움(1962년).음성 합성.스피치 커뮤니케이션 세미나 진행, 문서 F7.스톡홀름 왕립 공과대학 음성 전송 연구소
  • 켐펠렌, 볼프강 R. 본 (1791년)Mechanus der menschlichen Sprache nebst der Beschreibung seiner Sprechenden Maschine.빈, J.B.데겐
  • 마에다, S.(1988년개선된 조음 모델.미국 음향학회 저널, 84, Sup. 1, S146.
  • 마에다, S.(1990년)음성 중의 보정 조음: 조음 모델을 사용하여 성대모형을 분석하고 합성한 증거.W. J. Hardcastle과 A.에서.Marchal (Eds), 음성 생산음성 모델링, Kluwer Academic, Dordrecht, 131–149.
  • 마쓰이 에이이치(1968년).컴퓨터 시뮬레이션된 발성기관.제6회 국제음향학회의 보고서 (편집: Y)코하시, 페이지 151~4도쿄, 국제과학연합협의회
  • 머멜스타인, 폴. (1969년)음성 생성 시 조음 활동에 대한 컴퓨터 시뮬레이션.D. E. Walker와 L. M. Norton에 의한 Washington, D.C., 1969년 국제 인공 지능 공동 회의의 진행.뉴욕, 고든 앤드 브레이크
  • Mermelstein, P. (1973). "Articulatory model for the study of speech production". Journal of the Acoustical Society of America. 53 (4): 1070–1082. Bibcode:1973ASAJ...53.1070M. doi:10.1121/1.1913427. PMID 4697807.
  • Nakata, Kazuo; Mitsuoka, T. (1965). "Phonemic transformation and control aspects of synthesis of connected speech". J. Radio Res. Labs. 12: 171–86.
  • Rahim, M.; Goodyear, C.; Kleijn, W.; Schroeter, J.; Sondhi, M. (1993). "On the use of neural networks in articulatory speech synthesis". Journal of the Acoustical Society of America. 93 (2): 1109–1121. Bibcode:1993ASAJ...93.1109R. doi:10.1121/1.405559.
  • Rosen, George (1958). "Dynamic analog speech synthesizer". Journal of the Acoustical Society of America. 30 (3): 201–9. Bibcode:1958ASAJ...30..201R. doi:10.1121/1.1909541. hdl:1721.1/118106.
  • Rubin, P. E.; Baer, T.; Mermelstein, P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America. 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
  • Rubin, P., Saltzman, E., Goldstein, L., McGowan, R., Tiede, M. 및 Browman, C.(1996).CASY 및 태스크 다이내믹모델 확장 기능제1회 ESCA 자습서 음성제작 모델링 연구 워크숍 진행 - 제4회 음성제작 세미나, 125-128.
  • Stevens, Kenneth N.; Kasowski, S.; Fant, C. Gunnar M. (1953). "An electrical analog of the vocal tract". Journal of the Acoustical Society of America. 25 (4): 734–42. Bibcode:1953ASAJ...25..734S. doi:10.1121/1.1907169.

외부 링크