소스-필터 모델

소스-필터 모델은 음원과 성대와 같은 음원과 선형 음향 필터인 성대의 조합으로 음성을 나타낸다. 이 모델은 근사치에 불과하지만 상대적인 단순성 때문에 음성 합성이나 음성 분석과 같은 많은 응용 분야에서 널리 사용되고 있다. 선형 예측과도 관련이 있다. 비록 다른 사람들, 특히 켄 스티븐스 역시 언어와 음성 합성의 음향 분석의 기초가 되는 모델에 상당한 기여를 했지만, 모델의 발전은 상당 부분 군나르 판타지의 초기 작업에 기인한다.^[1] 판타지는 모음의 음향적 특성과 보컬의 모양 사이의 관계를 처음 보여준 지바 츠토무와 가지야마 마사토의 작품을 완성했다.^[1]

소스-필터 모델을 사용할 때 종종 이루어지는 중요한 가정은 소스와 필터의 독립성이다.^[1] 이 경우 모델을 "독립 소스-필터 모델"^{[citation needed]}이라고 보다 정확하게 지칭해야 한다.

역사

1942년, 지바와 가지야마는 모음 음향과 발음에 관한 연구를 《모음: 그것의 본질과 구조》라는 저서에서 발표했다. 엑스레이 사진을 이용해 보컬의 모델을 만들면서 서로 다른 모음의 포마넌트 주파수를 예측할 수 있게 되어 둘의 관계를 구축할 수 있게 되었다. 선구적인 스피치 과학자인 군나르 팡트는 소스-필터 모델을 확립한 음성 제작의 음향 이론에서 자신의 러시아어 스피치 사운드 데이터를 해석하기 위해 발성 기관의 X선 촬영과 관련된 지바와 카지야마의 연구를 이용했다.^[2]

적용들

다양한 정도까지, 다른 음소들은 그 원천의 특성과 스펙트럼 형상에 의해 구별될 수 있다. 유성음(예: 모음)은 시간 영역의 임펄스 트레인 및 주파수 영역의 고조파로 근사치를 계산할 수 있으며, 예를 들어 혀 위치와 입술 돌출 등에 의존하는 필터로 인해 대부분 주기적인 글로탈 흥분으로 인해 최소 한 가지 선원을 갖는다.^[3] 반면 [s]와 [f]와 같은 프릭터는 구강이나 인두의 수축에서 발생하는 난류 소음으로 인해 적어도 하나의 근원을 가지고 있다. [z]와 [v]와 같은 소위 유성 프릭틱스는 두 가지 출처를 가지고 있다. 하나는 글로티스에 있고 다른 하나는 초광택 수축에 있다.

음성 합성

음성 생산의 소스-필터 모델의 구현에서, 음원 또는 흥분 신호는 종종 음성 발음에 대한 주기적인 충동 열차 또는 비음향 발음에 대한 백색 소음으로 모델링된다. 음역 필터는 가장 간단한 경우 전극 필터에 의해 근사치를 나타내며, 여기서 계수는 재생산될 음성 신호의 평균 제곱 오차를 최소화하기 위해 선형 예측을 수행하여 구한다. 필터 응답과 함께 흥분 신호의 콘볼루션은 합성 음성을 생성한다.

인간 음성 제작 모델링

인간의 목소리에 있는 소스와 필터의 가능한 조합이다.

인간의 음성 생산에서 음원은 성주름으로, 수축할 때 주기적인 소리를 낼 수 있고 이완할 때 주기적인 소리(백색 소음)를 낼 수 있다.^[4] 필터는 나머지 성악기로 인두, 입, 비강 등의 조작을 통해 형상을 바꿀 수 있다.^[3] Fante는 근원과 필터를 각각 음운과 발음에 대략 비교한다. 소스는 다양한 진폭의 많은 고조파를 생성하는데, 이 고조파는 음성을 통해 이동하며 증폭되거나 감쇠되어 음성을 생성한다.^[4]

참고 항목

역 필터

참조

^ ^a ^b ^c Arai, Takayuki (2004). "History of Chiba and Kajiyama and their influence in modern speech science". From Sound to Sense: 50+ Years of Discoveries in Speech Communication (PDF). pp. 115–120.
^ Fant, Gunnar. "T. Chiba and M. Kajiyama, Pioneers in Speech Acoustics". Journal of the Phonetic Society of Japan. 5 (2). doi:10.24467/onseikenkyu.5.2_4. Retrieved 3 July 2020.
^ ^a ^b Fant, Gunnar (1970). Acoustic Theory of Speech Production with Calculations Based on X-ray Studies of Russian Articulations. De Gruyter.
^ ^a ^b Zsiga, Elizabeth C. (2012). The Sounds of Language: An Introduction to Phonetics and Phonology. John Wiley & Sons. ISBN 978-1-118-34060-8.

Chiba, T.; Kajiyama, M. (1942). The Vowel: Its Nature and Structure. Tokyo: Tokyo-Kaiseikan Pub. Co., Ltd.
(1952년 재인쇄판이 있었고, 2003년 일본어 번역판은 ISBN4-00-002107-9)
Stevens, K. N. (2001). "The Chiba and Kajiyama book as a precursor to the acoustic theory of speech production". Journal of Phonetic Society of Japan. 5 (2): 6–7.
Stevens, K. N. (1998). Acoustic Phonetics. Cambridge, MA: MIT Press. ISBN 978-0-262-19404-4. (hardcover in 1999) / (paperback in 2000).

[arai-1] Arai, Takayuki (2004). "History of Chiba and Kajiyama and their influence in modern speech science". From Sound to Sense: 50+ Years of Discoveries in Speech Communication (PDF). pp. 115–120.

[2] Fant, Gunnar. "T. Chiba and M. Kajiyama, Pioneers in Speech Acoustics". Journal of the Phonetic Society of Japan. 5 (2). doi:10.24467/onseikenkyu.5.2_4. Retrieved 3 July 2020.

[gf-3] Fant, Gunnar (1970). Acoustic Theory of Speech Production with Calculations Based on X-ray Studies of Russian Articulations. De Gruyter.

[zs-4] Zsiga, Elizabeth C. (2012). The Sounds of Language: An Introduction to Phonetics and Phonology. John Wiley & Sons. ISBN 978-1-118-34060-8.

[1]

[2]

[3]

[4]

Search

소스-필터 모델

네임스페이스

더

목차

역사

적용들

음성 합성

인간 음성 제작 모델링

참고 항목

참조