음성 처리

Speech processing

음성 처리음성 신호와 신호 처리 방법에 대한 연구다. 신호는 보통 디지털 표현으로 처리되기 때문에 음성 처리는 음성 신호에 적용되는 디지털 신호 처리의 특별한 사례로 간주할 수 있다. 음성 처리의 측면에는 음성 신호의 획득, 조작, 저장, 전송 및 출력이 포함된다. 입력을 음성인식이라고 하고 출력을 음성합성이라고 한다.

역사

음성 처리와 인식에 대한 초기 시도는 주로 모음과 같은 간단한 음성 요소를 이해하는 데 초점이 맞춰졌다. 1952년, 벨 연구소의 세 명의 연구원인 스티븐. 발라섹, R. 비둘프, K. H. Davis는 스피커 한 대가 사용하는 숫자를 인식할 수 있는 시스템을 개발했다.[1] 그 스펙트럼 분석을 이용한 음성인식 분야의 선구적인 작품이 1940년대에 보고되었다.[2]

음성 처리 알고리즘인 선형 예측 코딩(LPC)은 1966년 나고야 대학의 이타쿠라 후미타다와 일본전신전화(NTT)의 사이토 슈조가 처음 제안했다.[3] LPC 기술의 추가 발전은 Bishnu S에 의해 이루어졌다. 아탈맨프레드 R. 1970년대 벨 연구소슈뢰더.[3] LPC는 1978년부터 스피크 스펠 장난감에 사용된 텍사스 인스트루먼트 LPC 스피치 칩과 같은 음성 합성기 칩뿐만 아니라 VoIP(Voice-over-IP)[4] 기술의 기본이었다.[3]

상업적으로 이용 가능한 최초의 음성 인식 제품 중 하나는 1990년에 출시된 Dragon Indistry였다. 1992년 벨 연구소에서 로렌스 래비너 등이 개발한 기술은 AT&T가 음성인식 콜 처리 서비스에서 AT&T에 의해 인간 운영자 없이 통화를 라우팅하는 데 이용되었다. 이쯤 되자 이들 시스템의 어휘는 인간의 평균 어휘보다 더 컸다.[5]

2000년대 초반까지 지배적인 음성 처리 전략은 히든 마르코프 모델에서 벗어나 보다 현대적인 신경 네트워크딥러닝으로 옮겨가기 시작했다.[citation needed]

기술

동적 시간 뒤틀림

동적 시간 뒤틀림(DTW)은 속도가 다를 수 있는 두 시간적 시퀀스 사이의 유사성을 측정하기 위한 알고리즘이다. 일반적으로 DTW는 일정한 제한과 규칙으로 주어진 두 시퀀스(예: 시계열) 사이에 최적의 일치를 계산하는 방법이다. 최적 일치는 모든 제한사항과 규칙을 만족하는 일치로 표시되며, 최소 비용(각 일치된 지수 쌍에 대해 절대 차이의 합으로 계산되는 비용)이 값 사이에 표시된다.[citation needed]

히든 마르코프 모델

숨겨진 마르코프 모델은 가장 단순한 동적 베이시안 네트워크로 표현될 수 있다. 알고리즘의 목적은 관측치 y(t) 리스트가 주어진 숨겨진 변수 x(t)를 추정하는 것이다. 마르코프 속성을 적용함으로써, 항상 숨겨진 변수 x의 값을 주어진 시간 t에서 숨겨진 변수 x(t)의 조건부 확률 분포는 숨겨진 변수 x(t - 1)의 값에만 의존한다. 마찬가지로 관측 변수 y(t)의 값은 숨겨진 변수 x(t)의 값(둘 다 시간 t)에만 의존한다.[citation needed]

인공신경망

인공신경망(ANN)은 생물학적 뉴런을 느슨하게 모형화하는 인공 뉴런이라고 불리는 연결된 단위나 노드의 집합체를 기반으로 한다. 각각의 연결은 생물학적 시냅스처럼 하나의 인공 뉴런에서 다른 인공 뉴런으로 신호를 전송할 수 있다. 신호를 받는 인공 뉴런은 그것을 처리한 다음 그것에 연결된 인공 뉴런을 추가로 신호할 수 있다. 일반적인 ANN 구현에서 인공 뉴런 사이의 연결부에서의 신호는 실제 숫자로, 각 인공 뉴런의 출력은 그 입력의 합계의 어떤 비선형 함수에 의해 계산된다.[citation needed]

위상 인식 처리

위상은 대개 랜덤 균일 변수여서 무용지물이다. 위상의 이 기한 포장한 후 단계unwrapping(see,[7]장 2.3, 쉿!즉각 위상 및 주파수),[6][8]ϕ(h, 나는):표현될 수 있는 아크 탄젠트 함수의[6]결과 2π{2\pi\displaystyle}에 정기 점프 때문에.)연속이 아니다ϕ 나는 나의 스녀(h, 나는)+Ψ(h, 나는){\displaystyle \phi(h,l)=\phi_{lin}(h.,l)+\Psi(h, where is linear phase ( is temporal shift at each frame of analysis), is phase contribution of the vocal tract and phase source.[8] 획득한 위상 추정치를 소음 감소에 사용할 수 있다. 즉, 순간 위상과 그 파생상품의 시간적 평활(즉시 빈도) 및 빈도(집단 지연)에 의한 일시적 평활,[10] 주파수 전반에 걸친 위상 평활.[10] 결합된 진폭 및 위상 추정기는 폰 미제스 위상 분포를 가정하여 보다 정확하게 스피치를 복구할 수 있다.[8]

적용들

참고 항목

참조

  1. ^ Juang, B.-H.; Rabiner, L.R. (2006), "Speech Recognition, Automatic: History", Encyclopedia of Language & Linguistics, Elsevier, pp. 806–819, doi:10.1016/b0-08-044854-2/00906-8, ISBN 9780080448541
  2. ^ Myasnikov, L. L.; Myasnikova, Ye. N. (1970). Automatic recognition of sound pattern (in Russian). Leningrad: Energiya.
  3. ^ a b c Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  4. ^ "VC&G - VC&G Interview: 30 Years Later, Richard Wiggins Talks Speak & Spell Development".
  5. ^ Huang, Xuedong; Baker, James; Reddy, Raj (2014-01-01). "A historical perspective of speech recognition". Communications of the ACM. 57 (1): 94–103. doi:10.1145/2500887. ISSN 0001-0782.
  6. ^ a b Mowlaee, Pejman; Kulmer, Josef (August 2015). "Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential". IEEE/ACM Transactions on Audio, Speech, and Language Processing. 23 (8): 1283–1294. doi:10.1109/TASLP.2015.2430820. ISSN 2329-9290. Retrieved 2017-12-03.
  7. ^ Mowlaee, Pejman; Kulmer, Josef; Stahl, Johannes; Mayer, Florian (2017). Single channel phase-aware signal processing in speech communication: theory and practice. Chichester: Wiley. ISBN 978-1-119-23882-9.
  8. ^ a b c Kulmer, Josef; Mowlaee, Pejman (April 2015). "Harmonic phase estimation in single-channel speech enhancement using von Mises distribution and prior SNR". Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE. pp. 5063–5067.
  9. ^ Kulmer, Josef; Mowlaee, Pejman (May 2015). "Phase Estimation in Single Channel Speech Enhancement Using Phase Decomposition". IEEE Signal Processing Letters. 22 (5): 598–602. doi:10.1109/LSP.2014.2365040. ISSN 1070-9908. Retrieved 2017-12-03.
  10. ^ a b Mowlaee, Pejman; Saeidi, Rahim; Stylianou, Yannis (July 2016). "Advances in phase-aware signal processing in speech communication". Speech Communication. 81: 1–29. doi:10.1016/j.specom.2016.04.002. ISSN 0167-6393. Retrieved 2017-12-03.