선형 예측 부호화
Linear predictive codingLPC(Linear Predictive Coding)는 주로 오디오 신호 처리 [1][2]및 음성 처리에 사용되는 방법으로, 선형 예측 모델의 정보를 사용하여 압축된 형태로 음성 신호의 스펙트럼 엔벨로프를 나타낸다.
LPC는 음성 부호화와 음성 합성에서 가장 널리 사용되는 방법이다.이것은 강력한 음성 분석 기술이며 낮은 비트환율로 고품질 음성을 부호화하는 데 유용한 방법입니다.
개요
LPC는 튜브 끝의 부저(음성음용)에 의해 음성 신호가 생성되며, 때때로 쉬익쉬익 소리와 펑펑 소리가 추가된다는 가정에서 시작한다(시빌런트나 플로시브 등 무성음용).겉보기에는 조잡하지만, 이 소스-필터 모델은 실제로 음성 생산의 현실에 근접한 근사치이다.성문(성문 주름 사이의 공간)은 그 강도와 주파수(피치)로 특징지어지는 웅성거림을 발생시킨다.성관(목구멍과 입)은 공명으로 특징지어지는 튜브를 형성합니다; 이러한 공명은 생성되는 소리에서 형성체 또는 향상된 주파수 대역을 발생시킵니다.야유와 터지는 소리는 자매결례와 식사 중 혀, 입술, 목구멍의 작용에 의해 발생한다.
LPC는 성형체를 추정하여 음성신호에서 그 영향을 제거하고 나머지 버즈의 강도 및 빈도를 추정함으로써 음성신호를 분석한다.포름제를 제거하는 과정을 역 필터링이라고 하며 필터링된 모델링 신호를 뺀 후 남은 신호를 잔류라고 합니다.
버즈의 강도와 주파수를 나타내는 수치, 포름제 및 잔류 신호를 다른 곳에 저장하거나 전송할 수 있습니다.LPC는 프로세스를 반대로 하여 음성 신호를 합성합니다.버즈 파라미터와 잔류물을 사용하여 소스 신호를 생성하고 포뮬런트를 사용하여 필터(튜브를 나타냄)를 생성하여 소스를 필터에 통과시켜 음성을 생성합니다.
음성 신호는 시간에 따라 다르기 때문에 이 과정은 프레임이라고 불리는 음성 신호의 짧은 청크에서 수행됩니다.일반적으로 초당 30~50 프레임은 양호한 압축으로 알기 쉬운 음성을 제공합니다.
초기 역사
선형 예측(신호 추정)은 [3][4]노버트 위너가 노이즈에 숨겨진 신호를 검출하기 위한 최적의 필터와 예측 변수를 계산하기 위한 수학적 이론을 개발한 적어도 1940년대로 거슬러 올라간다.Claude Shannon이 코딩의 일반 이론을 확립한 직후 C에 의해 예측 코딩 작업이 수행되었다. 차핀 커틀러,[5] 버나드 M 올리버와[6] 헨리 C.해리슨.[7]피터 엘리아스는 1955년에 신호의 [8][9]예측 부호화에 관한 두 개의 논문을 발표했다.
선형 예측 변수는 1966년 나고야 대학의 이타쿠라 후미타다와 일본 전신 전화의 사이토 슈조에 의해, 1967년에는 비슈누 S에 의해 독립적으로 음성 분석에 적용되었다. 아탈, 맨프레드 R. 슈로더와 존 버그입니다이타쿠라와 사이토는 최대우도 추정에 기초한 통계적 접근방식을 설명했고, 아탈과 슈뢰더는 적응형 선형 예측 접근방식을 설명했으며, 버그는 최대 [4][10][11][12]엔트로피 원리에 기초한 접근방식을 설명했다.
1969년 이타쿠라와 사이토는 부분 상관(PARCOR)에 기초한 방식을 도입했고 글렌 컬러는 실시간 음성 부호화, 비슈누 S를 제안했다. Atal은 미국 음향학회 연차총회에서 LPC 음성 코더를 선보였다.1971년에 16비트 LPC 하드웨어를 사용한 실시간 LPC가 Philco-Ford에 의해 시연되었고, 4대가 판매되었습니다.[13]LPC 기술은 1970~1980년대에 [13]Bishnu Atal과 Manfred Schroeder에 의해 발전되었습니다.1978년 BBN의 Atal과 Vishwanath 등은 최초의 가변 속도 LPC [13]알고리즘을 개발했다.같은 해, 아탈과 맨프레드 R. 벨 연구소의 슈로더는 적응형 예측 부호화라고 불리는 LPC 음성 코덱을 제안했는데, 이 코덱은 인간의 귀의 [14][15]마스킹 특성을 이용하는 정신 음향 부호화 알고리즘을 사용했다.이것은 나중에 [14]1993년에 도입된 MP3 오디오 압축 포맷에 사용되는 지각 부호화 기법의 기초가 되었다.코드 들뜸 선형 예측(CELP)은 1985년 [16]슈뢰더와 아탈에 의해 개발되었다.
LPC는 Voice-over-IP([13]VoIP) 테크놀로지의 기반입니다.1972년, ARPA의 밥 칸은 짐 포지(링컨 연구소, LL)와 데이브 월든(BBN Technologies)과 함께 패킷화 음성의 첫 번째 개발을 시작했고, 이는 결국 Voice-over-IP 기술로 이어졌다.1973년 링컨 연구소의 비공식 역사에 따르면 최초의 실시간 2400비트/초 LPC가 Ed Hofstetter에 의해 구현되었습니다.1974년에는 Culler-Harrison과 Lincoln Laboratory 간에 ARPANET을 통해 실시간 쌍방향 LPC 패킷 음성 통신이 최초로 이루어졌습니다.1976년에는 네트워크보이스 프로토콜을 사용하여 Culler-Harrison, ISI, SRI 및 LL 간에 3500비트/[citation needed]초로 첫 LPC 회의가 ARPANET을 통해 개최되었습니다.
LPC 계수 표현
LPC는 스펙트럼 엔벨로프 정보 전송에 자주 사용되므로 전송 오류에 대해 내성이 있어야 합니다.필터 계수를 직접 전송하는 것은 바람직하지 않습니다(계수의 정의에 대한 선형 예측 참조). 필터 계수는 오차에 매우 민감하기 때문입니다.즉, 아주 작은 오차는 전체 스펙트럼을 왜곡시킬 수 있으며, 더 나쁜 것은 작은 오차가 예측 필터를 불안정하게 만들 수 있다는 것입니다.
로그 면적비(LAR), 라인 스펙트럼 쌍(LSP) 분해 및 반사 계수와 같은 고급 표현이 있다.이들 중 특히 LSP 분해는 예측 변수의 안정성을 보장하며, 작은 계수 편차에 대한 스펙트럼 오차는 국지적이기 때문에 인기를 얻었다.
적용들
LPC는 음성 부호화와 음성 [17]합성에서 가장 널리 사용되는 방법이다.그것은 일반적으로 음성 분석과 재합성에 사용된다.예를 들어, GSM 표준과 같은 전화 회사에 의한 음성 압축의 한 형태로 사용됩니다.또, 음성을 디지털화해 암호화해 좁은 음성 채널로 송신할 필요가 있는 시큐어 무선에도 사용됩니다.이것의 초기 예는 미국 정부의 Navajo I입니다.
LPC 합성은 가수의 음성으로부터 추정되는 시변 필터에 대한 들뜸 신호로서 악기가 이용되는 보코더를 구축하기 위해 이용될 수 있다.이것은 일렉트로닉 음악에서 다소 인기가 있다.Paul Lansky는 선형 예측 코딩을 사용하여 잘 알려진 컴퓨터 음악 작품을 더 많이 만들었다.【1】1980년대의 인기 있는 Speak & Spell 교육용 장난감에 10차 LPC가 사용되었습니다.
LPC 프레딕터는 Shorten, MPEG-4 ALS, FLAC, SILK 오디오코덱 및 기타 무손실 오디오코덱에서 사용됩니다.
LPC는 바이올린 등 현악기의 [18]음색 분석 도구로 주목받고 있다.
「 」를 참조해 주세요.
레퍼런스
- ^ Deng, Li; Douglas O'Shaughnessy (2003). Speech processing: a dynamic and optimization-oriented approach. Marcel Dekker. pp. 41–48. ISBN 978-0-8247-4040-5.
- ^ Beigi, Homayoon (2011). Fundamentals of Speaker Recognition. Berlin: Springer-Verlag. ISBN 978-0-387-77591-3.
- ^ B.S. Atal (2006). "The history of linear prediction". IEEE Signal Processing Magazine. 23 (2): 154–161. Bibcode:2006ISPM...23..154A. doi:10.1109/MSP.2006.1598091. S2CID 15601493.
- ^ a b Y. Sasahira; S. Hashimoto (1995). "Voice pitch changing by Linear Predictive Coding Method to keep the Singer's Personal Timbre" (PDF).
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말)CS1 maint: 작성자 파라미터 사용(링크) - ^ US 2605361, C. Cutler, "통신 신호의 차분 양자화", 1952-07-29 발행
- ^ B. M. Oliver (1952). "Efficient coding". 31 (4). Nokia Bell Labs: 724–750.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ H. C. Harrison (1952). "Experiments with linear prediction in television". 31. Bell System Technical Journal: 764–783.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ P. Elias (1955). "Predictive coding I". IT-1 no. 1. IRE Trans. Inform.Theory: 16–24.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ P. Elias (1955). "Predictive coding II". IT-1 no. 1. IRE Trans. Inform. Theory: 24–33.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ S. Saito; F. Itakura (Jan 1967). "Theoretical consideration of the statistical optimum recognition of the spectral density of speech". J. Acoust. Soc.Japan.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말)CS1 maint: 작성자 파라미터 사용(링크) - ^ B.S. Atal; M.R. Schroeder (1967). "Predictive coding of speech". Conf. Communications and Proc.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말)CS1 maint: 작성자 파라미터 사용(링크) - ^ J.P. Burg (1967). "Maximum Entropy Spectral Analysis". Proceedings of 37th Meeting, Society of Exploration Geophysics, Oklahoma City.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ a b c d Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
- ^ a b Schroeder, Manfred R. (2014). "Bell Laboratories". Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder. Springer. p. 388. ISBN 9783319056609.
- ^ Atal, B.; Schroeder, M. (1978). "Predictive coding of speech signals and subjective error criteria". ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing. 3: 573–576. doi:10.1109/ICASSP.1978.1170564.
- ^ Schroeder, Manfred R.; Atal, Bishnu S. (1985). "Code-excited linear prediction (CELP): High-quality speech at very low bit rates". ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing. 10: 937–940. doi:10.1109/ICASSP.1985.1168147. S2CID 14803427.
- ^ Gupta, Shipra (May 2016). "Application of MFCC in Text Independent Speaker Recognition" (PDF). International Journal of Advanced Research in Computer Science and Software Engineering. 6 (5): 805-810 (806). ISSN 2277-128X. S2CID 212485331. Archived from the original (PDF) on 2019-10-18. Retrieved 18 October 2019.
- ^ Tai, Hwan-Ching; Chung, Dai-Ting (June 14, 2012). "Stradivari Violins Exhibit Formant Frequencies Resembling Vowels Produced by Females". Savart Journal. 1 (2).
추가 정보
- O'Shaughnessy, D. (1988). "Linear predictive coding". IEEE Potentials. 7 (1): 29–32. doi:10.1109/45.1890. S2CID 12786562.
- Bundy, Alan; Wallen, Lincoln (1984). A Generalisation of the Glivenko-Cantelli Theorem. Symbolic Computation. p. 61. doi:10.1007/978-3-642-96868-6_123. ISBN 978-3-540-13938-6.
- El-Jaroudi, Amro (2003). "Linear Predictive Coding". Wiley Encyclopedia of Telecommunications. Encyclopedia of Telecommunications. doi:10.1002/0471219282.eot155. ISBN 978-0471219286.