음성 부호화

Speech coding

음성 부호화는 음성을 포함하는 디지털 오디오 신호의 데이터 압축 응용 프로그램입니다.음성 부호화는 음성 신호 처리 기술을 사용하여 음성 신호를 모델링하는 음성 고유 파라미터 추정을 사용하고, 결과적으로 모델링된 파라미터를 콤팩트 비트스트림으로 [1]표현하기 위한 범용 데이터 압축 알고리즘과 결합한다.

음성 부호화에는 모바일텔레포니Voice over IP(VoIP)[2]가 있습니다.모바일 텔레포니에서 가장 널리 사용되는 음성 부호화 기법은 Linear Predictive Coding(LPC; 선형 예측 부호화)이며, VoIP 어플리케이션에서 가장 널리 사용되는 것은 LPC 및 Modified Discretary Cosine Transform(MDCT; 수정 이산 코사인 변환) [citation needed]기술입니다.

음성 부호화에 사용되는 기법은 오디오 데이터 압축오디오 부호화에 사용되는 기법과 유사하며, 정신 음향학의 지식은 인간의 청각 시스템과 관련된 데이터만 전송하기 위해 사용된다.예를 들어 음성 대역 음성 부호화에서는 주파수 대역 400~3500Hz의 정보만 전송되지만 재구성된 신호는 여전히 파악하기에 충분하다.

음성 부호화는 음성 부호화의 다른 형태와 다른데, 음성 부호화는 대부분의 다른 음성 신호보다 단순한 신호이며, 음성의 특성에 대해 훨씬 더 많은 통계 정보를 이용할 수 있다는 것이다.그 결과 음성 부호화에 관련된 일부 청각 정보는 음성 부호화 컨텍스트에서 불필요할 수 있다.음성 부호화에서 가장 중요한 기준은 제한된 [3]양의 데이터를 사용하여 음성의 이해도와 쾌적함을 보존하는 것이다.또한, 긴 코딩 지연이 음성 [4]상호작용을 방해하기 때문에 대부분의 음성 애플리케이션은 낮은 코딩 지연을 필요로 합니다.


분류

음성 코더는 다음 두 가지 [5]유형이 있습니다.

  1. 파형 코더
  2. 보코더

음성 부호화의 한 형태로 본 샘플 압축

기존PCM 디지털텔레포니에서 사용되고 있는A-law 알고리즘과 μ-law 알고리즘(G.711)은 샘플당8비트만 필요로 하지만 [6]12비트의 분해능을 효과적으로 얻을 수 있는 음성 부호화의 초기 단계라고 할 수 있습니다.로그 압축 법칙은 저진폭 음성 신호를 따라 저진폭 노이즈가 들리지만 고진폭 음성 신호에 의해 가려진다는 점에서 인간의 청각 지각과 일치합니다.이는 음악 신호에 허용할 수 없는 왜곡을 발생시키지만 음성 파형의 피크 특성은 단일 기본 주파수를 갖는 주기적 파형으로서 음성의 단순한 주파수 구조와 결합되어 이러한 매우 단순한 순간 압축 알고리즘을 음성에 사용할 수 있게 합니다.

그 당시에는 델타 변조 변형인 다양한 알고리즘이 시도되었지만, 신중한 검토 끝에 초기 디지털 전화 시스템의 설계자가 A-law/μ-law 알고리즘을 선택했습니다.설계 당시 매우 낮은 복잡도로 33%의 대역폭 절감을 통해 탁월한 엔지니어링 타협이 이루어졌습니다.오디오 퍼포먼스는 허용 가능한 수준이며, 고정 전화 네트워크에서는 교환할 필요가 없습니다.

2008년에는 확장 가능한 구조를 가진 G.711.1 코덱이 ITU-T에 의해 표준화되었습니다.입력 샘플링 속도는 16kHz입니다.

최신 음성 압축

음성 압축에 관한 후기 작업의 대부분은 보안 군사 무선을 위한 디지털 통신에 대한 군사 연구에 의해 동기 부여되었으며, 적대적인 무선 환경에서 효과적인 운영을 위해 매우 낮은 데이터 속도가 요구되었다.동시에 VLSI 회로의 형태로 이전의 압축 기술보다 훨씬 더 많은 처리 능력을 사용할 수 있었습니다.그 결과, 현대의 음성 압축 알고리즘은 훨씬 더 높은 압축률을 달성하기 위해 1960년대보다 훨씬 더 복잡한 기술을 사용할 수 있었다.

이러한 기술은 민간 응용 프로그램에 사용되는 공개 연구 자료를 통해 이용할 수 있었고,[citation needed] 이전의 아날로그 시스템보다 훨씬 더 높은 채널 용량을 가진 디지털 이동 전화 네트워크를 구축할 수 있었다.

가장 널리 사용되는 음성 부호화 알고리즘은 LPC(Linear [7]Predictive Coding)에 기초하고 있습니다.특히, 가장 일반적인 음성 부호화 방식은 예를 들어 GSM 표준에서 사용되는 LPC 기반 코드 들뜸 선형 예측 (CELP) 부호화입니다.CELP에서 모델링은 스펙트럼 엔벨로프를 모델링하는 선형 예측 단계와 선형 예측 모델의 잔차 코드북 기반 모델의 두 단계로 나뉜다.CELP에서는 선형 예측 계수(LPC)가 계산 및 양자화되며, 일반적으로 라인 스펙트럼 쌍(LSP)으로 사용됩니다.신호의 실제 음성 부호화에 가세해, 송신 에러에 의한 손실을 피하기 위해서, 송신에 채널 부호화를 사용할 필요가 있는 경우가 많습니다.최선의 전체적인 부호화 결과를 얻기 위해 음성 부호화와 채널 부호화 방법이 쌍으로 선택되며, 음성 데이터 스트림의 보다 중요한 비트는 보다 견고한 채널 부호화에 의해 보호된다.

이산 코사인 변환(DCT) 알고리즘의 일종인 Modified Discrete Cosine Transform(MDCT; 수정 이산 코사인 변환)은 [8]1999년에 도입된 AAC-LD 형식에 사용되는 LD-MDCT라는 이름의 음성 부호화 알고리즘으로 수정되었습니다.MDCT는 2006년에 [9]도입된 G.729.1 와이드밴드 오디오코덱, [10]2010년에 도입된 Apple의 FaceTime(AAC-LD 사용), [11]2011년에 도입된 CELT 코덱 등 Voice-over-IP(VoIP) 애플리케이션에서 널리 채택되고 있습니다.

Opus는 자유 소프트웨어 음성 코더입니다.MDCT 및 LPC 오디오 압축 알고리즘을 [12]모두 조합하고 있습니다.WhatsApp[13][14][15]VoIP 통화에 널리 사용됩니다.PlayStation 4 비디오 게임 콘솔은 PlayStation Network 시스템 파티 [16]채팅에도 CELT/Opus 코덱을 사용합니다.

코덱2는 700비트/초의 [17]매우 뛰어난 압축을 실현하는 또 다른 자유 소프트웨어 음성 코더입니다.

서브필드

광대역 오디오 코딩
협대역 오디오 코딩

「 」를 참조해 주세요.

레퍼런스

  1. ^ M. 아르요나 라미레즈와 M.Wiley Encyclopedia of Telecommunications, J. G. Proakis, Ed, 뉴욕: Wiley, 2003, vol. 3, 페이지 1299-1308.
  2. ^ M. 아르요나 라미레즈와 M.Minami, "저비트율 레코딩 방법에 대한 기술과 표준"은 The Handbook of Computer Networks, H. Bidgoli, Ed, New York: Wiley, 2011, vol. 2, 447-467.
  3. ^ P. Kroon, "음성 부호화 및 합성", W. Bastiaan Klejn 및 K. Paliwal, Ed. 암스테르담:엘세비어 사이언스, 1995년, 467-494페이지.
  4. ^ J. H. 첸, R. V. 콕스, Y.-C.Lin, N. S. Jayant 및 M. J. Melchner CCITT 16kb/s 음성 부호화 표준용 저지연 CELP 부호화기.IEEE J. 선택.지역통신 10(5): 830-849, 1992년 6월
  5. ^ "Soo Hyun Bae, ECE 8873 Data Compression & Modeling, Georgia Institute of Technology , 2004". Archived from the original on 7 September 2006.
  6. ^ N. S. Jayant와 P.Null, 파형의 디지털 코딩.엥글우드 절벽: 프렌티스 홀, 1984년.
  7. ^ Gupta, Shipra (May 2016). "Application of MFCC in Text Independent Speaker Recognition" (PDF). International Journal of Advanced Research in Computer Science and Software Engineering. 6 (5): 805–810 (806). ISSN 2277-128X. S2CID 212485331. Archived from the original (PDF) on 2019-10-18. Retrieved 18 October 2019.
  8. ^ Schnell, Markus; Schmidt, Markus; Jander, Manuel; Albert, Tobias; Geiger, Ralf; Ruoppila, Vesa; Ekstrand, Per; Bernhard, Grill (October 2008). MPEG-4 Enhanced Low Delay AAC - A New Standard for High Quality Communication (PDF). 125th AES Convention. Fraunhofer IIS. Audio Engineering Society. Retrieved 20 October 2019.
  9. ^ Nagireddi, Sivannarayana (2008). VoIP Voice and Fax Signal Processing. John Wiley & Sons. p. 69. ISBN 9780470377864.
  10. ^ Daniel Eran Dilger (June 8, 2010). "Inside iPhone 4: FaceTime video calling". AppleInsider. Retrieved June 9, 2010.
  11. ^ Timothy B에 의한 CELT 코덱의 프레젠테이션.Terriberry (65분 분량의 비디오, PDF 형식의 프레젠테이션 슬라이드도 참조)
  12. ^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B.; Vos, Koen (October 2013). High-Quality, Low-Delay Music Coding in the Opus Codec. 135th AES Convention. Audio Engineering Society. arXiv:1602.04845.
  13. ^ Leyden, John (27 October 2015). "WhatsApp laid bare: Info-sucking app's innards probed". The Register. Retrieved 19 October 2019.
  14. ^ Hazra, Sudip; Mateti, Prabhaker (September 13–16, 2017). "Challenges in Android Forensics". In Thampi, Sabu M.; Pérez, Gregorio Martínez; Westphall, Carlos Becker; Hu, Jiankun; Fan, Chun I.; Mármol, Félix Gómez (eds.). Security in Computing and Communications: 5th International Symposium, SSCC 2017. Springer. pp. 286–299 (290). doi:10.1007/978-981-10-6898-0_24. ISBN 9789811068980.
  15. ^ Srivastava, Saurabh Ranjan; Dube, Sachin; Shrivastaya, Gulshan; Sharma, Kavita (2019). "Smartphone Triggered Security Challenges: Issues, Case Studies and Prevention". In Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (eds.). Cyber Security in Parallel and Distributed Computing: Concepts, Techniques, Applications and Case Studies. Cyber Security in Parallel and Distributed Computing. John Wiley & Sons. pp. 187–206 (200). doi:10.1002/9781119488330.ch12. ISBN 9781119488057. S2CID 214034702.
  16. ^ "Open Source Software used in PlayStation4". Sony Interactive Entertainment Inc. Retrieved 2017-12-11.
  17. ^ "GitHub - Codec2". GitHub. November 2019.

외부 링크