고조파 벡터 들뜸 부호화

Harmonic Vector Excitation Coding

Harmonic Vector Excitation Coding(HVXC)은 MPEG-4 Part 3(MPEG-4 Audio) 규격으로 지정음성 부호화 알고리즘으로, 매우 낮은 비트레이트 음성 부호화를 실시합니다.HVXC는 고정 및 가변 비트레이트 모드에서 2kbit/s 및 4kbit/s의 비트환율과 샘플링 주파수 8kHz를 지원합니다.또한 가변 비트레이트 [1]기술을 사용하여 1.2~1.7kbit/s와 같은 낮은 비트레이트에서도 동작합니다.인코더와 디코더의 알고리즘 지연의 합계는 36 [2]ms입니다.

1999년에 [3]ISO/IEC 14496-3:1999(MPEG-4 Audio)의 서브파트 2로 발행되었습니다.HVXC의 확장 버전은 MPEG-4 오디오 버전 2(ISO/IEC 14496-3:1999/Amd 1:2000)[4][5]에서 공개되었습니다.

MPEG-4 Natural Speech Coding Tool Set은 HVXC와 CELP(Code Excired Linear Prediction)의 2가지 알고리즘을 사용합니다.HVXC는 2 또는 4kbit/s의 낮은 비트환율로 사용됩니다.3.85kbit/s와 더불어 4kbit/s보다 높은 비트레이트는 CELP의 [6]대상이 됩니다.

테크놀로지

선형 예측 부호화

HVXC는 20ms마다 [2]블록별 적응과 함께 LPC(Linear Predictive Coding)를 사용합니다.LPC 파라미터는 Line Spectral Pair(LSP; 라인 스펙트럼 페어) 계수로 변환되며, 이 계수는 공동으로 [2]양자화됩니다.LPC 잔류 신호는 유성 또는 비음성으로 분류됩니다.유성음성의 경우에는 잔류파형이 파라메트릭 표현(보코더로서 동작)으로 부호화되고, 비음성의 경우에는 잔류파형이 양자화된다(따라서 하이브리드 음성 코덱으로서 동작한다).

유성(화음) 잔차 부호화

유성 세그먼트에서 잔류 신호는 피치 주기와 스펙트럼 [2]엔벨로프의 두 가지 파라미터로 나타납니다.피치 주기는 잔류 [2]신호의 자기 상관 피크 값에서 추정됩니다.이 과정에서 잔류신호를 자신의 시프트카피와 비교하고 선형의존성 측정에 의해 가장 큰 유사성을 갖는 시프트를 피치기간으로 동정한다.스펙트럼 엔벨로프는 [2]고조파당 하나씩 진폭 값 세트로 표시됩니다.이러한 값을 추출하기 위해 LPC 잔류 신호는 DFT [2]도메인으로 변환됩니다.DFT 스펙트럼은 고조파당 하나의 대역으로 분할됩니다.m번째 고조파의 주파수 대역은 피치 주파수인 (m-10/20)" ~ (m0+1/2)"의 DFT [2]계수로 구성됩니다.m번째 고조파의 진폭 값은 이러한 DFT [2]계수를 최적으로 나타내기 위해 선택됩니다.이 프로세스에서는 위상 정보가 폐기됩니다.그런 다음 가변 차원 가중 벡터 양자화를 사용하여 스펙트럼 엔벨로프를 코드화한다.이 프로세스는 Harmonic VQ라고도 불립니다.

유성 들뜬 소리와 무성의 들뜬 소리가 혼합된 음성을 보다 자연스럽고 부드럽게 하기 위해 세 가지 다른 유성 음성 모드(혼합 유성-1, 혼합 유성-2, 풀 유성)를 [2]구별한다.음성의 정도는 한 피치 주기의 시프트에서 정규화된 자기 상관 함수의 값에 의해 결정됩니다.선택된 모드에 따라 디코더에 의해 합성된 고조파 신호에 다른 양의 밴드 패스 가우스 노이즈가 부가된다.

무성(VXC) 잔여 코딩

비음성 세그먼트는 CELP 방식에 따라 부호화됩니다.이것은 벡터 들뜸 부호화(VXC)[2]라고도 불립니다.HVXQ의 CELP 코딩은 확률적 코드북만을 사용하여 수행됩니다.다른 CELP 코덱에서는 음성 세그먼트의 장기 예측을 수행하기 위해 동적 코드북이 추가로 사용됩니다.단, HVXC는 음성 세그먼트에 CELP를 사용하지 않기 때문에 동적 코드북은 설계에서 제외됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ ISO/IEC (2009-09-01), ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio (PDF), IEC, retrieved 2009-10-07
  2. ^ a b c d e f g h i j k Masayuki Nishiguchi (2006-04-17), Harmonic vector excitation coding of speech (PDF), Acoustical Science and Technology, retrieved 2009-10-09
  3. ^ ISO (1999). "ISO/IEC 14496-3:1999 - Information technology -- Coding of audio-visual objects -- Part 3: Audio". ISO. Retrieved 2009-10-09.
  4. ^ ISO (2000). "ISO/IEC 14496-3:1999/Amd 1:2000 - Audio extensions". ISO. Retrieved 2009-10-07.
  5. ^ ISO/IEC JTC 1/SC 29/WG 11 (July 1999), ISO/IEC 14496-3:/Amd.1 - Final Committee Draft - MPEG-4 Audio Version 2 (PDF), archived from the original (PDF) on 2012-08-01, retrieved 2009-10-07
  6. ^ Karlheinz Brandenburg; Oliver Kunz; Akihiko Sugiyama. "MPEG-4 Natural Audio Coding - Natural Speech Coding Tools" (PDF). Retrieved 2013-03-25.