엔트로피 부호화

Entropy coding

정보 이론에서, 엔트로피 부호화(또는 엔트로피 부호화)는 어떤 무손실 데이터 압축 방법이 소스의 엔트로피보다 크거나 같은 예상 코드 길이를 가져야 한다는 [1]샤논의 소스 부호화 정리에 의해 선언된 하한에 접근하려는 모든 무손실 데이터 압축 방법이다.

보다 정확하게 말하면 소스 코딩 정리에 따르면 소스 분포에 대해 예상되는 코드 길이는 E ~ [ ( ) x ~[ - b ( P ) style \ { { \ }[ (( x ) ) ] \ { } \ displaystyl ( l ( x ) } \ mathbbbb { ) } _ mathb { }코드 워드의 ymbols, d는 부호화 함수, b는 출력 코드 작성에 사용되는 기호 수, P는 소스 기호의 확률입니다.엔트로피 부호화는 이 하한에 접근하려고 시도합니다.

엔트로피 부호화의 주요 유형 중 하나는 [2]입력에서 발생하는 각 고유 심볼에 고유한 프리픽스 프리 코드를 생성하여 할당합니다.그런 다음 이러한 엔트로피 인코더는 각 고정 길이 입력 기호를 대응하는 가변 길이 프리픽스 없는 출력 코드 워드로 대체하여 데이터를 압축합니다.각 코드 워드의 길이는 해당 코드 워드의 발생 확률의 음의 로그와 거의 비례합니다.따라서 가장 일반적인 기호는 가장 짧은 [3]코드를 사용합니다.

가장 일반적인 엔트로피 부호화 기술 중 두 가지는 허프만 부호화와 산술 [4]부호화이다.데이터 스트림의 대략적인 엔트로피 특성을 미리 알고 있다면(특히 신호 압축에 대해) 보다 단순한 정적 코드가 유용할 수 있습니다.이러한 정적 코드에는 범용 코드(예: Elias 감마 코드 또는 피보나치 코드)와 골롬 코드(예: 단항 코드 또는코드)가 포함됩니다.

2014년부터 데이터 압축기는 산술 부호화의 압축비와 허프만 부호화와 유사한 처리 비용을 조합할 수 있는 엔트로피 부호화 기술의 비대칭 숫자 시스템군을 사용하기 시작했습니다.

유사성의 척도로서의 엔트로피

디지털 데이터를 압축하는 방법으로서 엔트로피 부호화를 사용하는 것 외에 엔트로피 인코더는 데이터 스트림과 기존 데이터 클래스 유사도를 측정하기 위해서도 사용할 수 있다.이는 각 데이터 클래스에 대해 엔트로피 코더/압축기를 생성하여 이루어집니다. 그런 다음 각 압축기에 비압축 데이터를 공급하고 어떤 압축기가 가장 높은 압축을 생성하는지 확인하여 알 수 없는 데이터를 분류합니다.최적의 압축 기능을 갖춘 코더는 미지의 데이터와 가장 유사한 데이터에 대해 훈련받은 코더일 것입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Duda, Jarek; Tahboub, Khalid; Gadgil, Neeraj J.; Delp, Edward J. (May 2015). "The use of asymmetric numeral systems as an accurate replacement for Huffman coding". 2015 Picture Coding Symposium (PCS): 65–69. doi:10.1109/PCS.2015.7170048.
  2. ^ "Education - Entropy Encoding". www.pcs-ip.eu. Retrieved 2020-10-13.
  3. ^ "What is Entropy Coding IGI Global". www.igi-global.com. Retrieved 2020-10-13.
  4. ^ Huffman, David (1952). "A Method for the Construction of Minimum-Redundancy Codes". Proceedings of the IRE. Institute of Electrical and Electronics Engineers (IEEE). 40 (9): 1098–1101. doi:10.1109/jrproc.1952.273898. ISSN 0096-8390.

외부 링크