엔트로피 부호화

정보 이론에서, 엔트로피 부호화(또는 엔트로피 부호화)는 어떤 무손실 데이터 압축 방법이 소스의 엔트로피보다 크거나 같은 예상 코드 길이를 가져야 한다는 ^[1]샤논의 소스 부호화 정리에 의해 선언된 하한에 접근하려는 모든 무손실 데이터 압축 방법이다.

보다 정확하게 말하면 소스 코딩 정리에 따르면 소스 분포에 대해 예상되는 코드 길이는 E $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ ~ $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ [ $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ ( $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ ) $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ x ~ $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ [ - $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ b $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ ( P ) $]{$ $display$ style \ $mathbb$ { $E } _$ { $x$ \ $sim P$ $\mathbb {E} _{x\sim P}[l(d(x))]\geq \mathbb {E} _{x\sim P}[-\log _{b}(P(x))]$ }[ $l$ ( $d$ ( x ) ） ] \ $mathbb$ { } \ displaystyl ( l ( x ) } \ mathbbbb { $E$ ) } _ mathb { }코드 워드의 ymbols, $\displaystyle$ d는 $d$ 부호화 함수, $\displaystyle$ b는 $b$ 출력 코드 작성에 사용되는 기호 수, $\displaystyle$ P는 $P$ 소스 기호의 확률입니다.엔트로피 부호화는 이 하한에 접근하려고 시도합니다.

엔트로피 부호화의 주요 유형 중 하나는 ^[2]입력에서 발생하는 각 고유 심볼에 고유한 프리픽스 프리 코드를 생성하여 할당합니다.그런 다음 이러한 엔트로피 인코더는 각 고정 길이 입력 기호를 대응하는 가변 길이 프리픽스 없는 출력 코드 워드로 대체하여 데이터를 압축합니다.각 코드 워드의 길이는 해당 코드 워드의 발생 확률의 음의 로그와 거의 비례합니다.따라서 가장 일반적인 기호는 가장 짧은 ^[3]코드를 사용합니다.

가장 일반적인 엔트로피 부호화 기술 중 두 가지는 허프만 부호화와 산술 ^[4]부호화이다.데이터 스트림의 대략적인 엔트로피 특성을 미리 알고 있다면(특히 신호 압축에 대해) 보다 단순한 정적 코드가 유용할 수 있습니다.이러한 정적 코드에는 범용 코드(예: Elias 감마 코드 또는 피보나치 코드)와 골롬 코드(예: 단항 코드 또는 쌀 코드)가 포함됩니다.

2014년부터 데이터 압축기는 산술 부호화의 압축비와 허프만 부호화와 유사한 처리 비용을 조합할 수 있는 엔트로피 부호화 기술의 비대칭 숫자 시스템군을 사용하기 시작했습니다.

유사성의 척도로서의 엔트로피

디지털 데이터를 압축하는 방법으로서 엔트로피 부호화를 사용하는 것 외에 엔트로피 인코더는 데이터 스트림과 기존 데이터 클래스 간의 유사도를 측정하기 위해서도 사용할 수 있다.이는 각 데이터 클래스에 대해 엔트로피 코더/압축기를 생성하여 이루어집니다. 그런 다음 각 압축기에 비압축 데이터를 공급하고 어떤 압축기가 가장 높은 압축을 생성하는지 확인하여 알 수 없는 데이터를 분류합니다.최적의 압축 기능을 갖춘 코더는 미지의 데이터와 가장 유사한 데이터에 대해 훈련받은 코더일 것입니다.

「」를 참조해 주세요.

레퍼런스

^ Duda, Jarek; Tahboub, Khalid; Gadgil, Neeraj J.; Delp, Edward J. (May 2015). "The use of asymmetric numeral systems as an accurate replacement for Huffman coding". 2015 Picture Coding Symposium (PCS): 65–69. doi:10.1109/PCS.2015.7170048.
^ "Education - Entropy Encoding". www.pcs-ip.eu. Retrieved 2020-10-13.
^ "What is Entropy Coding IGI Global". www.igi-global.com. Retrieved 2020-10-13.
^ Huffman, David (1952). "A Method for the Construction of Minimum-Redundancy Codes". Proceedings of the IRE. Institute of Electrical and Electronics Engineers (IEEE). 40 (9): 1098–1101. doi:10.1109/jrproc.1952.273898. ISSN 0096-8390.

외부 링크

David McKay(2003)의 정보 이론, 추론 및 학습 알고리즘은 허프만 부호화와 산술 부호화를 포함한 섀넌 이론과 데이터 압축에 대한 소개를 제공한다.
소스 코딩, T. 비간드와 H.슈바르츠(2011).

[1] Duda, Jarek; Tahboub, Khalid; Gadgil, Neeraj J.; Delp, Edward J. (May 2015). "The use of asymmetric numeral systems as an accurate replacement for Huffman coding". 2015 Picture Coding Symposium (PCS): 65–69. doi:10.1109/PCS.2015.7170048.

[2] "Education - Entropy Encoding". www.pcs-ip.eu. Retrieved 2020-10-13.

[3] "What is Entropy Coding IGI Global". www.igi-global.com. Retrieved 2020-10-13.

[Huffman_1952_pp._1098–1101-4] Huffman, David (1952). "A Method for the Construction of Minimum-Redundancy Codes". Proceedings of the IRE. Institute of Electrical and Electronics Engineers (IEEE). 40 (9): 1098–1101. doi:10.1109/jrproc.1952.273898. ISSN 0096-8390.

[1]

[2]

[3]

[4]

Search

엔트로피 부호화

네임스페이스

더

목차

유사성의 척도로서의 엔트로피

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

엔트로피 부호화

유사성의 척도로서의 엔트로피

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.