용장성(정보 이론)
Redundancy (information theory)정보이론에서 용장성은 앙상블 X의 엔트로피 H(X)와 가능한 최대값 δ(X[1][2] 사이의 분수차를 측정합니다.비공식적으로 이것은 특정 데이터를 전송하기 위해 사용되는 낭비되는 "공간"의 양입니다.데이터 압축은 불필요한 용장성을 줄이거나 제거하는 방법입니다.또한 순방향 오류 수정은 용량이 제한된 노이즈가 많은 채널을 통해 통신할 때 오류 검출 및 수정을 목적으로 원하는 용장성을 추가하는 방법입니다.
정량적 정의
원시 데이터의 용장성을 기술할 때, 정보원의 비율은 심볼당 평균 엔트로피이다.기억력이 없는 소스의 경우, 이것은 단지 각 기호의 엔트로피일 뿐이고, 반면에, 확률적 과정의 가장 일반적인 경우, 그것은 다음과 같다.
한계에서, n은 무한대로 갈 때, 첫 번째 n개의 기호의 결합 엔트로피를 n으로 나눈다.정보 이론에서 언어의 "속도" 또는 "엔트로피"에 대해 말하는 것은 일반적이다.예를 들어, 정보의 출처가 영어 산문일 때 이것은 적절하다.메모리리스 소스의 레이트는 H(M입니다.정의상 메모리리스 [citation needed]소스의 연속된 메시지는 상호의존성이 없기 때문입니다.
언어 또는 출처의 절대 비율은 단순하다.
메시지 공간의 카디널리티 로그 또는 알파벳.(이 공식은 하틀리 함수라고 불리기도 합니다.)이 알파벳으로 전송할 수 있는 정보의 최대 전송 속도입니다.(로그는 사용 중인 측정 단위에 적합한 밑수를 구해야 합니다.)송신원이 메모리리스로 균일한 분포를 가지는 경우, 절대 레이트는 실제 레이트와 같습니다.
절대 용장성은 다음과 같이 정의할 수 있습니다.
절대 비율과 비율의 차이
의 양은 상대적인 용장성이라고 불리며 파일 크기를 줄일 수 있는 비율로 표현하면 가능한 최대 데이터 압축률을 제공합니다.(원래 파일 크기 대 압축 파일 크기의 비율로 표현하면 Rr)의 양으로 최대 압축률을 얻을 수 있습니다. redundancy 개념을 보완하는 것은 효율입니다 + R (\ { + {\{D )이 되도록 R, \ { {} {R} {R 로 정의됩니다. 균일한 분포의 메모리리스 소스는 100%의 용장성을 가집니다.
기타 개념
두 변수 간의 중복성을 측정하는 척도는 상호 정보 또는 정규화된 변형입니다.많은 변수들 사이의 용장성의 척도는 총 상관관계에 의해 제시된다.
압축 데이터의 용장성은n개의 Ln L또는 예상 데이터 L(nn})/과 nrate(\display style nrate의 길이의 차이를 말합니다. r (여기에서는 데이터가 에르고딕하고 정지되어 있다고 가정합니다.예를 들어 메모리리스 소스입니다).레이트 L ( n) / -r ( \ L ( ) / n - , \ !}는 n\ n, \ ! }이 할수록 임의로 작을 수 있지만 이론적으로는 L( n) - ( - n ) - r , r r, \ !}의 차이는 을 설정할 수 없습니다.불규칙한 정보원
정보이론적인 컨텍스트에서의 용장성은 2개의 상호 정보 간에 용장된 정보를 가리킬 수도 있습니다.예를 들어, X1{\displaystyle X_{1}}, X2{\displaystyle X_{2}},, Y{Y\displaystyle}, 그것은 합동 상호 정보 한계 상호 정보의 합보다:<>(X1, X2;Y)안 될 수 있다;나+나는(X2;Y){\displaystyle 1세(X_(X1;Y) 알려진 3변수다.{1이 경우 X_ 또는 X_에 의해 공개되는Y( 스타일 Y에 대한 정보 중 적어도 일부는 동일합니다.이러한 중복성의 공식은 공동 상호 정보가 이익의 합계보다 클 때 발생하는 시너지 개념을 보완하는 것으로, 공동 주에서만 공시되는 정보의 존재를 나타내며,[3][4] 단순한 출처 수집은 아니다.
「 」를 참조해 주세요.
레퍼런스
- ^ 여기서 A 는 확률 분포를 정의하는 집합이라고 합니다.
- ^ MacKay, David J.C. (2003). "2.4 Definition of entropy and related functions". Information Theory, Inference, and Learning Algorithms. Cambridge University Press. p. 33. ISBN 0-521-64298-1.
The redundancy measures the fractional difference between H(X) and its maximum possible value,
- ^ Williams, Paul L.; Beer, Randall D. (2010). "Nonnegative Decomposition of Multivariate Information". arXiv:1004.2515 [cs.IT].
- ^ Gutknecht, A. J.; Wibral, M.; Makkeh, A. (2021). "Bits and pieces: Understanding information decomposition from part-whole relationships and formal logic". Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences. 477 (2251). arXiv:2008.09535. Bibcode:2021RSPSA.47710110G. doi:10.1098/rspa.2021.0110. S2CID 221246282.
- Reza, Fazlollah M. (1994) [1961]. An Introduction to Information Theory. New York: Dover [McGraw-Hill]. ISBN 0-486-68210-2.
- Schneier, Bruce (1996). Applied Cryptography: Protocols, Algorithms, and Source Code in C. New York: John Wiley & Sons, Inc. ISBN 0-471-12845-7.
- Auffarth, B; Lopez-Sanchez, M.; Cerquides, J. (2010). "Comparison of Redundancy and Relevance Measures for Feature Selection in Tissue Classification of CT images". Advances in Data Mining. Applications and Theoretical Aspects. Springer. pp. 248–262. CiteSeerX 10.1.1.170.1528.