미분 엔트로피
Differential entropy정보이론 |
---|
![]() |
미분 엔트로피(sifferential entropy, 연속 엔트로피라고도 함)는 무작위 변수의 평균 돌발성의 척도인 (Shannon) 엔트로피 사상을 연속 확률 분포로 확장하려는 시도로 시작된 정보 이론의 개념이다. 불행히도 섀넌은 이 공식을 도출하지 못했고, 오히려 그것이 이산 엔트로피의 정확한 연속 아날로그라고 추측했을 뿐이지만, 그렇지 않다.[1]: 181–218 이산 엔트로피의 실제 연속 버전은 이산 점의 제한 밀도(LDDP)이다. 미분 엔트로피(여기 설명)는 문헌에서 흔히 접하지만, LDDP의 제한적인 경우로서, 이산 엔트로피와의 근본적 연관성을 상실하는 경우다.
정의
을(를) 된 X 을(를) 지원하는 확률밀도함수 {\을(를 가진 랜덤 변수가 되도록 하십시오 차동 엔트로피 X) 또는 ) 은(는) 다음과[2]: 243 같이 정의된다.
명시적 밀도함수 식이 없지만 명시적 정량함수 식이 있는 확률 의 경우 ( p) p h( {\ Q의 파생적 에서 정의될 수 있다 즉, 정량함수 () Q을(를) 다음으로
- ( )= 0 Q ( p) d h(int Q.
이산형 아날로그와 마찬가지로 차동 엔트로피의 단위는 로그의 기저에 따라 달라지는데, 이는 보통 2(즉, 단위는 비트)이다. 다른 기준에서 취한 로그에 대한 로그 단위를 참조하십시오. 조인트, 조건부 미분 엔트로피, 상대 엔트로피와 같은 관련 개념은 유사한 방식으로 정의된다. 이 불연속 아날로그와 달리, 차등 엔트로피:183–184 예를 들어, 수량 단위로 측정한 차동 엔트로피 log(1000) 같은 수량미터로 측정되지 않을 것이다;무한한 수량 차동 엔트로피o. 있는 장치가 X{X\displaystyle}.[4]을 측정하는데 사용되는 결정하는 오프셋다flog(1000) 1000으로 나눈 같은 수량보다 많다.
확률밀도함수가 1보다 클 수 있으므로 이산 엔트로피의 특성을 차등 엔트로피에 적용하려고 노력할 때 주의해야 한다. 예를 들어 분포 U 1/ ) 2)에음의 차등 엔트로피가 있음
미분 엔트로피가 0인, 1 ) {\mathcal )보다 작음. 따라서 미분 엔트로피는 이산 엔트로피의 모든 특성을 공유하지 않는다.
연속적인 상호 정보 ; ) 은 로 X 과 의 파티션에 대한 이산 상호 정보의 한계이기 때문에 이산 정보의 척도로서 근본적인 중요성을 유지하는 구별한다는 점에 유의하십시오.점점 더 미세해지다 X Y 의 선형 변환을 포함하여 비선형 동형성(연속적이고 고유하게 반전 가능한 지도에 따라 불변하며, 여전히 값의 연속적인 공간을 허용하는 채널을 통해 전송될 수 있는 이산 정보의 양을 나타낸다.
연속 공간으로 확장된 이산 엔트로피의 직접 아날로그에 대해서는 이산 점의 밀도 제한을 참조하십시오.
미분 엔트로피의 특성
- 확률 밀도 g 의 , K Kullback-Leibler d ( g g은 모든 곳에서 f= g 인 경우에만 0보다 크거나 같다. Similarly, for two random variables and , and with equality if and only if and are independent.
- 차동 엔트로피의 체인 규칙은 이산형 케이스와 같다[2]: 253 .
- .
- 차등 엔트로피는 번역 불변성, 즉 c 에 대한 번역 불변성 입니다[2]: 253
- 차동 엔트로피는 일반적으로 임의의 회전 불가능한 지도에서 불변성이 아니다.
- 일반적으로 임의 에서 한 치수=m( X ) {\} \right로 변환하는 경우 해당 엔트로피는 다음을 통해 관련된다.
- 여기서 x\은 m 의 Jacobian이다[7] 위와 같은 불평등은 변형이 편견이라면 평등이 된다. 또한 이 (가) 경직된 회전, 변환 또는 그 조합인 경우, Jacobian 결정요소는 항상 1이고, () = ( ){\ h이다
- If a random vector has mean zero and covariance matrix , 이 (가) 공동으로 가우스인 경우에만 동등하게(아래 참조).[2]: 254
그러나 차등 엔트로피는 다른 바람직한 특성을 가지고 있지 않다.
- 변수의 변화에서는 불변성이 아니므로 치수 없는 변수와 함께 가장 유용하다.
- 부정적일 수 있다.
이러한 단점을 해결하는 차동 엔트로피의 수정은 불변 측정 계수를 포함하는 상대적 정보 엔트로피(Kullback-Leibler difference)라고도 한다(이연성 지점의 제한 밀도 참조).
정규 분포에서의 최대화
정리
정규 분포를 사용하면 주어진 분산에 대해 차분 엔트로피가 최대화된다. 가우스 랜덤 변수는 등분산의 모든 랜덤 변수 중에서 엔트로피가 가장 크거나, 또는 평균과 분산의 제약조건에 따른 최대 엔트로피 분포가 가우스 변수다.[2]: 255
증명
( ) 을(를) 평균 μ 및 분산 }} 및 ( ) 을 (를) 같은 분산을 가진 임의의 PDF로 두십시오. 차등 엔트로피는 번역 이기 때문에 ( x) 이 (가) g( ) 과 (의 평균이 가정할 수 있다
두 분포 사이의 Kullback-Leibler 차이를 고려하십시오.
이제 주의하십시오.
결과는 분산을 통해서가 아닌 ( ) 에 의존하지 않기 때문이다. 두 결과를 결합하면 산출량이 증가한다.
Kullback-Leibler 발산 에서 f( )= g( ) 을 (를) 따를 때 동등하게.
대체증거
이 결과는 또한 변동 미적분을 사용하여 증명될 수 있다. 두 개의 Lagrangian 승수가 있는 Lagrangian 함수는 다음과 같이 정의할 수 있다.
여기서 g(x)는 평균 μ를 갖는 함수다. When the entropy of g(x) is at a maximum and the constraint equations, which consist of the normalization condition and the requirement of fixed variance 이가) 모두 충족되면 g(x)에 대한 작은 변동 Δg(x)가 L에 대해 ΔL을 생성하며, 이는 0과 같다.
이는 모든 작은 Δg(x)에 대해 유지되어야 하므로, 괄호 안의 항은 0이어야 하며 g(x) 수율에 대한 해결은 다음과 같다.
λ과0 λ에 대해 해결하기 위해 제약 조건 방정식을 사용하면 다음과 같은 정규 분포를 얻을 수 있다.
예제: 지수 분포
을 (를) 매개 변수 즉 확률밀도 함수와 함께 지수 분포 랜덤 변수로 사용
그것의 차등 엔트로피는 그 다음이다.
여기서는 계산을 간소화하기 위해 로그가 e로 가져갔음을 명시하기 위해 ( ) 가 아니라 ( X) h)}을 사용하였다.
추정기 오류와의 관계
차동 엔트로피는 추정기의 예상 제곱 오차에 대해 하한을 산출한다. 임의 변수 및 추정기 의 경우 다음이 유지된다.[2]
이 (가) 가우스 랜덤 변수이고 이 (가) X}의 평균인 경우에만 동일함
다양한 분포를 위한 차동 엔트로피
In the table below is the gamma function, is the digamma function, ,)= ( p) ( ) ( q ) {(+ 는 E 오일러의 상수다.[8]: 219–230
배포 이름 | 확률밀도함수(pdf) | 엔트로피 인 나츠 | 지원 |
---|---|---|---|
유니폼 | |||
정상 | |||
지수적 | |||
레일리 | |||
베타. | ( )= - (- ) - ,) 0≤ ≤ | ||
카우치 | |||
기를 | |||
카이-제곱 | |||
얼랑 | |||
F | |||
감마 | |||
라플라스 | |||
로지스틱 | |||
대수 정규 | |||
맥스웰-볼츠만 | |||
일반화 정규 분포 | |||
파레토 | |||
학생 t | |||
삼각형 | |||
바이불 | |||
다변량 정규 분포 |
차등 엔트로피 중 많은 것이 원산지다.[9]: 120–122
변형
위에서 설명한 것처럼 차동 엔트로피는 이산 엔트로피의 모든 속성을 공유하지 않는다. 예를 들어, 차동 엔트로피는 음수일 수 있다. 또한 연속 좌표 변환에서는 불변성이 아니다. 에드윈 톰슨 제인즈는 사실 위의 표현이 유한한 확률 집합에 대한 표현식의 올바른 한계가 아니라는 것을 보여주었다.[10]: 181–218
미분 엔트로피를 수정하면 이를 교정하기 위한 불변 측정 계수가 추가된다(이연성 점의 밀도 제한 참조). ( ) 이(가) 확률밀도로 더 제약되는 경우, 그 결과 개념은 정보이론에서 상대 엔트로피라고 불린다.
의 차동 엔트로피의 정의는 범위를 X h의 길이 h의 으로 분할하여 얻을 수 있다. This gives a quantized version of , defined by if . Then the entropy of is[2]
오른쪽의 첫 번째 항은 차동 엔트로피에 근접한 반면, 두 번째 항은 대략- ( h) 이다 이 절차를 통해 연속 랜덤 변수의 이산적 의미에서의 엔트로피는 이어야 한다는 것을 알 수 있다
참고 항목
참조
- ^ Jaynes, E.T. (1963). "Information Theory And Statistical Mechanics" (PDF). Brandeis University Summer Institute Lectures in Theoretical Physics. 3 (sect. 4b).
- ^ a b c d e f g h Cover, Thomas M.; Thomas, Joy A. (1991). Elements of Information Theory. New York: Wiley. ISBN 0-471-06259-6.
- ^ Vasicek, Oldrich (1976), "A Test for Normality Based on Sample Entropy", Journal of the Royal Statistical Society, Series B, 38 (1): 54–59, JSTOR 2984828.
- ^ Gibbs, Josiah Willard (1902). Elementary Principles in Statistical Mechanics, developed with especial reference to the rational foundation of thermodynamics. New York: Charles Scribner's Sons.
- ^ Kraskov, Alexander; Stögbauer, Grassberger (2004). "Estimating mutual information". Physical Review E. 60 (6): 066138. arXiv:cond-mat/0305641. Bibcode:2004PhRvE..69f6138K. doi:10.1103/PhysRevE.69.066138. PMID 15244698. S2CID 1269438.
- ^ Fazlollah M. Reza (1994) [1961]. An Introduction to Information Theory. Dover Publications, Inc., New York. ISBN 0-486-68210-2.
- ^ "proof of upper bound on differential entropy of f(X)". Stack Exchange. April 16, 2016.
- ^ Park, Sung Y.; Bera, Anil K. (2009). "Maximum entropy autoregressive conditional heteroskedasticity model" (PDF). Journal of Econometrics. Elsevier. 150 (2): 219–230. doi:10.1016/j.jeconom.2008.12.014. Archived from the original (PDF) on 2016-03-07. Retrieved 2011-06-02.
- ^ Lazo, A. and P. Rathie (1978). "On the entropy of continuous probability distributions". IEEE Transactions on Information Theory. 24 (1): 120–122. doi:10.1109/TIT.1978.1055832.
- ^ Jaynes, E.T. (1963). "Information Theory And Statistical Mechanics" (PDF). Brandeis University Summer Institute Lectures in Theoretical Physics. 3 (sect. 4b).