쿨백-라이블러 발산

Kullback–Leibler divergence

수학 통계에서 Kullback-Leibler diversity, ( Q Q또는 상대적 엔트로피라고도 함)은 통계적 거리: 하나의 확률 분포 Q가 두 번째, 기준 확률 분포 P와 어떻게 다른지 측정값이다.[1][2]Q로부터의 P의 차이를 간단히 해석하면 실제 분포가 P일Q를 모델로 사용했을 때 예상되는 과도한 놀라움이다.거리가긴 하지만 가장 친숙한 형태의 거리인 미터법은 아니다: 두 분포에서 비대칭이며(정보의 변동과 대조적으로), 삼각 불평등을 만족시키지 못한다.대신 정보 기하학적으로 볼 때 그것은 발산이며 [3]거리 제곱의 일반화이며, 분포의 특정 등급(기존 지수 계열)에 대해서는 일반화된 피타고라스 정리(거리 제곱에 적용됨)를 만족시킨다.[4]

단순 사례에서 상대 엔트로피 0은 해당 두 분포가 동일한 양의 정보를 가지고 있음을 나타낸다.그것은 정보 시스템의 상대적 (Shannon) 엔트로피의 특성화, 연속적인 시계열에서의 무작위성, 추론의 통계적 모델을 비교할 때의 정보 이득 등의 이론적 응용과 응용통계, 유동역학, 신경과학생물정보학 등의 실용적 응용을 모두 가지고 있다.

소개 및 컨텍스트

확률 분포 P {\ P과 Q {\displaystyle 을(를) 고려하십시오 으로 P 은 데이터, 관측치 또는 측정된 확률 분포를 나타낸다.분포 은(는) P P}의 이론, 설명 또는 근사치를 나타낸다그런 다음 Kullback-Leibler 차이점은 {\}에 최적화된 코드가 Q{\}에 최적화된 코드를 하여 P 의 샘플 인코딩에 필요한 비트 수의 평균 차이로 해석된다 Q }의 역할에 유의하십시오.은(는) 예상-최대화(EM) 알고리즘ELBO(증거 하한) 계산과 같이 계산하기 쉬운 일부 상황에서 역전될 수 있다.

어원

상대 엔트로피 솔로몬 Kullback와 리처드 Leibler Kullback에 및에 의해;"H1의 차별의 평균 정보{\displaystyle H_{1}}과 H2{\displaystyle H_{2}}관찰당μ 1{\displaystyle \mu에서{1}}"[5]로 Leibler(1951년)이 하나 둘 확률 수준을 비교하고 있었다.sures, H , }}는 측정 , }}(존중하게) 중에서 선택하는 가설이다.They denoted this by , and defined the "'divergence' between and " as the symmetrized quantity 해롤드 제프리스가 1948년에 이미 정의하고 사용했던 것이다[6]Kullback(1959년)에서 대칭형식을 다시 "전원"이라고 하며, 각 방향의 상대적 엔트로피를 두 분포 사이의 "직접적 다이버전스"라고 부른다.[7] Kullback은 차별 정보라는 용어를 선호했다.[8]대칭적 차이가 삼각 불평등을 만족시키지 못하기 때문에 "분산"이라는 용어는 거리(금속)와 대조적이다.[9]대칭 분산의 초기 사용과 다른 통계적 거리에 대한 수많은 참조가 Kullback(1959, 페이지 6–7, 1.3 분기)에 제시되어 있다.비대칭 "직접적 발산"은 Kullback-Leibler diversity로 알려지게 된 반면, 대칭적으로 표현된 "diversity"는 현재 Jeffreys diversity로 언급되고 있다.

정의

동일한 확률 공간(Q})에 정의된 이산 확률 P 에 대해Q 에서 까지의 상대 엔트로피는 다음과 같이 정의된다[10].

에 해당하는

즉, 확률 Q 사이의 로그 차이에 대한 기대값이다 모든 x {\ x = Q에 대해서만 정의된다.은(는) x)= 절대 연속성)을 의미한다.( ) 이(가) 0일 때마다 해당 용어의 기여는 0으로 해석되기 때문에

연속 랜덤 변수 Q 의 경우 상대 엔트로피가 적분으로 정의된다.[11]: p. 55

여기서 은(는) 및 Q{\ Q확률 밀도를 나타낸다

보다 일반적으로 Q Q이(가) 설정된 에 대한 확률 측정값이고 와) 관련하여 P displaystyle Q에서 P {\ P}까지의 엔트로피가 절대적으로 로 정의된다.

여기서 Q (는) 대한 P 라돈-Nikodym 파생이며 우측에 표현이 존재한다는 것을 전제로 한다.동등하게 (체인 규칙에 의해), 이것은 다음과 같이 기록될 수 있다.

which is the entropy of relative to . Continuing in this case, if is any measure on for which the densities and {이(가) 존재하며( 및 Q 에 대해 절대적으로 연속됨을 의미), Q 에서 P까지의 상대 엔트로피는 다음과 같이 주어진다.

은(는) = ( P+ }2로 취할 수 있으므로, 밀도의 존재를 가정할 때 일반성의 손실은 없다는 점에 유의하십시오정보가 비트 단위로 측정되는 경우 이 공식의 로그는 베이스 2로, 정보가 nats로 측정되는 경우 베이스 로 측정된다.상대 엔트로피를 포함하는 대부분의 공식은 로그의 기저에 관계없이 유지된다.

을(를) 단어로 참조하기 위한 다양한 규약이 존재한다.흔히 Q 사이의 차이를 일컫지만, 이것은 관계에서 근본적인 비대칭성을 전달하지 못한다.때로는 이 글에서와 같이 에서 P 이(가) 되거나Q {\ 에서 P {\ P 차이 나는 것으로 설명할 수 있다This reflects the asymmetry in Bayesian inference, which starts from a prior and updates to the posterior . Another common way to refer to is as the relative entropy of with respect to 스타일 Q.

기본 예

Kullback은[2] 다음과 같은 예를 제시한다(표 2.1, 예 2.1).PQ를 표와 그림에 표시된 분포가 되도록 한다.P는 그림 왼쪽의 분포로, = 2} p= 4을(를) 갖는 이항 분포로, Q는 그림 오른쪽의 분포로, 한 세 가지 결과 x= 1, 2(예: ={ , 2, 2)를)로 한다. 각각 확률 = / 3

상대 엔트로피를 나타내는 두 가지 분포

상대 엔트로피 P)}은 다음과 같이 계산한다이 예는 nats에서 결과를 얻기 위해 지정된 ln인 base e와 함께 자연 로그를 사용한다(정보 단위 참조).

해석

에서 까지의 상대 엔트로피는 ( Q로 표시된다

머신러닝의 맥락에서 (Q ){\ Q은 현재 되고 있는 Q 대신 P 을(\playstylaralleline Q)를 사용한다면 달성되는 정보 이득이라고 하는 경우가 많다.정보이론과 유추하여 에 관하여 Q의 상대 엔트로피라고 하며 코딩 이론의 맥락에서, 로부터 코딩에 필요한 추가 비트의 예상 수를 측정하여 ( 을 구성할 수 있다. 최적화된 코드 대신 Q 에 최적화된 코드를 사용하는 P .

베이시안 추론의 언어로 표현된 Q은 자신의 신념을 이전의 확률 Q 에서 후위 확률 분포 수정하여 얻은 정보를 측정한 값이다.Q{Q\displaystyle}은 일반적으로 이론, 모드를 나타낼 때 Q{Q\displaystyle}응용 프로그램에서 P{P\displaystyle}.[12]과 가까워지려고 정보를 금액, P{P\displaystyle}일반적으로, 데이터, 관찰, 또는 정확하게 계산된 이론적 분포의"진정한"분포를 나타냅니다.l, d에스크립션 또는 근사치 P 에 가장 근접한 Q }를 찾기 위해 KL 분산을 최소화하고 정보 투영을 계산할 수 있다

통계적 거리지만 가장 친숙한 형태의 거리인 미터법이 아니라 그 대신 발산이다.[3]지표가 대칭적이고 삼각형 불평등을 만족시키는 선형 거리를 일반화하는 반면, 다이버전스는 비대칭적이고 거리 제곱을 일반화하며, 어떤 경우에는 일반화된 피타고라스 정리를 만족한다.일반적으로 Q Q은(는) 과 같지 않으며 비대칭성이 형상의 중요한 부분이다.[3]상대 엔트로피의 극소형 형식, 특히 헤시안 형식은 피셔 정보 측정기준과 동일한 측정기준 텐서를 제공한다. § 피셔 정보 측정기준을 참조한다.상대 엔트로피는 지수 패밀리에 대해 일반화된 피타고라스 정리(지오메트리로 해석되는 다지관)를 만족시키며, 이것은 예를 들어 정보 투영최대우도 추정에 의한 기하학적 수단으로 상대 엔트로피를 최소화할 수 있다.[4]

상대 엔트로피는 브레그만 다이버전스(f-divergenes)의 종류뿐만 아니라 F-divergenes(f-divergenes)라고 불리는 더 광범위한 통계적 다이버전스(divergenes)의 특수한 경우로서, 두 등급의 구성원인 확률에 대한 그러한 차이만이 유일하다.

Arthur Hobson은 상대 엔트로피가 일부 원하는 특성을 만족시키는 확률 분포 사이의 차이의 유일한 척도라는 것을 증명했는데, 이는 엔트로피의 일반적으로 사용되는 특성화에 나타나는 분포에 대한 규범적 확장이다.[13]따라서 상호 정보Kullback-Leibler의 분리에 따라 정의될 수 있기 때문에 특정 관련 조건을 준수하는 유일한 상호 의존의 척도다.

동기

정규 분포의 상대적 엔트로피 그림.전형적인 비대칭성이 뚜렷이 드러난다.

정보 이론에서 Kraft-McMillan 정리는 가능성 중 하나의 을 식별하기 위한 메시지를 코딩하기 위한 직접 해독 가능한 코드화 체계가 암시적 확률 분포 ( x )= 2 - 을(으)로 볼 수 있음을 확립한다. 위에 있는 서 {i {\i}}}은(는) i {\에 대한 코드 길이입니다.따라서 상대 엔트로피는 실제 분포 P에 기초한 코드를 사용하는 것과 비교하여 주어진 (잘못된) 분포 최적인 코드를 사용할 경우 전달해야 하는 기준점당 예상 추가 메시지 길이로서 해석할 수 있다

where is the cross entropy of and , and is the entropy of (which is the same as the cross-entropy of P with itself).

상대 엔트로피 ( Q분포 Q가 분포 P로부터 얼마나 떨어져 있는지를 나타내는 척도로 기하학적으로 생각할 수 있다.기하학적으로 그것은 간격이다: 비대칭적이고 일반화된 형태의 거리 제곱이다.교차 엔트로피 ( H (는 그 자체로 그러한 측정(으로 함수)이지만, (P) ( ) = H는 0이 아니기 때문에 거리로 생각할 수 없다.은 H( ) 스타일 을(를) 빼서 ( Q) 스타일 이( 개념과 더 밀접하게 일치하도록 함으로써 고칠 수 있다.결과 함수는 비대칭이며, 이 함수는 대칭화될 수 있지만(§ 대칭 분기 참조), 비대칭 형식이 더 유용하다.기하학적 해석에 대한 자세한 내용은 § 해석을 참조하십시오.

상대 엔트로피는 큰 편차 이론에서 "레이트 함수"와 관련이 있다.[14][15]

특성.

( Q이 거의 모든 곳에서 = (가) 0이면 Gibbs의 불평등이라고 알려진 결과.The entropy thus sets a minimum value for the cross-entropy , the expected number of bits required when using a code based on rather than ; and the Kullback–Leibler divergence therefore rep"참" 분포 이(가) 아닌 확률 Q 에 해당하는 코드가 사용되는 경우 에서 도출된 x{\}을(를) 식별하기 위해 전송되어야 하는 추가 비트의 예상 개수를 유감스럽게 여긴다
  • 일반 사례에 대한 상한은 존재하지 않는다.단, Q{\(가) 동일한 이산수량을 분포하여 구축된 두 개의 이산 확률 분포인 경우, Q 의 최대값을 계산할 수 있는 것으로 나타났다.[16]
  • 상대 엔트로피는 연속적인 분포에 대해 잘 정의되어 있으며, 더욱이 모수 변환에서는 불변한다.For example, if a transformation is made from variable to variable , then, since and the relative entropy may be rewritten:
여기서 = ( ) = ) 변환이 연속적이라고 가정했지만, 이럴 필요는 없다.은 x (가) 차원 변수인 경우 ( 이(가) 치수가 없는 경우(예: P (가 치수되기 때문에 상대 엔트로피가 치수 일관적인 양을 산출한다는 것을 보여준다.로그 용어의 주장은 반드시 그렇듯이 차원이 없고 유지된다.따라서 정보 이론[17](자체 정보샤논 엔트로피 등)에서 일부 다른 속성보다 더 근본적인 양으로 볼 수 있는데, 이는 비구체 확률에 대해 정의되지 않거나 음수가 될 수 있다.
  • 상대 엔트로피는 섀넌 엔트로피와 거의 같은 방식으로 독립 분포첨가된다. , }}이 독립된 분포인 경우, 접합 밀도 ( x, y)= P ( ) ( ) , , }}: 이와 마찬가지로.
  • Relative entropy is convex in the pair of probability mass functions, i.e. if and are two pairs of probability mass func그럼, tions, then, then

변동 추론을 위한 이중성 공식

다음 결과는 돈스커와 바라단 때문에 [18]돈스커와 바라단의 변동 공식으로 알려져 있다.

Theorem [Duality Formula for Variational Inference] Let be a set endowed with an appropriate -field , and two probability measures and , which formulate two probability spaces and with . ( indicates that is absolutely continuous with respect to .) Assume that there isa common dominating probability measure such that and . Let denote any real-valued random variable on that satisfies ) 그러면 다음과 같은 평등이 유지된다.

또한, 우측의 우수는 그것이 지탱하는 경우에만 얻어진다.

almost surely with respect to probability measure , where and denote the Radon-Nikodym derivatives of the probability measures and 에 대한

증명. 라돈-니코딤 정리젠센의 불평등을 이용한 측정-이론적 증거를 찾아보자.

For a short proof, let and . By simple calculations we have

그러므로

여기서 마지막 불평등은 ( Q ) 에서 따르며 = = ^{*}}인 경우에만 평등이 발생한다 결론은 다음과 같다.

다변량 정규 분포

Suppose that we have two multivariate normal distributions, with means and with (non-singular) covariance matrices If the two distributions have the same dimension, , then the relative entropy b분포 간은 다음과 같다.[20]: p. 13

마지막 항을 제외한 모든 항은 밀도 함수의 요인 중 하나이거나 자연적으로 발생하는 표현식의 base-e 로그이기 때문에 마지막 항의 로그는 base e로 가져가야 한다.따라서 이 방정식은 nats로 측정된 결과를 제공한다.위의 전체 식을 ( ) 로 나누면 비트의 차이가 발생한다.

특별한 경우 및 변동 추론의 공통적인 양은 대각선 다변량 정규 분포와 표준 정규 분포 사이의 상대적인 엔트로피(평균 0과 단위 분산):

메트릭스 관련

상대적 엔트로피는 통계적 거리인 반면 확률분포의 공간에 대한 지표가 아니라 발산이다.[3]지표가 대칭적이고 삼각형 불평등을 만족시키는 선형 거리를 일반화하는 반면, 다이버전스는 일반적으로 비대칭적이고 거리 제곱을 일반화하며, 어떤 경우에는 일반화된 피타고라스 정리를 만족한다.In general does not equal , and while this can be symmetrized (see § Symmetrised divergence), the asymmetry is an important part of the geometry.[3]

확률 분포 공간에 위상을 생성한다.좀 더 구체적으로 만약 { 1, 2, \{\}}이(가) 다음과 같은 분포의 순서라면,

라고 한다.

핀커의 불평등에는 다음과 같은 것이 수반된다.

여기서 후자는 전체 변동의 일반적인 수렴을 의미한다.

Fisher 정보 메트릭

상대 엔트로피는 피셔 정보 메트릭과 직접 관련이 있다.이것은 다음과 같이 명시할 수 있다.Assume that the probability distributions and are both parameterized by some (possibly multi-dimensional) parameter . Consider then two close by values of and 매개 변수 이(가) 매개 변수 값 0 과(와) 소량만 차이가 나도록 구체적으로는 (아인슈타인 합계 협약 사용)

with a small change of in the direction, and 확률 분포의 해당 변화율.Since relative entropy has an absolute minimum 0 for , i.e. , it changes only to second order in the small parameters . More formally, as for any minimum, the first derivatives of the divergence vanish

그리고 테일러 확장에 의해 하나는 2차까지 주문을 받는다.

헤시안 매트릭스의 분기점

양수 반미완성이어야 한다. (를) 다양하게(그리고 하위 인덱스 0을) 내버려두면, g ()){\은 피셔 정보 메트릭이라고 하는 parameter 매개 변수 공간에 (가 퇴보하는) 리만 메트릭을 정의한다.

피셔 정보 메트릭 정리

( ,) 이(가) 다음과 같은 규칙성 조건을 만족하는 경우:

exist,

여기서 ξρ과 독립적이다.

다음:

정보의 변동

또 다른 정보-이론적 지표는 정보의 변화로, 대략 조건부 엔트로피의 대칭이다.이산 확률 공간파티션 집합에 대한 메트릭이다.

정보 이론의 다른 양과의 관계

다른 많은 양의 정보이론은 특정 사례에 대한 상대적 엔트로피의 적용으로 해석될 수 있다.

자기 정보

신호, 무작위 변수 또는 사건정보 내용이라고도 하는 자체 정보는 주어진 결과 발생 확률의 음수 로그로 정의된다.

이산 랜덤 변수에 적용할 경우, 자기 정보는 다음과[citation needed] 같이 표현될 수 있다.

분포 (i ) 의 확실성을 나타내는 Kronecker 델타에서 확률 분포 P ) 의 상대 엔트로피입니다 즉, 분포 P( 식별하기 위해 전송해야 하는 추가 비트 수입니다. 수신기가 사용할 수 있지만, i= 은(는) 사실이 아니다

상호정보

상호 정보,

is the relative entropy of the product of the two marginal probability distributions from the joint probability distribution — i.e. the expected number of extra bits that must be transmitted to identify and 공동 분포 대신 한계 분포만 사용하여 코드화된 경우 마찬가지로, 관절 P( , Y) 이(가) 알려진 경우, 의 값이 수신기에 아직 알려지지 않은 Y Y}을(를 식별하기 위해 평균적으로 전송되어야 하는 추가 비트의 예상 수입니다.

섀넌 엔트로피

섀넌 엔트로피,

에서 X {\(를) 식별하기 위해 전송해야 하는 비트 수입니다. X, U( ) 랜덤 변수에 대한 균등 분포의 상대 엔트로피는 줄임. — i.e. less the expected number of bits saved, which would have had to be sent if the value of were coded according to the uniform distribution rather than the true distribution .

조건부 엔트로피

조건부 엔트로피[21],

is the number of bits which would have to be transmitted to identify from equally likely possibilities, less the relative entropy of the product distribution from the true joint distribution i.e. less the expected number of bits saved which would have had to be sent if the value of were coded according to the uniform distribution rather than the conditional distribution of given 스타일 .

크로스 엔트로피

분산 p에서 발생하는 일련의 가능한 이벤트가 있을 때 엔트로피 인코딩을 사용하여 (무손실 데이터 압축으로) 인코딩할 수 있다.이것은 각 고정 길이 입력 기호를 해당 고유 가변 길이 접두사 없는 코드(예: 확률 p = (1/2, 1/4, 1/4)로 인코딩할 수 있는 이벤트(A, B, C)로 교체하여 데이터를 압축한다(0, 10, 11).만약 우리가 미리 분포 p를 알고 있다면, 우리는 최적의 인코딩을 고안할 수 있다(예: 허프먼 코딩을 사용하는 것).우리가 인코딩하는 메시지는 평균적으로 가장 짧은 길이를 가지며(인코딩된 이벤트는 p에서 샘플링된 것으로 가정), 섀넌p 엔트로피( ( p)로 표시됨)와 같을 것이다.그러나 엔트로피 인코딩 체계를 만들 때 다른 확률 분포(q)를 사용하면 가능성의 집합에서 사건을 식별하기 위해 평균적으로 더 많은 수의 비트가 사용될 것이다.이 새로운 (더 큰) 숫자는 pq 사이의 교차 엔트로피에 의해 측정된다.

확률 분포(pq) 사이의 교차 엔트로피는 "참" 분포 p가 아니라 주어진 확률 분포 q에 기초하여 코딩 방법을 사용하는 경우, 가능성 집합에서 사건을 식별하는 데 필요한 평균 비트 수를 측정한다.따라서 동일한 확률 공간에 대한 두 분포 pq에 대한 교차 엔트로피는 다음과 같이 정의된다.

이를 명시적으로 파생하려면 위의 동기 섹션을 참조하십시오.

이 시나리오에서 상대 엔트로피(kl-diversity)는 p 대신 q를 인코딩 방식 구성에 사용하기 때문에 이벤트 인코딩에 필요한 평균 비트 수( (p) {을 초과)로 해석할 수 있다.

베이시안 업데이트

베이지안 통계에서 상대 엔트로피는 사전 분포에서 후분포로의 이동에 따른 정보 의 척도로 사용될 수 있다 p( )( ) 만약 새로운 ={\}이 발견되면 의 후분포를 업데이트하는 데 사용될 수 있다. 에서 Bayes의 정리를 사용하여 p ) p 까지:

이 분포에는 새로운 엔트로피가 있다.

which may be less than or greater than the original entropy . However, from the standpoint of the new probability distribution one can estimate that to have used the original code based on instead of a new code based on ) 은(는) 예상되는 비트 수를 추가했을 것이다.

메시지 길이까지따라서 이는 = 을(를) 발견하여 얻은 에 대한 유용한 정보 또는 정보 이득의 양을 나타낸다

If a further piece of data, , subsequently comes in, the probability distribution for can be updated further, to give a new best guess . If one reinvestigates the information gain for using ( y ,) ( I ) 가) 아닌, p (x\mid I displaystyle I)}, 이전에 추정된 것보다 크거나 작을 수 있는 것으로 나타났다.

∑)p()∣는 y1, y2, 나는)로그 ⁡(p()∣ 1y, y2, 나는)p()∣ 나는)){\displaystyle \sum_{)}(x\mid y_{1},y_{2},I)\log \left({\frac{p(x\mid y_{1},y_{2},I)}{p(나는x\mid)}}\right)}또는>≤ 것이므로보다 ∑)p()∣는 y1, 나는)로그 ⁡(p()∣ 1y, 나는)p()∣ 나는)){\displaystyle \d.

따라서 결합된 정보 이득은 삼각형 불평등을 따르지 않는다.

may be <, = or > than

p(2 y ,x, 하여평균을 하면, 평균적으로 p (y_가 평균을 낸다고 말할 수 있다

베이지안 실험 설계

베이지안 실험 설계의 공통 목표는 이전과 후방의 기대 상대적 엔트로피를 최대화하는 것이다.[22]포스터가 가우스 분포에 근사치인 경우 기대 상대적 엔트로피를 최대화하는 설계를 Bayes d-최적 설계라고 한다.

차별정보

상대 엔트로피 (( ) ( H )) can also be interpreted as the expected discrimination information for over : the mean information per sample for discriminating in favor of a hypothesis against a hypothesis 가설 }이 참일[23]I. J. Good가 부여한 이 수량의 또 다른 명칭은 대한 H {1 대한 기대되는 증거 가중치 입니다.

대한 1 H_}에 대한 증거의 예상 가중치는 가설의 확률 분포 () 에 대한 표본당 예상되는 정보 증가와 같지 않다.

베이지안 실험 설계에서 두 가지 수량 중 하나를 효용 함수로 사용할 수 있으며, 이는 조사할 최적의 다음 질문을 선택하는 데 사용할 수 있지만, 일반적으로 다소 다른 실험 전략으로 이어질 것이다.

엔트로피 정보 획득 규모에서 거의 확실성과 절대 확실성 사이에는 거의 차이가 없다. 즉, 거의 확실성에 따라 코딩하는 것은 절대 확실성에 따라 코딩하는 것보다 더 많은 비트를 필요로 하지 않는다.반면에, 증거의 무게에 의해 암시된 로짓 척도에서, 두 가지 사이의 차이는 엄청나다 - 아마도 무한한 것이다; 이것은 수학적 증거를 가지고 있기 때문에 그것이 옳다고 확신하는 것에 비해, 예를 들어 리만 가설은 정확하다고 거의 확신하는 (확률론적 수준에서) 차이점을 반영할 수 있다.불확실성에 대한 이 두 가지 상이한 손실 함수는 각각 문제의 특정 상황을 얼마나 잘 반영하느냐에 따라 둘 유용하다.

최소차별정보의 원리

상대 엔트로피의 개념으로 차별 정보 Kullback 그 원리 .mw-parser-output .vanchor&gt의 것을 제시했다;:target~.vanchor-text{background-color:#b1d2ff}Minimum 차별 정보(다중 문서 인터페이스):새 배포 f{\displaystyle f}선택해야 한다는은 원작에서 차별하기 힘들다 새로운 사실을, 주어진다.f가능한 0{\displaystyle f_{0}}분포;도록.새로운 데이터는 정보 이득 f 0을 가능한 작게 생성한다.

예를 들어, 분포 p , ) {\displaystyle 의 실제 분포가 ) 경우, 에 대한 새 접합 분포 사이의 상대적 엔트로피가 있다는 것을 알게 된다. a a) ) {\및 이전 분포:

즉, ( 이전 분포에 대한p에 대한 상대 엔트로피의 합계 및 예상 값( 조건부 디스패치의 상대적 엔트로피 ( 사용)tribution from the new conditional distribution . (Note that often the later expected value is called the conditional relative entropy (or conditional Kullback-Leibler divergence) and denoted by {\text{KL}}(q(x\mid)\parallel p(x\mid))}[2][21]:페이지의 주 22)너(를){\displaystyle u(를)}의 전체 지원을 넘어서면q()∣))p()∣){\displaystyle q(x\mid)=p(x\mid)}이;그리고면 우리는 새로운 물류 u(를){\displaystyle u(를)}이 이 결과, 베이즈 정리하고 있다는 사실에 주목하고 최소화된다 사실에 있다.한 δ 기능 r이(가) 하나의 특정 값을 갖는다는 분명한 확실성.

MDI는 라플레이스불충분한 사유 원칙E.T.제인스최대 엔트로피 원리의 연장선으로 볼 수 있다.특히, 최대 엔트로피 원리를 이산형에서 연속형 분포로 자연적으로 확장하는 것으로, 섀넌 엔트로피는 더 이상 유용하지 않게 된다(미분 엔트로피 참조). 그러나 상대 엔트로피는 여전히 관련성이 있다.

공학 문헌에서, MDI는 때때로 최소 교차-엔트로피의 원리 또는 약칭으로 민센트로 불린다. 에 대해 m {\ m}에서 p p}까지 엔트로피를 최소화하는 것은 이후 p p} 및 m m}의 교차 엔트로피를 최소화하는 것과 동일하다.

에 대한 적절한 근사치를 선택하려고 할 경우 적절하다. 그러나 이는 흔히 달성하려는 작업이 아니다대신, 고정된 사전 참조 측정인 과( 제약이 따르는 p 을(를) 최소화하여 최적화를 시도하는 이(가)인 경우가 많다.이로 인해 문헌에서 일부 저자들이 교차 엔트로피를 , D_이 아닌 로 재정립함으로써 불일치를 해결하려고 시도하고 있는 등, 문헌에서 어느 정도 모호성을 가져왔다

사용 가능한 작업에 대한 관계

Kullback-Leibler 분기의 배로 계산된 주변 에 상대적인 아르곤 가스 몰에서 사용 가능한 작업의 압력 대 체적도.

놀라운[24] 것은 확률이 증가하는 곳에 추가된다.The surprisal for an event of probability is defined as . If is then surprisal is in nats, b예를 들어 "헤드"를 N {\ 동전의 토스에 착륙시키기 위한 비트의 놀라운 점이

최상의 상태(예: 가스 내 원자의 경우)는 주어진 제어 매개변수 집합( P 볼륨 V 에 대한 평균 놀라운 S엔트로피)를 최대화하여 추정한다.이 제한된 엔트로피 최대화는 고전적[25] 및 양자적 모두, 제한된 다중성 파티션 함수 엔트로피 단위[27] - ( Z) 에서 Gibbs 가용성을 최소화한다

온도 (가) 고정되면 자유 에너지( A A도 최소화된다.Thus if and number of molecules are constant, the Helmholtz free energy (where is energy and is entropy) is minimized as a system "equilibrates." P (가) 일정하게 유지되면(몸 안의 프로세스 중에) Gibbs 자유 에너지 = U+ - PV-TS 대신 최소화된 것이다.이러한 조건에서 자유 에너지의 변화는 프로세스에서 수행될 수 있는 가용 작업의 척도다.따라서 일정한 온도 압력 에서 이상적인 가스에 사용할 수 있는 작업은 = G= (/ 이다. where and (see also Gibbs inequality).

많은 generally[28]은 어느 정도 업무 주변에 상대적으로 사용할 수 Δ 0≥}상대적 혹은 순수 엔트로피 surprisal에 의해,{\displaystyle \Delta I\geq 0,}km그리고 4.9초 만 ln ⁡(p/p는 o){\displaystyle k\ln(p/p_{시})}어디 p의 평균 값으로 정의된 얼마나 자주'o'를 주변 온도 T({\displaystyle T_{는 o}을 곱한 {\di은(는) 주변 조건에서 주어진 상태의 확률이다.예를 들어, 단원자 이상가스를 {\ 의 주변 값에 평형화하여 사용할 수 있는 작업은 그러므로 = I 여기서 상대적 엔트로피.

표준 온도와 압력에서 아르곤 몰에 대해 오른쪽에 나타난 상수 상대 엔트로피의 결과 등고선은 예를 들어 불꽃 구동 에어컨에서처럼 고온에서 저온으로 변환하거나 비동력 장치에서 비등수를 얼음수로 변환하는 데 제한을 두었다.[29]따라서 상대 엔트로피는 열역학적 가용성을 비트 단위로 측정한다.

양자정보이론

힐버트 공간 밀도 행렬 Q 의 경우 Q 에서 P 까지의 양자 상대 엔트로피는 다음과 같이 정의된다.

양자정보학에서 분리 가능한 상태 Q 에 대한 )은 상태 얽힘 측정으로도 사용할 수 있다

모델과 현실의 관계

"주변으로부터의 실제"의 상대적 엔트로피가 열역학적 가용성을 측정하듯이, "모델로부터의 현실성"의 상대적 엔트로피 또한 우리가 현실성에 대해 가지고 있는 유일한 단서들이 일부 실험적인 측정일 경우에도 유용하다.전자의 경우 상대 엔트로피는 평형까지의 거리 또는 (주변 온도에 곱할 때) 이용 가능한 일의 양을 기술하는 반면 후자의 경우 현실은 그 소매 위에 있다는 놀라움이나 다시 말해서 모델이 아직 배우지 못한 정도에 대해 말해준다.

실험적으로 접근할 수 있는 시스템에 대해 모델을 평가하기 위한 이 도구는 어느 분야에나 적용될 수 있지만, Akaike 정보 기준을 통한 통계적 모델 선택 적용은 특히 Burnham과 Anderson의 논문과[30][31] 책에 잘 설명되어 있다.간단히 말해서, 모형의 실제의 상대적 엔트로피는 데이터와 모형의 예측 사이의 편차의 함수(평균 제곱 편차 등)에 의해 일정한 가법 항 내에서 추정될 수 있다. 같은 가법 항을 공유하는 모형에 대한 그러한 다양성의 추정치는 모델들 사이에서 차례로 사용될 수 있다.

파라메타화된 모델을 데이터에 적합시키려 할 때 최대우도 및 최대 간격 추정기와 같이 상대적인 엔트로피를 최소화하려는 다양한 추정기가 있다.[citation needed]

대칭 분기

Kullback & Leibler(1951)도 대칭함수를 고려했다.[5]

오늘날 "KL 다이버전스"는 비대칭 함수를 가리킨다(이 용어의 진화는 § 어원 참조).이 함수는 대칭적이고 음성이 아니며, 이미 1948년에 해롤드 제프리스에 의해 정의되고 사용되었었다.[6] 따라서 그것은 제프리스의 발산이라고 불린다.

이 수량은 분류 문제에서 형상을 선택하는 데 가끔 사용되었는데, 여기서 Q 은 서로 다른 두 등급의 형상에 대한 조건부 pdfs이다.은행업과 금융업에서는 이 수량을 인구안정지수(PSI)라고 하며, 시간 경과에 따른 모델 특성의 분포 변화를 평가하는 데 사용한다.

대안은 차이를 통해 주어진다.

확률 P} 또는 Q {\ 확률 X가 도출되는지 발견함으로써 X 대한 예상 정보 이득으로 해석할 수 있으며 현재 확률 { {\} 및 경우 [clarification needed][citation needed]

= .5{\5}은(는) Jensen-Shannon의 차이를 나타내며 다음과 같이 정의된다.

여기서 (는) 두 분포의 평균이다.

또한 출력 분포 P {\ 및 Q Q을(를) 하는 두 개의 입력을 가진 노이즈가 있는 정보 채널의 용량으로 해석할 수 있다모든 f-디버겐과 마찬가지로 옌센-샤논의 차이는 피셔 정보 메트릭스국소적으로 비례한다.헬링거 측정지표와 유사하다(통계 다지관의 동일한 아핀 연결을 유도한다는 점에서).

또한, Jensen-Shannon의 차이는 추상 평균 M에 의존하는 추상 통계 M 혼합물을 사용하여 일반화할 수 있다.

기타 확률 거리 측도와의 관계

확률 거리에 대한 다른 중요한 척도들이 많이 있다.이들 중 일부는 특히 상대 엔트로피와 관련이 있다.예를 들면 다음과 같다.

  • The total variation distance, . This is connected to the divergence through Pinsker's inequality:
  • 레니 가문은 상대 엔트로피를 일반화한다.특정 값인 α {\displaystyle }에 따라 다양한 불평등이 추론될 수 있다

다른 주목할 만한 거리 측정으로는 헬링거 거리, 히스토그램 교차로, 치 제곱 통계량, 이차 형태 거리, 일치 거리, 콜모고로프-스미르노프 거리, 지구 이동 거리 등이 있다.[34]

데이터 차이점화

절대 엔트로피가 데이터 압축에 대한 이론적 배경 역할을 하듯이, 상대 엔트로피는 데이터 차이점을 위한 이론적 배경 역할을 한다 – 이러한 의미에서 데이터 집합의 절대 엔트로피는 데이터 재구성에 필요한 데이터(최소 압축 크기)인 반면, d의 소스 집합에 주어진 대상 데이터 집합의 상대 엔트로피는 데이터 차이의 이론적 배경 역할을 한다.ata, 는 소스가 주어진 대상을 재구성하는 데 필요한 데이터다(패치의 최대 크기).

참고 항목

참조

  1. ^ Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical Statistics. 22 (1): 79–86. doi:10.1214/aoms/1177729694. JSTOR 2236703. MR 0039968.
  2. ^ a b c Kullback, S. (1959), Information Theory and Statistics, John Wiley & Sons. 1968년 도버 출판사에서 재간행, 1978년 재간행: ISBN 0-8446-5625-9
  3. ^ a b c d e 아마리 2016, 페이지 11.
  4. ^ a b 아마리 2016, 페이지 28.
  5. ^ a b 쿨백&라이블러 1951 페이지 80.
  6. ^ a b 제프리스 1948, 페이지 158. 대상 (
  7. ^ 컬백 1959, 페이지 7.
  8. ^ Kullback, S. (1987). "Letter to the Editor: The Kullback–Leibler distance". The American Statistician. 41 (4): 340–341. doi:10.1080/00031305.1987.10475510. JSTOR 2684769.
  9. ^ 컬백 1959, 페이지 6
  10. ^ MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms (First ed.). Cambridge University Press. p. 34. ISBN 9780521642989.
  11. ^ 주교 C. (2006년)패턴 인식 및 머신러닝
  12. ^ Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model Inference (2nd ed.). Springer. p. 51. ISBN 9780387953649.
  13. ^ Hobson, Arthur (1971). Concepts in statistical mechanics. New York: Gordon and Breach. ISBN 978-0677032405.
  14. ^ Sanov, I.N. (1957). "On the probability of large deviations of random magnitudes". Mat. Sbornik. 42 (84): 11–44.
  15. ^ Novak S.Y.(2011), Extreme Value Methods with Applications to Finance cho. 14.5(Chapman & Hall).ISBN 978-1-4398-3574-6
  16. ^ Bonnici, V. (2020). "Kullback-Leibler divergence between quantum distributions, and its upper-bound". arXiv:2008.05932 [cs.LG].
  17. ^ Sergio Verdu NIPS 2009의 상대적 엔트로피 비디오 강의에서 "차동 엔트로피 – 4" 섹션을 참조하십시오.
  18. ^ Donsker, Monroe D.; Varadhan, SR Srinivasa (1983). "Asymptotic evaluation of certain Markov process expectations for large time. IV". Communications on Pure and Applied Mathematics. 36 (2): 183–212. doi:10.1002/cpa.3160360204.
  19. ^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214.
  20. ^ Duchi J, "선형 대수 최적화를 위한 변형"
  21. ^ a b Cover, Thomas M.; Thomas, Joy A. (1991), Elements of Information Theory, John Wiley & Sons
  22. ^ Chaloner, K.; Verdinelli, I. (1995). "Bayesian experimental design: a review". Statistical Science. 10 (3): 273–304. doi:10.1214/ss/1177009939.
  23. ^ Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8.
  24. ^ Myron Tribus(1961), 열역학온도조절기(D)반 노스트랜드, 뉴욕)
  25. ^ Jaynes, E. T. (1957). "Information theory and statistical mechanics" (PDF). Physical Review. 106 (4): 620–630. Bibcode:1957PhRv..106..620J. doi:10.1103/physrev.106.620.
  26. ^ Jaynes, E. T. (1957). "Information theory and statistical mechanics II" (PDF). Physical Review. 108 (2): 171–190. Bibcode:1957PhRv..108..171J. doi:10.1103/physrev.108.171.
  27. ^ J.W. Gibbs(1873), "표면에 의한 물질의 열역학적 성질의 기하학적 표현 방법"은 The Collected Works of J. W. Gibbs, Volumn Idynamics, ed에 재인쇄되었다.W. R. Longley와 R. G. Van Name (뉴욕: Longmans, Green, 1931) 각주 52페이지.
  28. ^ Tribus, M.; McIrvine, E. C. (1971). "Energy and information". Scientific American. 224 (3): 179–186. Bibcode:1971SciAm.225c.179T. doi:10.1038/scientificamerican0971-179.
  29. ^ Fraundorf, P. (2007). "Thermal roots of correlation-based complexity". Complexity. 13 (3): 18–26. arXiv:1103.2481. Bibcode:2008Cmplx..13c..18F. doi:10.1002/cplx.20195. S2CID 20794688. Archived from the original on 2011-08-13.
  30. ^ Burnham, K.P.; Anderson, D.R. (2001). "Kullback–Leibler information as a basis for strong inference in ecological studies". Wildlife Research. 28 (2): 111–119. doi:10.1071/WR99107.
  31. ^ Burnham, K. P. 및 Anderson D. R.(2002) 모델 선택멀티모델 추론: 실용적인 정보-이론적 접근, Second Edition(Springer Science) ISBN 978-0-387-95364-9.
  32. ^ Nielsen, Frank (2019). "On the Jensen–Shannon Symmetrization of Distances Relying on Abstract Means". Entropy. 21 (5): 485. arXiv:1904.04017. Bibcode:2019Entrp..21..485N. doi:10.3390/e21050485. PMC 7514974. PMID 33267199.
  33. ^ Nielsen, Frank (2020). "On a Generalization of the Jensen–Shannon Divergence and the Jensen–Shannon Centroid". Entropy. 22 (2): 221. arXiv:1912.00610. Bibcode:2020Entrp..22..221N. doi:10.3390/e22020221. PMC 7516653. PMID 33285995.
  34. ^ Rubner, Y.; Tomasi, C.; Guibas, L. J. (2000). "The earth mover's distance as a metric for image retrieval". International Journal of Computer Vision. 40 (2): 99–121. doi:10.1023/A:1026543900054. S2CID 14106275.

외부 링크