각각 왼쪽 아래, 오른쪽 아래, 위쪽 원으로 표시된 세 변수 x {\displaystyle x}, y {\displaystyle y} 및 z {\displaystyle z} 에 대한 정보 이론적 측정의 Ven 도표 . 조건부 상호 정보 I( x ; z y ) {\displaystyle I(x;z y)}, I( y ; x ) {\displaystyle I(y;z x)}, I ( x ; y ) {\displaystyle I(x;y z)} 은 각각 황색, 청색 및 자홍색으로 표시된다 . 확률론 , 특히 정보이론 에서 조건부 상호정보 는[1] [2] 가장 기본적인 형태에서 3분의 1의 값이 주어진 두 랜덤 변수의 상호정보 는 기대값 이다.null
정의 지원 집합 X {\ displaystyle X}, Y {\ displaystyle Y } 및 Z {\ displaystyle {X }, Y {\displaystyle {Y} 및 Z {\ displaystystyle {\displaystycal {Z} 이( 가) 있는 임의 변수 X {\displaystysty}, Y} 및 Z {\displaystystysty}에 대해 조건부 상호 정보를 정의함
I ( X ; Y Z ) = ∫ Z D K L ( P ( X , Y ) Z ‖ P X Z ⊗ P Y Z ) d P Z {\displaystyle I(X;Y Z)=\int _{\mathcal {Z}D_{\mathrm {KL}}}}}(P_{(X,Y) Z}\P_{X Z}\otimes P_{Y Z}dP_{Z}}}}}}}}}}{Z}}}}}}}}}}}}
이는 예상 연산자 I ( X ; Y Z ) = E Z [ D K L ( P ( X , Y ) Z ‖ P X Z ⊗ P Y Z ) ] {\디스플레이 스타일 I(X;Y Z)=\mathb {E} _{Z}} [D_{\mathrm {KL}}}(P_{(X,Y) Z}\P_{X Z}\오타 P_{Y Z}}}}}}}.
Thus I ( X ; Y Z ) {\displaystyle I(X;Y Z)} is the expected (with respect to Z {\displaystyle Z} ) Kullback–Leibler divergence from the conditional joint distribution P ( X , Y ) Z {\displaystyle P_{(X,Y) Z}} to the product of the conditional marginals P X Z {\displaystyle P_{X Z}} and P Y Z {\ displaystyle P_{Y Z}}. 상호 정보 의 정의와 비교해 보십시오.null
이산형 분포에 대한 pmf의 관점에서 For discrete random variables X {\displaystyle X} , Y {\displaystyle Y} , and Z {\displaystyle Z} with support sets X {\displaystyle {\mathcal {X}}} , Y {\displaystyle {\mathcal {Y}}} and Z {\displaystyle {\mathcal {Z}}} , the conditional mutual information I ( X ; Y Z ) {\displaysty 르 I(X;Y Z)} 은 (는) 다음과 같다.
I ( X ; Y Z ) = ∑ z ∈ Z p Z ( z ) ∑ y ∈ Y ∑ x ∈ X p X , Y Z ( x , y z ) 통나무를 하다 p X , Y Z ( x , y z ) p X Z ( x z ) p Y Z ( y z ) {\displaystyle I(X;Y Z)=\sum _{z\in {\mathcal {Z}}}p_{Z}(z)\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X,Y Z}(x,y z)\log {\frac {p_{X,Y Z}(x,y z)}{p_{X Z}(x z)p_{Y Z}(y z)}}} 여기서 한계, 관절 및/또는 조건부 확률 질량 함수 는 적절한 첨자와 함께 p {\displaystyle p} 로 표시된다. 이는 다음과 같이 단순화할 수 있다.
I ( X ; Y Z ) = ∑ z ∈ Z ∑ y ∈ Y ∑ x ∈ X p X , Y , Z ( x , y , z ) 통나무를 하다 p Z ( z ) p X , Y , Z ( x , y , z ) p X , Z ( x , z ) p Y , Z ( y , z ) . {\displaystyle I(X;Y Z)=\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{Z}(z)p_{X,Y,Z}(x,y,z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}.}
연속 분포를 위한 PDF의 측면 For (absolutely) continuous random variables X {\displaystyle X} , Y {\displaystyle Y} , and Z {\displaystyle Z} with support sets X {\displaystyle {\mathcal {X}}} , Y {\displaystyle {\mathcal {Y}}} and Z {\displaystyle {\mathcal {Z}}} , the conditional mutual information I ( X ; Y Z ) {\displaystyle I(X;Y Z)} 은 (는) 다음과 같다.
I ( X ; Y Z ) = ∫ Z ( ∫ Y ∫ X 통나무를 하다 ( p X , Y Z ( x , y z ) p X Z ( x z ) p Y Z ( y z ) ) p X , Y Z ( x , y z ) d x d y ) p Z ( z ) d z {\displaystyle I(X;Y Z)=\int _{\mathcal {Z}}{\bigg (}\int _{\mathcal {Y}}\int _{\mathcal {X}}\log \left({\frac {p_{X,Y Z}(x,y z)}{p_{X Z}(x z)p_{Y Z}(y z)}}\right)p_{X,Y Z}(x,y z)dxdy{\bigg )}p_{Z}(z)dz} 여기서 한계, 관절 및/또는 조건부 확률 밀도 함수 는 적절한 첨자를 가진 p {\displaystyle p} 로 표시된다. 이는 다음과 같이 단순화할 수 있다.
I ( X ; Y Z ) = ∫ Z ∫ Y ∫ X 통나무를 하다 ( p Z ( z ) p X , Y , Z ( x , y , z ) p X , Z ( x , z ) p Y , Z ( y , z ) ) p X , Y , Z ( x , y , z ) d x d y d z . {\displaystyle I(X;Y Z)=\int _{\mathcal {Z}}\int _{\mathcal {Y}}\int _{\mathcal {X}}\log \left({\frac {p_{Z}(z)p_{X,Y,Z}(x,y,z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}\right)p_{X,Y,Z}(x,y,z)dxdydz. }
어떤 정체성 대안적으로, 우리는 다음과[3] 같이 관절과 조건부 엔트로피 의 관점에서 쓸 수 있다.
I ( X ; Y Z ) = H ( X , Z ) + H ( Y , Z ) − H ( X , Y , Z ) − H ( Z ) = H ( X Z ) − H ( X Y , Z ) = H ( X Z ) + H ( Y Z ) − H ( X , Y Z ) . {\displaystyle {\reasoned} I(X;Y Z)&=H(X,Z)+H(Y,Z)-H(X,Y,Z)-H(Z)\\&=H(X Z)-H(X Y,Z)\\&=H(X Z)+H(Y Z)-H(X,Y Z). \end{정렬}}} 이것은 상호 정보와의 관계를 보여주기 위해 다시 쓰여질 수 있다.
I ( X ; Y Z ) = I ( X ; Y , Z ) − I ( X ; Z ) {\displaystyle I(X;Y Z)=I(X;Y,Z)-I(X;Z)} 보통 상호 정보에 대한 체인 규칙 으로 재배열됨
I ( X ; Y , Z ) = I ( X ; Z ) + I ( X ; Y Z ) {\displaystyle I(X;Y,Z)=I(X;Z)+I(X;Y Z)} 또는
I ( X ; Y Z ) = I ( X ; Y ) − ( I ( X ; Z ) − I ( X ; Z Y ) ) . (\displaystyle I(X;Y Z)=I(X;Y)-(I(X;Z)-I(X;Z Y)\, } 위의 다른 동등한 형태는
I ( X ; Y Z ) = H ( Z X ) + H ( X ) + H ( Z Y ) + H ( Y ) − H ( Z X , Y ) − H ( X , Y ) − H ( Z ) = I ( X ; Y ) + H ( Z X ) + H ( Z Y ) − H ( Z X , Y ) − H ( Z ) . {\displaystyle {\reasoned} I(X;Y Z)&=H(Z X)+H(X)++ H(Z Y)+H(Y)-H(Z X,Y)-H(X,Y)-H(Z)\\&=I(X;Y)+H(Z X)+H(Z Y)-H(Z X,Y)-H(Z)\end{aligned}}\,. } 상호 정보와 마찬가지로 조건부 상호 정보는 Kullback-Leibler의 차이점 으로 표현될 수 있다.
I ( X ; Y Z ) = D K L [ p ( X , Y , Z ) ‖ p ( X Z ) p ( Y Z ) p ( Z ) ] . {\displaystyle I(X;Y Z)=D_{\mathrm {KL}}{p(X,Y,Z)\p(X Z)p(Z)]. } 또는 단순한 Kullback-Leibler 분산의 기대값으로 다음과 같이 한다.
I ( X ; Y Z ) = ∑ z ∈ Z p ( Z = z ) D K L [ p ( X , Y z ) ‖ p ( X z ) p ( Y z ) ] {\displaystyle I(X;Y Z)=\sum _{z\in {\mathcal {Z}}}p(Z=z)D_{\mathrm {KL} }[p(X,Y z)\ p(X z)p(Y z)]} , I ( X ; Y Z ) = ∑ y ∈ Y p ( Y = y ) D K L [ p ( X , Z y ) ‖ p ( X Z ) p ( Z y ) ] {\displaystyle I(X;Y Z)=\sum _{y\in {\mathcal {Y}}}p(Y=y)D_{\mathrm {KL} }[p(X,Z y)\ p(X Z)p(Z y)]} .
보다 일반적인 정의 연속적 또는 기타 임의적 분포를 가진 랜덤 변수에 적용되는 조건부 상호 정보의 보다 일반적인 정의는 정규 조건부 확률 의 개념에 따라 달라질 것이다. (또한 참조)[4] [5] null
Let ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},{\mathfrak {P}})} be a probability space , and let the random variables X {\displaystyle X} , Y {\displaystyle Y} , and Z {\displaystyle Z} each be defined as a Borel-measurable function from Ω {\displaystyle \Omega } to some state space endowed wi 토폴로지 구조로군 null
각 보렐 세트를 할당하여 정의된 각 랜덤 변수의 상태 공간에서 Borel 측정값( 개방 세트에 의해 생성된 σ-algebra에 대한)을 고려하십시오(F {\displaystyle {\mathfak {P}). 이 값을 F {\ displaystystyle {\mathcal{F}} 에서 premathcal} 측정값으로 한다. 이를 푸시 포워드 측정값 X = P = P( X ). - 1 ( ⋅ ) . . {\displaystyle X_{*}{\mathfrak{P}}={\ mathfrak{P }}}{\big (}X^{-1}(\cdot ){\big )}}} 무작위 변수의 지원 은 이 조치의 위상적 지원 으로 정의된다. 즉, s u p X = s u p ∗ P . {\p디스플레이 스타일 \matrmatrm {supt} \,X=\matrm {supt} \,X_{*}{\mathfrak {P}. }
이제 우리는 공식적으로 무작위 변수의 하나(또는 제품 토폴로지 를 통해 더 많은) 값이 주어진 조건부 확률 측정 을 정의할 수 있다. Let M {\displaystyle M} be a measurable subset of Ω , {\displaystyle \Omega ,} (i.e. M ∈ F , {\displaystyle M\in {\mathcal {F}},} ) and let x ∈ s u p p X . {\displaystyle x\in \mathrm {supp} \,X.} Then, using the disintegration theorem :
P ( M X = x ) = 임이 있는 U ∋ x P ( M ∩ { X ∈ U } ) P ( { X ∈ U } ) 그리고 P ( M X ) = ∫ M d P ( ω X = X ( ω ) ) , {\displaystyle {\mathfrak {P}}(M X=x)=\lim _{U\ni x}{\frac {{\mathfrak {P}}(M\cap \{X\in U\})}{{\mathfrak {P}}(\{X\in U\})}}\qquad {\textrm {and}}\qquad {\mathfrak {P}}(M X)=\int _{M}d{\mathfrak {P}}{\big (}\omega X=X(\omega ){\big )},} 여기 서 제한은 x {\displaystyle x} 의 개방된 이웃 U {\displaystyle U} 에 대해 적용되며, 이는 포함 설정 과 관련하여 임의로 더 작아질 수 있기 때문이다.null
마지막으로 르베그 통합 을 통해 조건부 상호 정보를 정의할 수 있다.
I ( X ; Y Z ) = ∫ Ω 통나무를 하다 ( d P ( ω X , Z ) d P ( ω Y , Z ) d P ( ω Z ) d P ( ω X , Y , Z ) ) d P ( ω ) , {\displaystyle I(X;Y Z)=\int _{\Omega }\log {\Bigl (}{\frac {d{\mathfrak {P}}(\omega X,Z)\,d{\mathfrak {P}}(\omega Y,Z)}{d{\mathfrak {P}}(\omega Z)\,d{\mathfrak {P}}(\omega X,Y,Z)}}{\Bigr )}d{\mathfrak {P}}(\omega ),} 여기서 통합과 통합은 우리가 방금 정의한 조건부 확률 측정의 일부를 포함하는 라돈-Nikodym 파생상품 의 로그다. null
표기 주의사항 I ( A ; B C ) , {\displaystyle I(A;B C),} A, {\displaystyle A,} B, {\displaystyle B,} 및 C {\displaystyle C} 와 같은 표현에서 반드시 개별 랜덤 변수를 나타내는 것으로 제한될 필요는 없으며 , 또한 정의한 임의 변수 집합의 공동 분포를 나타낼 수 있다.동일한 확률 공간 확률 이론 에서 흔히 볼 수 있듯이, 우리는 쉼표를 사용하여 그러한 공동 분포를 나타낼 수 있다. 예를 들어 I (A 0 , A 1 ; B 1 , B 2 , B 3 C 0 , C 1 . {\displaystyle I(A_{0},A_ },A_{ 1 };B_{1},B_{2},B_{3} C_{0},C_{1}). } 따라서 상호 정보 기호의 주요 인수를 구분하기 위해 세미콜론(또는 때때로 콜론 또는 쐐기 ∧ {\displaystyle \wedge }) 을 사용한다.(임의 변수의 임의 개수의 관절 엔트로피는 관절 분포의 엔트로피와 같기 때문에 관절 엔트로피 에 대한 기호에는 그러한 구분이 필요하지 않다.) null
특성. 비네거티 는 것은 언제나 사실이다.
I ( X ; Y Z ) ≥ 0 {\displaystyle I(X;Y Z)\geq 0}, 이산형, 공동 분포된 랜덤 변수 X {\displaystyle X}, Y {\displaystyle Y} 및 Z {\displaystyle Z} 의 경우. 이 결과 는 정보 이론 , 특히 샤논형 불평등이라고 알려진 것들의 다른 불평등을 입증하는 기본 구성 요소로 사용되어 왔다. 조건부 상호 정보는 특정 정규성 조건 하에서 연속 랜덤 변수에 대해서도 음수가 아니다.[6] null
상호작용 정보 세 번째 랜덤 변수에 대한 조건화는 상호 작용 정보 라 불리는 I( X ; Y ) - I( X ; Y Z ){\displaystyle I(X;Y)-I(X;Y Z)} 의 차이를 증가시키거나 감소시킬 수 있다. 랜덤 변수가 쌍으로 독립되어 있어도 그렇다. 다음의 경우에 해당된다.
X ∼ B e r n o u l l i ( 0.5 ) , Z ∼ B e r n o u l l i ( 0.5 ) , Y = { X 만일 Z = 0 1 − X 만일 Z = 1 {\displaystyle X\sim \mathrm {Bernoulli} (0.5),Z\sim \mathrm {Bernoulli} (0.5),\quad Y=\left\{{\begin{array}{ll}X&{\text{if }}Z=0\\1-X&{\text{if }}Z=1\end{array}}\right. } 이 경우 X {\displaystyle X }, Y {\displaystyle Y} 및 Z {\displaystyle Z} 은( 는) 쌍으로 독립적이며, 특히 I ( X ; Y ) = 0 , 그러나 I(X; Y Z) = 1 . {\ displaystyle I( X;Y Z)=1이다. }
상호 정보에 대한 체인 규칙 I ( X ; Y , Z ) = I ( X ; Z ) + I ( X ; Y Z ) {\displaystyle I(X;Y,Z)=I(X;Z)+I(X;Y Z)} 상호작용 정보 조건부 상호 정보는 상호 작용 정보 , 상호 정보의 일반화를 다음과 같이 유도적으로 정의하는데 사용된다.
I ( X 1 ; … ; X n + 1 ) = I ( X 1 ; … ; X n ) − I ( X 1 ; … ; X n X n + 1 ) , {\displaystyle I(X_{1};\ldots;X_{n+1}= I(X_{1};\ldots ;X_{n})-I(X_{1};\ldots;X_{n}X_{n+1}),} 어디에
I ( X 1 ; … ; X n X n + 1 ) = E X n + 1 [ D K L ( P ( X 1 , … , X n ) X n + 1 ‖ P X 1 X n + 1 ⊗ ⋯ ⊗ P X n X n + 1 ) ] . {\displaystyle I(X_{1};\ldots ;X_{n} X_{n+1}=\mathb {E} _{X_{n+1}:{n+1}:{n1}:{n2}}[] D_{\mathrm {KL}}(P_{(X_{1},\ldots,X_{n}) X_{n+1}\P_{X_{1} X_{n+1} X_{n+1}}\otimes \cdots \otimes P_{X_{n_{n}X_{n+1}} X_{n+1}}}}}}}}}X_{n+1}:{n+1}}}}}}}}}}}}}}). } 조건부 상호 정보는 무조건적인 상대보다 크거나 작을 수 있기 때문에 상호작용 정보는 양수, 음수 또는 영이 될 수 있으므로 해석하기 어렵다. null
참조 ^ Wyner, A. D. (1978). "A definition of conditional mutual information for arbitrary ensembles" . Information and Control . 38 (1): 51–59. doi :10.1016/s0019-9958(78)90026-8 . ^ Dobrushin, R. L. (1959). "General formulation of Shannon's main theorem in information theory". Uspekhi Mat. Nauk . 14 : 3–104. ^ Cover, Thomas ; Thomas, Joy A. (2006). Elements of Information Theory (2nd ed.). New York: Wiley-Interscience . ISBN 0-471-24195-4 . ^ PlanetMath 에서의 정규 조건부 확률 ^ D. 리오 주니어 외 정규 조건부 확률, 확률 분해 및 라돈 공간. 프로예치온. 제23권, 제1권, 페이지 15-29, 2004년 5월, Universidad Catolica del Norte, Antofagasta, 칠레 PDF ^ Polyanskiy, Yury; Wu, Yihong (2017). Lecture notes on information theory (PDF) . p. 30.