정보 병목 현상 방법

정보 병목현상은 페르난도 C의 나프탈리 티슈비(Naftali Tishby)가 도입한 정보이론의 기법이다.페레이라,^[1] 윌리엄 비알렉이요X와 관측된 관련 변수 Y - 사이의 공동 확률 분포 p(X,Y)를 감안할 때 랜덤 변수 X를 요약(예: 클러스터링)할 때 정확도와 복잡성(압축) 사이의 최상의 절충을 찾도록 설계되었으며, "사인(signa)의 다양한 문제를 논의하기 위한 놀랍도록 풍부한 프레임워크"로 설명된다.l 처리 및 학습".^[1]

응용 프로그램에는 분포 클러스터링과 치수 축소가 포함되며, 최근에는 딥러닝을 위한 이론적 토대로서 제안되고 있다.그것은 파라메트릭 통계에서 임의 분포에 이르는 최소한의 충분한 통계에 대한 고전적 개념을 일반화시켰는데, 반드시 지수적 형태는 아니었다.그것은 관련 변수 Y와 상호 정보의 일부를 포착하기 위해 충분조건의 완화를 통해 그렇게 한다.

정보 병목현상은 X로부터의 직접적인 예측에 비해 압축된 표현 T로부터 Y가 얼마나 잘 예측되는지를 측정하는 왜곡 기능이 있어 속도 왜곡 문제로도 볼 수 있다.이 해석은 정보 병목현상을 해결하고, 분배 p(X,Y)에서 정보 곡선을 계산하기 위한 일반적인 반복 알고리즘을 제공한다.

랜덤 변수 $T$ ${\displaystyle$ T $}$ 에 의해 압축 표현을 제공하도록 한다 $T$ 알고리즘은 조건부 분포 $p(t|x)$ ( $p(t|x)$ $p(t|x)$ ) ${\displaystyle p(t$ x $)}$ 에 대해 다음과 같은 기능을 최소화한다 $p(t|x)$

\min _{p(t x)}\,\,I(X;T)-\beta I(T;Y),

where $I(X;T)$ and $I(T;Y)$ are the mutual information of $X$ and $T$ , and of $T$ and $Y$ , respectively, and $\beta$ is a Lagrange multiplier.

최소의 충분한 통계량

자기 일치 방정식

학습이론

위상 전환

딥러닝 정보이론

정보 병목 이론은 최근 심층신경망(DNN)을 연구하는 데 이용되고 있다.^[2] $X$ $X$ $및$ Y $X$ $Y$ 을(를 $Y$ ) DNN의 입력 및 출력 계층으로 간주하고 T $T$ 을(를) 네트워크의 숨겨진 계층으로 설정하십시오 $T$ .Shwartz-Ziv and Tishby proposed the information bottleneck that expresses the tradeoff between the mutual information measures $I(X,T)$ and $I(T,Y)$ . In this case, $I(X,T)$ and $I(T,Y)$ respectively quantify the숨겨진 레이어가 입력 및 출력에 대해 포함하는 정보의 양.그들은 DNN의 훈련 과정이 $I(T,Y)$ ) I $I(T,Y)$ ( $I(T,Y)$ , Y $I(T,Y)$ ) ${\displaystyle$ I $(T,$ Y $)}$ 이 증가하는 $I(T,Y)$ 초기 피팅 단계와 2) $I(X,T)$ ( X $I(X,T)$ , T $I(X,T)$ ${\displaystyle I$ ( $X,T)}$ 이 $I(X,T)$ 감소하는 후속 압축 단계 두 단계로 구성된다고 추측했다.작센 외는 슈워츠-지브와 티쉬비의 주장에 대해 DNNs의 이러한 압축 현상은 포괄적이지 않으며, 특정 활성화 기능에 따라 다르다고 반박했다.^[2]특히 르루 활성화 기능으로는 압축이 이뤄지지 않는다고 주장했다.슈워츠-지브와 티쉬비는 작센 외가 상호 정보의 추정치가 약하기 때문에 압축을 관찰하지 못했다고 주장하면서 이러한 주장에 대해 반박했다.최근, 노샤드 외최적의 해시 기반 추정기가 ReLu 및 maxpooling 활성화가 있는 더 넓은 범위의 네트워크에서 압축 현상을 드러내는 것을 관찰하면서, 상호 정보의 비율 최적 추정기를 사용하여 이 논란을 탐구했다.^[4]반면 최근 골드펠드 외 연구진.관찰된 압축은 기하학적 결과물이며, 정보-발현상의 결과물이 아니며,^[5] 또한 공유되어 온 관점이라고 주장해 왔다.^[6]

변동 병목 현상

가우스 병목 현상

가우스 병목현상,^[7] 즉 가우스 변수에 정보 병목현상 접근법을 적용하면 표준 상관 분석과 관련된 해결책이 나온다. $X,Y\,$ , $X,Y\,$ ${\$ X $,$ $\Sigma _{XX},\,\,\Sigma _{YY}$ $\}$ 이(가) 공분산 $\Sigma _{XX},\,\,\Sigma _{YY}$ X , $\Sigma _{XX},\,\,\Sigma _{YY}$ $\Sigma _{XX},\,\,\Sigma _{YY}$ ${\$ 과(와) 함께 다변량 평균 0인 벡터라고 $X,Y\,$ 가정합시다. $YY}$ 과 $\Sigma _{XX},\,\,\Sigma _{YY}$ $T\,$ ${\$ $T$ $\,}$ 은(는) $X\,$ ${\$ $X$ $\}$ 의 압축된 버전으로 $T\,$ , $Y\,$ ${\$ $Y$ $\,}$ 과(와) 상호 정보의 주어진 값을 유지해야 하며 $Y\,$ $T\,$ 의 T ${\$ T $\,}$ 은 $X,\,\,T=AX\,$ , $X,\,\,T=AX\,$ = $X,\,\,T=AX\,$ 의 원소의 선형 조합으로 구성된 정상 벡터임을 $T\,$ 알 수 있다 $X,\,\,T=AX\,$ $\displaystyle X,\,\,T=AX$ \,} $A\,$ A $A\,$ {\ $displaystyle$ A $\,}$ 에 직교 행이 $A\,$ 있는 $X,\,\,T=AX\,$ \displaystyle X,\,\,T=AX $\}$

투영 매트릭스 $A\,$ ${\$ A $\,$ 사실상 $A\,$ 매트릭스의 단수 값 분해(일반적으로 비대칭)의 가중 왼쪽 고유 벡터에서 선택한 $M\,$ ${\$ 개의 $M\,$ 행을 포함한다.

\Oomega =\Sigma _{XY}\Sigma _{XX}^{-1}=I-\Sigma _{X}Y}\Sigma _{YY}^{-1}\Sigma _{XY}^{T}\Sigma _{XX}^{-1}\,

단수 값 분해 정의

\Oba =U\Lambda V^{T}{\text{{}}{Diag}{\big (}\lambda _{1}\leq \lambda _{2}\cdots \{N}{\big )},},},},},

그리고 비판적 가치들

\beta _{i}^{{}{\underset {\lambda _{i}}{1}{1}{1}{1}(1-\lambda _{i}^{1},

그런 다음 투영에서 활성 고유 벡터의 $M\,$ M ${\$ 또는 근사치 순서가 주어진다.

\beta \{M-1}^{C}<\beta \leq \beta _{M}^{C}}}

그리고 우리는 마침내 알게 되었다.

A=[w_{1]}{{1},\dots ,w_{M}U_{M}]^{T}}

가중치가 주어지는 위치

w_{i}={\sqrt {(\reason (1-\baseda _{i}/\basda _{i}}}}}}}}}}}}}}}

여기서 $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ = $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ X $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ i $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$ . ${\$ $U_{i}^{T}\Sigma _{XX}$ $U_{i}.\,}$

시계열(프로세스)에 가우스 정보 병목 현상을 적용하면 최적의 예측 코딩과 관련된 해결책이 나온다.이 절차는 공식적으로 선형 저속 형상 분석과 동일하다.^[8]

선형 동적 시스템에서 최적의 시간적 구조는 가우스 표본이 아닌 데이터에 병목현상을 적용하는 이른바 과거-미래 정보 병목현상을 통해 밝혀질 수 있다.^[9]크로이츠히히, 티슈비 외 연구진에서 다루듯이, 그 개념은 두 개의 독립적 단계가 연습에서 구성되기 때문에 복잡하지 않다: 첫째, 데이터 샘플이 추출되는 알려지지 않은 부모 확률 밀도의 추정과 둘째, 병목현상의 정보 이론적 프레임워크 내에서 이러한 밀도의 사용이다.

밀도 추정

병목현상 방법은 통계적 용어가 아닌 확률론적 관점에서 프레임을 설정하므로 표본점 $X={x_{i}}\,$ = $X={x_{i}}\,$ $X={x_{i}}\,$ $displaystyle X={x_{i}\,}$ 의 기저 확률 밀도를 추정해야 $X={x_{i}}\,$ 한다.이것은 실버맨이 설명한 여러 해결책의 잘 알려진 문제다.^[10]현재의 방법에서는 마르코프 전환 매트릭스 방법을 사용함으로써 공동 샘플 확률이 발견되며, 이것은 병목 현상 방법 자체와 약간의 수학적 시너지를 갖는다.

The arbitrarily increasing distance metric $f\,$ between all sample pairs and distance matrix is $d_{i,j}=f{\Big (}{\Big }x_{i}-x_{j}{\Big }{\Big )}$ . Then transition probabilities between sample pairs $P_{i,j}=\exp(-\lambda d_{i,j})\,$ $P_{i,j}=\exp(-\lambda d_{i,j})\,$ ${\$ 일부 $\lambda >0\,$ > $\lambda >0\,$ ${\$ 의 $P_{i,j}=\exp(-\lambda d_{i,j})\,$ 경우 계산해야 한다 $\lambda >0\,$ .표본을 상태로 처리하고 $P\,$ ${\$ $P$ $\}$ 의 정규화된 버전을 마르코프 상태 전환 확률 매트릭스로 $P\,$ 처리하며, $t\,$ ${\$ t $\,}$ 단계 $t\,$ 후 '상태'의 확률 벡터는 $p(t)=P^{t}p(0)\,$ $p(0)\,$ p $p(0)\,$ ( $p(t)=P^{t}p(0)\,$ ) ${\$ p $(0)\,}$ 에서 조건화되며 $p(t)=P^{t}p(0)\,$ $p(0)\,$ p $p(t)=P^{t}p(0)\,$ = $p(t)=P^{t}p(0)\,$ ( 0 ) ${\$ stylease) $p(t)=P^{t}p(0)\,}$ . The equilibrium probability vector $p(\infty )\,$ given, in the usual way, by the dominant eigenvector of matrix $P\,$ which is independent of the initialising vector $p(0)\,$ . This Markov transition method establishes a probability at the sa확률 밀도에 비례한다고 주장되는 mple 점.

거리 행렬 $d\,$ ${\$ 의 고유값 사용에 대한 다른 해석은 Silverman의 통계 및 데이터 분석 밀도 추정에 설명되어 $d\,$ 있다.^[10]

클러스터

다음의 소프트 클러스터링 예에서 참조 벡터 $Y\,$ ${\$ Y $\,}$ 은(는 $p(X,Y)\,$ 샘플 범주를 포함하며 $Y\,$ , $p(X,Y)\,$ 확률 p $p(X,Y)\,$ ( $p(X,Y)\,$ , Y ) $p(X,Y)\,$ {\ $displaystyle p(X$ ,Y $)\,}$ 은 $p(X,Y)\,$ (는) 알려져 있다고 가정한다.소프트 클러스터 $c_{k}\,$ $displaystyle c_{k}\,}$ 은(는) 데이터 샘플 x $x_{i}:\,\,\,p(c_{k}|x_{i})$ : p ( $x_{i}:\,\,\,p(c_{k}|x_{i})$ k $x_{i}:\,\,\,p(c_{k}|x_{i})$ $x_{i}:\,\,\,p(c_{k}|x_{i})$ ) ${\displaystyle x_{i}\,\,p(c_{k} x_{i}})$ 에 대한 확률 분포로 정의된다 $c_{k}\,$ $x_{i}:\,\,\,p(c_{k}|x_{i})$ Tishby 외 연구진은 비율 왜곡 이론에서 개발된 Blahut-Arimoto 알고리즘의 일반화인 군집을 결정하기 위해 다음과 같은 반복 방정식 세트를 제시했다^[1].신경망에서 이러한 유형의 알고리즘의 적용은 결정론적 분석에서 Gibbs 분포의 적용에서 발생하는 엔트로피 논쟁에서 비롯되는 것으로 보인다.^[11]^[12]

{\begin}p(c)=Kp(c)\exp {\big(}-\beta \,D^{KL}{\Big [}p(y x)\, \,p(y c){\\\\\big [}Big ]}{{\Big )}\\p(y c)=\textstyle \sum _{x}p(x)p(x){\big /}p(c)\p(c)=\textstyle \sum _{x}p(x)\end{case}}}}}}}}}

반복의 각 라인의 기능은 다음과 같이 확장된다.

선 1: 이것은 조건부 확률의 매트릭스 값 집합이다.

{\displaystyle A_{i},j}=p(c_{i}x_{j}})=Kp(c_{i}})\exp {\Big(}-\beta \,D^{KL}}}}{\Big [},p(y c_{j}})}}}}}}}}.

샘플 데이터 $x\,$ ${\$ 에 의해 $Y\,$ 된 Y ${\$ 벡터와 $x\,$ 감소된 정보 프록시 $c\,$ ${\$ c $\}$ 사이에 $D^{KL}\,$ Kullback-Libler 차이 $D^{KL}\,$ $D^{KL}\,$ $displaystyle D^{KL}\},},},$ 샘플 데이터 $c\,$ x {\}에 $Y\,$ 의해 생성된 벡터 간을 적용하여 압축 벡터에 대한 충실도를 평가한다.참조(또는 범주형) 데이터 $Y\,$ ${\$ 기본 $Y\,$ 병목 방정식에 따름. $D^{KL}(a||b)\,$ $D^{KL}(a||b)\,$ $D^{KL}(a||b)\,$ ( $D^{KL}(a||b)\,$ ) ${\$ D $^{KL}(a b)\,}$ 분포 $a,b\,$ , $a,b\,$ ${\$ 사이의 $D^{KL}(a||b)\,$ Kullback-Leibler 차이

D^{KL}(a b)=\sum _{i_}\log {\big(}{\frac {p(a_{i})}{p(b_{i}}}}}{\Big )}}}}}}}

$K\,$ K $[\$ K $\,}$ 는 $K\,$ 스칼라 정상화다.거리 지수의 음수 지수에 의한 가중치는 Kullback-Leibler 분산이 클 때 선 1에서 이전 군집 확률이 낮아져 성공적인 군집은 확률적으로 증가하는 반면 성공하지 못한 군집은 붕괴하는 것을 의미한다.

선 2: 조건부 확률의 두 번째 행렬 값 집합.정의에 따라

{\begin{aligned}p(y_{i} c_{k})&=\sum _{j}p(y_{i} x_{j})p(x_{j} c_{k})\\&=\sum _{j}p(y_{i} x_{j})p(x_{j},c_{k}){\big /}p(c_{k})\\&=\sum _{j}p(y_{i} x_{j})p(c_{k} x_{j})p(x_{j}){\big /}p(c_{k})\\\end{aligned}}

$p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ 서 Bayes ID $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ( a , $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ) $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ = $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ( $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ) $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ( b ) $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ = $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ( $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ) $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ ( ) ${\$ p $(a,b)=p(b)p(b)p(a$ )=p(a $)p$ (a $)\}$ 이 사용된다 $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$ .

라인 3: 이 선은 군집 $c\,$ 의 한계 분포를 찾는다. ${\$

{\displaysty}p(c_{i}})&=\sum _{j}p(c_{i}x_{j}}=\sum _{j}p(x_{j}})\end{j}}}}}}}

이것은 표준적인 결과다.

알고리즘에 대한 추가 입력은 $P\,$ 샘플 분포 $p(x)\,$ ( x ) {\ $displaystyle p(x)\}$ 이며, P $p(x)\,$ ${\$ 의 $P\,$ 지배적 고유 벡터와 매트릭스 값 Kullback-Leibler 발산 함수에 의해 이미 결정되었다.

D_{i,j}^{KL}=D^{KL}{\Big [}p(y x_{j})\, \,p(y c_{i}}{\Big ]}}}}}}}}}}}}

표본 스페이스 및 전환 확률에서 파생됨.

매트릭스 $p(y_{i}|c_{j})\,$ ( $p(y_{i}|c_{j})\,$ i $p(y_{i}|c_{j})\,$ $p(y_{i}|c_{j})\,$ ) ${\$ 매트릭스 $p(c_{i}|x_{j})\,$ $p(c_{i}|x_{j})\,$ $p(c_{i}|x_{j})\,$ j $){\$ 는 사전 값이 필요하지 $p(y_{i}|c_{j})\,$ $p(c_{i}|x_{j})\,$ 않다.알고리즘이 수렴되지만, 해결이 필요한 다중 미니마가 존재할 수 있다.^[13]

의사 결정 등고선

교육 세트 $X\,$ 의 외부에 $x'\,$ 있는 새 샘플 $x'\,$ $x'\,$ $displaystyle$ $X\,}$ 을 $X\,$ 를) 분류하려면 이전 거리 메트릭은 $x'\,$ $x'\,$ $displaystyle X\,}$ 과 $x'\,$ (를) $X:\,\,$ 의 모든 $X:\,\,$ 샘플 $X:\,\,$ {\ $displaystyle$ X ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ ~ ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ ( ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ i = ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ ) ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ = ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ = ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ = k ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ . ${\tilde {p}}(x_{i})=p(x_{i} x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big }x_{i}-x'{\Big }{\big )}{\Big )}$ with $\mathrm {K} \,$ a normalization.두 번째로 3행 알고리즘의 마지막 두 줄을 적용하여 군집 및 조건부 범주 확률을 구한다.

{\jp(c_{i}x')=p(c_{i}x')=\sum _{j}p(x_{j}x')=\sum _{j}p(c_{i}x')={j}p(c_{i}x_x_x_{j}x_{j}}}}}}}}}}}}}}}}}{j}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}{\tilde {p}}(x_{j})\\&p(y_{i} c_{j})=\sum _{k}p(y_{i} x_{k})p(c_{j} x_{k})p(x_{k} x')/p(c_{j} x')=\sum _{k}p(y_{i} x_{k})p(c_{j} x_{k}){\tilde {p}}(x_{k})/{\tilde {p}}(c_{j})\\\end{aligned}}

드디어.

p(y_{i} x')=\sum _{j}p(y_{i}c_{j}x')=\sum _{j}p(y_{i} c_{j}}{\tilde{p}}}}{p}}},

매개변수 $\beta \,$ ${\$ 은(는) 0에서 증가함에 따라 범주 확률 공간에서 형상의 수가 증가하므로 특정 임계 임계값에서 포커스에 스냅되기 때문에 면밀하게 관리해야 한다 $\beta \,$ .

예를 들면.

$y=\operatorname {sign} (uv)\,$ 사례에서는 무작위 입력 $u,v\,$ , $u,v\,$ ${\$ 과 $u,v\,$ $\pm 1\,$ 와 $)$ $y=\operatorname {sign} (uv)\,$ y $y=\operatorname {sign} (uv)\,$ = $y=\operatorname {sign} (uv)\,$ $sign$ v $y=\operatorname {sign} (uv)\,$ ) ${\$ $\pm 1\,$ y $=\oppm$ 1 $\,}$ 두 $\pm 1\,$ 의 출력 범주로 클러스터링을 조사한다 $y=\operatorname {sign} (uv)\,$ 이 기능은 각 범주에 대해 두 개의 공간적으로 분리된 클러스터를 가지고 있다.따라서 이 방법이 그러한 분포를 처리할 수 있음을 입증한다.

20개의 샘플을 채취하여 정사각형 $[-1,1]^{2}\,$ - $[-1,1]^{2}\,$ , $[-1,1]^{2}\,$ $[-1,1]^{2}\,$ $[-1,1]^{2}\,$ $displaystyle [-1,1]^{2}\,}.$ 범주 수 이상으로 사용되는 클러스터 수는 성능에 거의 영향을 주지 않으며, 이 경우 2개의 클러스터는 파라미터 $\lambda =3,\,\beta =2.5$ = 3, $\lambda =3,\,\beta =2.5$ = 2. $[\display$ style $\lambda =3,\,\ba =2}$ 을 사용하여 결과가 표시된다 $.$ $\lambda =3,\,\beta =2.5$ .

거리 함수는 d $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ j $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ = $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ i = $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ - $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ x $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ 2 ${\$ ,j $}={\Big }x_{i}-x_{j}{\Big }^{2$ }}이고 $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ $x_{i}=(u_{i},v_{i})^{T}\,$ 서 $x_{i}=(u_{i},v_{i})^{T}\,$ $x_{i}=(u_{i},v_{i})^{T}\,$ ( $x_{i}=(u_{i},v_{i})^{T}\,$ $x_{i}=(u_{i},v_{i})^{T}\,$ , $x_{i}=(u_{i},v_{i})^{T}\,$ i ) $x_{i}=(u_{i},v_{i})^{T}\,$ {\ $displaystystyle x_{i}=(u_{i}v_$ {i_{i_ ${i_$ {i_{i}}}}}})^}}}}}}}}}^{{i $}}}}}}^{{$ i}^{i} $조건부$ 분포 $p(y|x)\,$ ( $p(y|x)\,$ $p(y|x)\,$ ) ${\$ 이 $p(y|x)\,$ (가) 2 × 20 행렬인 경우 $x_{i}=(u_{i},v_{i})^{T}\,$

{\begin{aligned}&Pr(y_{i}=1)=1{\text{ if }}\operatorname {sign} (u_{i}v_{i})=1\,\\&Pr(y_{i}=-1)=1{\text{ if }}\operatorname {sign} (u_{i}v_{i})=-1\,\end{aligned}}

그리고 다른 곳에서는 0이다.

2행의 합계는 +1 또는 -1의 훈련 값을 나타내는 두 개의 값만 포함하지만, 그럼에도 불구하고 잘 작동한다.그림은 '0'이 Y = 1을 나타내고 'x'가 Y = -1을 나타내는 20개 표본의 위치를 나타낸다.통합우도비 수준의 등고선이 표시된다.

L={\frac {\Pr(1)}{\Pr(-1)}=1

새 샘플 $x'\,$ $x'\,$ $displaystyle$ x $'\,}$ 이 $x'\,$ (가) 사각형 위로 스캔됨.이론적으로 등고선은 $u=0\,$ = 0 ${\$ 및 $v=0\,$ = $v=0\,$ ${\$ 좌표에 $v=0\,$ 맞춰야 하지만, 이렇게 작은 표본 번호의 경우 표본 점의 가상 군집을 대신 따랐다.

결정 등고선

신경망/퍼지 논리 유사점

이 알고리즘은 하나의 숨겨진 층을 가진 신경망과 다소 유사하다.내부 노드는 클러스터 $c_{j}\,$ $c_{j}\,$ $displaystyle c_{j}\,}$ 로 표시되며 $c_{j}\,$ , 네트워크 가중치의 첫 번째 및 두 번째 계층은 각각 $p(y_{k}|c_{j})\,$ 조건 확률 $c$ x $p(c_{j}|x_{i})\,$ ) $p(c_{j}|x_{i})\,$ p $(c_{j} x_{i}\,$ $p(y_{k}|c_{j})\,$ $p(y_{k}|c_{j})\,$ $p(y_{k}|c_{j})\,$ ${\$ {j} c_ ${j}}}}\}\}\}\})$ 로 표시됨).그러나 표준 신경망과 달리 알고리즘은 표본 값 자체보다는 입력으로 전적으로 확률에 의존하는 반면, 내부 및 출력 값은 모두 조건부 확률밀도 분포다.비선형 함수는 거리 메트릭 $f(.)\,$ ( $f(.)\,$ . $f(.)\,$ ) ${\$ f $(.)\,}($ 또는 영향 함수/방사선 기준 함수) 및 s자형 함수 대신 전환 확률로 캡슐화된다.

Blahut-Arimoto 3행 알고리즘은 종종 수십 번의 반복으로 빠르게 수렴되며, $\beta \,$ ${\$ $\lambda \,$ ${\$ $f\,$ ${\$ 클러스터 $f\,$ 카디널리티를 변화시킴으로써 기능에 대한 다양한 수준의 집중을 달성할 수 있다.

통계 소프트 클러스터링 정의 p $p(c_{i}|x_{j})\,$ $p(c_{i}|x_{j})\,$ $p(c_{i}|x_{j})\,$ j $p(c_{i}|x_{j})\,$ ) ${\$ 는 퍼지 논리의 언어 퍼지 멤버십 개념과 일부 겹친다 $p(c_{i}|x_{j})\,$ .

확장

흥미로운 확장은 측면 정보로 인한 정보 병목 현상의 경우다.^[14]여기서 정보는 데이터의 선택된 측면에 대해 유용한 표현을 학습하면서 하나의 대상 변수에 대해 최대화되고 다른 변수에 대해 최소화된다.정식으로

\min _{p(t x)}\,\,I(X;T)-\beta ^{+}I(T;)Y^{+}+\베타 ^{-}I(T;Y^{-}})

참고 문헌 목록

Weiss, Y. (1999), "Segmentation using eigenvectors: a unifying view", Proceedings IEEE International Conference on Computer Vision (PDF), pp. 975–982
P. 하레모스와 N.티쉬비 "정보 병목현상 재방문 또는 좋은 왜곡 대책 선택 방법" 2007년 국제정보이론 심포지엄 진행 중

참조

^ ^a ^b ^c Tishby, Naftali; Pereira, Fernando C.; Bialek, William (September 1999). The Information Bottleneck Method (PDF). The 37th annual Allerton Conference on Communication, Control, and Computing. pp. 368–377.
^ ^a ^b Shwartz-Ziv, Ravid; Tishby, Naftali (2017). "Opening the black box of deep neural networks via information". arXiv:1703.00810 [cs.LG].
^ Andrew M, Saxe; et al. (2018). "On the information bottleneck theory of deep learning". ICLR 2018 Conference Blind Submission. 2019 (12): 124020. Bibcode:2019JSMTE..12.4020S. doi:10.1088/1742-5468/ab3985. S2CID 49584497.
^ Noshad, Morteza; et al. (2018). "Scalable Mutual Information Estimation using Dependence Graphs". arXiv:1801.09125 [cs.IT].
^ Goldfeld, Ziv; et al. (2019). "Estimating Information Flow in Deep Neural Networks". Icml 2019: 2299–2308. arXiv:1810.05728.
^ Geiger, Bernhard C. (2020). "On Information Plane Analyses of Neural Network Classifiers -- A Review". arXiv:2003.09671 [cs.LG].
^ Chechik, Gal; Globerson, Amir; Tishby, Naftali; Weiss, Yair (1 January 2005). Dayan, Peter (ed.). "Information Bottleneck for Gaussian Variables" (PDF). Journal of Machine Learning Research (published 1 May 2005) (6): 165–188.
^ Creutzig, Felix; Sprekeler, Henning (2007-12-17). "Predictive Coding and the Slowness Principle: An Information-Theoretic Approach". Neural Computation. 20 (4): 1026–1041. CiteSeerX 10.1.1.169.6917. doi:10.1162/neco.2008.01-07-455. ISSN 0899-7667. PMID 18085988. S2CID 2138951.
^ Creutzig, Felix; Globerson, Amir; Tishby, Naftali (2009-04-27). "Past-future information bottleneck in dynamical systems". Physical Review E. 79 (4): 041925. Bibcode:2009PhRvE..79d1925C. doi:10.1103/PhysRevE.79.041925. PMID 19518274.
^ ^a ^b Silverman, Bernie (1986). Density Estimation for Statistics and Data Analysis. Monographs on Statistics and Applied Probability. Chapman & Hall. Bibcode:1986desd.book.....S. ISBN 978-0412246203.
^ Slonim, Noam; Tishby, Naftali (2000-01-01). Document Clustering Using Word Clusters via the Information Bottleneck Method. Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. SIGIR '00. New York, NY, USA: ACM. pp. 208–215. CiteSeerX 10.1.1.21.3062. doi:10.1145/345508.345578. ISBN 978-1-58113-226-7. S2CID 1373541.
^ D. J. 밀러, A. V. 라오, K. 로즈, A.게르쇼 : "신경망 분류를 위한 정보이론적 학습 알고리즘"NIPS 1995: 페이지 591–597
^ Tishby, Naftali; Slonim, N. Data clustering by Markovian Relaxation and the Information Bottleneck Method (PDF). Neural Information Processing Systems (NIPS) 2000. pp. 640–646.
^ Chechik, Gal; Tishby, Naftali (2002). "Extracting Relevant Structures with Side Information" (PDF). Advances in Neural Information Processing Systems: 857–864.

[:0-1] Tishby, Naftali; Pereira, Fernando C.; Bialek, William (September 1999). The Information Bottleneck Method (PDF). The 37th annual Allerton Conference on Communication, Control, and Computing. pp. 368–377.

[:4-2] Shwartz-Ziv, Ravid; Tishby, Naftali (2017). "Opening the black box of deep neural networks via information". arXiv:1703.00810 [cs.LG].

[3] Andrew M, Saxe; et al. (2018). "On the information bottleneck theory of deep learning". ICLR 2018 Conference Blind Submission. 2019 (12): 124020. Bibcode:2019JSMTE..12.4020S. doi:10.1088/1742-5468/ab3985. S2CID 49584497.

[4] Noshad, Morteza; et al. (2018). "Scalable Mutual Information Estimation using Dependence Graphs". arXiv:1801.09125 [cs.IT].

[5] Goldfeld, Ziv; et al. (2019). "Estimating Information Flow in Deep Neural Networks". Icml 2019: 2299–2308. arXiv:1810.05728.

[6] Geiger, Bernhard C. (2020). "On Information Plane Analyses of Neural Network Classifiers -- A Review". arXiv:2003.09671 [cs.LG].

[7] Chechik, Gal; Globerson, Amir; Tishby, Naftali; Weiss, Yair (1 January 2005). Dayan, Peter (ed.). "Information Bottleneck for Gaussian Variables" (PDF). Journal of Machine Learning Research (published 1 May 2005) (6): 165–188.

[8] Creutzig, Felix; Sprekeler, Henning (2007-12-17). "Predictive Coding and the Slowness Principle: An Information-Theoretic Approach". Neural Computation. 20 (4): 1026–1041. CiteSeerX 10.1.1.169.6917. doi:10.1162/neco.2008.01-07-455. ISSN 0899-7667. PMID 18085988. S2CID 2138951.

[9] Creutzig, Felix; Globerson, Amir; Tishby, Naftali (2009-04-27). "Past-future information bottleneck in dynamical systems". Physical Review E. 79 (4): 041925. Bibcode:2009PhRvE..79d1925C. doi:10.1103/PhysRevE.79.041925. PMID 19518274.

[:2-10] Silverman, Bernie (1986). Density Estimation for Statistics and Data Analysis. Monographs on Statistics and Applied Probability. Chapman & Hall. Bibcode:1986desd.book.....S. ISBN 978-0412246203.

[:3-11] Slonim, Noam; Tishby, Naftali (2000-01-01). Document Clustering Using Word Clusters via the Information Bottleneck Method. Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. SIGIR '00. New York, NY, USA: ACM. pp. 208–215. CiteSeerX 10.1.1.21.3062. doi:10.1145/345508.345578. ISBN 978-1-58113-226-7. S2CID 1373541.

[12] D. J. 밀러, A. V. 라오, K. 로즈, A.게르쇼 : "신경망 분류를 위한 정보이론적 학습 알고리즘"NIPS 1995: 페이지 591–597

[:1-13] Tishby, Naftali; Slonim, N. Data clustering by Markovian Relaxation and the Information Bottleneck Method (PDF). Neural Information Processing Systems (NIPS) 2000. pp. 640–646.

[14] Chechik, Gal; Tishby, Naftali (2002). "Extracting Relevant Structures with Side Information" (PDF). Advances in Neural Information Processing Systems: 857–864.

[1]

[2]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Search