포인트와이즈 상호 정보

PMI(^[1]pointwise 상호 정보), 즉 포인트 상호 정보는 정보 이론과 통계에 사용되는 연관성의 척도다.PMI를 기반으로 구축되는 상호 정보(MI)와는 대조적으로, MI는 단일 이벤트를, MI는 가능한 모든 이벤트의 평균을 가리킨다.null

정의

이산 랜덤 변수 X와 Y에 속하는 한 쌍의 결과 x와 y의 PMI는 독립성을 가정하여 공동 분포와 개별 분포에 대한 우연 확률 간의 차이를 정량화한다.수학적으로:

\pmi}(x;y)\equiv \log {\frac {p(x,y)}{p(x)}}}{p(x)}}}\p(x)}}}}\frac {p(y x)}{p(y)}}}.

랜덤 변수 X와 Y의 상호 정보(MI)는 PMI의 기대값(가능한 모든 결과에 걸쳐)이다.null

측정값은 대칭( $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ ( $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ ; $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ ) $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ = $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ ( $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ ; $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ ) ${\displaystyle \operatorname {pmi}(x;y)=\operatorname {pmi}(y;x)}).$ 양수 또는 음수 값을 취할 수 있지만 X와 Y가 독립적일 경우 0이다.PMI가 음수 또는 양수일 수 있지만 모든 공동 이벤트(MI)에 대해 예상되는 결과는 양수라는 점에 유의하십시오.PMI는 X와 Y가 완벽하게 연관되어 있을 때( $p(x|y)$ : p $p(x|y)$ ( x $p(x|y)$ ) $p(x y)$ 또는 $p(x|y)$ $p(y|x)=1$ ( $p(y|x)=1$ $p(y|x)=1$ ) $p(y|x)=1$ = $p(y|x)=1$ ${\displaystyle p(y x)=1})$ 최대화하여 다음과 같은 한계를 산출한다. $p(y|x)=1$

\\displaystyle -\inful \leq \pmi}(x;y)\leq \min \왼쪽[-\log p(x),-\log p(y)\right].}

마지막으로 $\operatorname {pmi} (x;y)$ $\operatorname {pmi} (x;y)$ ; y $\operatorname {pmi} (x;y)$ ) ${\displaystyle \operatorname {pmi}(x;y$ $)}$ 이( $p(x|y)$ ) 고정되어 $p(x|y)$ $p(x)$ p $p(x)$ $p(x|y)$ ) ${\displaystyp p($ $x)}$ 이 $p(x)$ (가) 감소하면 $\operatorname {pmi} (x;y)$ pmi ⁡( $p(x)$ ; ) ${\displaystystyp.$ null

다음은 예시할 수 있는 예다.

x	y	p(x, y)
0	0	0.1
0	1	0.7
1	0	0.15
1	1	0.05

이 표를 사용하여 개별 분포에 대해 다음과 같은 추가 표를 얻을 수 있다.

	p(x)	p(y)
0	0.8	0.25
1	0.2	0.75

이 예제를 사용하면 $\operatorname {pmi} (x;y)$ $\operatorname {pmi} (x;y)$ ; y $\operatorname {pmi} (x;y)$ ) $\operatorname {pmi}(x;y)$ 에 대한 4개의 값을 계산할 수 있다 $\operatorname {pmi} (x;y)$ base-2 로그 사용:

pmi(x=0;y=0)	=	−1
pmi(x=0;y=1)	=	0.222392
pmi(x=1;y=0)	=	1.584963
pmi(x=1;y=1)	=	-1.584963

(참조용으로 상호 정보 $\operatorname {I} (X;Y)$ $\operatorname {I} (X;Y)$ ( $\operatorname {I} (X;Y)$ ; Y $\operatorname {I} (X;Y)$ ) $\operatorname {I} (X;Y)$ 은(는) 0.2141709가 된다 $\operatorname {I} (X;Y)$ .)

상호 정보와의 유사성

포인트와이즈 상호 정보는 상호 정보와 많은 동일한 관계를 가지고 있다.특히.

${\mid x)\pmi}(x;y)&h(x)+h(x)+h(x,y)\&h(x\mid y)\&h(y)-h(y\mid x)\&h(y)-h(y\mid x)\end{igned}}}}}$

여기서 $h(x)$ ( x $h(x)$ ) $h(x)$ 은 $h(x)$ (는) 자체 정보 또는 $-\log _{2}p(X=x)$ - $-\log _{2}p(X=x)$ $-\log _{2}p(X=x)$ $-\log _{2}p(X=x)$ $-\log _{2}p(X=x)$ ( $-\log _{2}p(X=x)$ = $-\log _{2}p(X=x)$ ) $-\log _{2}p(X=x)$ .

표준화된 포인트와이즈 상호 정보(npmi)

포인트와이즈 상호 정보는 [-1,+1] 사이에서 정규화하여 함께 발생하지 않을 경우 -1,+1(한계에 있음), 독립성일 경우 0, 그리고 완전한 공존일 경우 +1이 될 수 있다.^[2]null

$\npmi}(x;y)={\frac {\pmi}(x;y)}{h(x,y)}}$

여기서 $h(x,y)$ ( $h(x,y)$ , $h(x,y)$ ) $h(x,y)$ 은 $-\log _{2}p(X=x,Y=y)$ 는) 합동 자기 정보로 $h(x,y)$ , - $-\log _{2}p(X=x,Y=y)$ $-\log _{2}p(X=x,Y=y)$ $-\log _{2}p(X=x,Y=y)$ p $-\log _{2}p(X=x,Y=y)$ ( $-\log _{2}p(X=x,Y=y)$ = $-\log _{2}p(X=x,Y=y)$ , Y $-\log _{2}p(X=x,Y=y)$ = $-\log _{2}p(X=x,Y=y)$ ) $-\log _{2}p(X=x,Y=y)$ 로 추정된다 $-\log _{2}p(X=x,Y=y)$

PMI 변종

위에서 언급한 npmi 외에도 PMI는 많은 다른 흥미로운 변형을 가지고 있다.이러한 변형에 대한 비교 연구는 다음에서 찾을 수 있다.

pmi용 체인 규칙

상호 정보처럼,^[4] 포인트 상호 정보는 체인 룰을 따른다, 즉,

\pmi}(x;yz)=\pminame {pmi}(x;y)+\pminame {pmi}(x;z y)

이는 다음과 같은 방법으로 쉽게 증명할 수 있다.

{\begin{aligned}\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z y)&{}=\log {\frac {p(x,y)}{p(x)p(y)}}+\log {\frac {p(x,z y)}{p(x y)p(z y)}}\\&{}=\log \left[{\frac {p(x,y)}{p(x)p(y)}}{\frac {p(x,z y)}{p(x y)p(z y)}}\right]\\&{}=\log {\frac {p(x y)p(y)p(x,z y)}{p(x)p(y)p(x y)p(z y)}}\\&{}=\log {\frac {p(x,yz)}{p(x)p(yz)}}\\&{}=\operatorname {pmi} (x;yz)\end{aligned}}

적용들

PMI는 정보 이론, 언어학 또는 화학(화학 화합물의 프로파일링 및 분석)과 같은 다양한 분야에서 사용될 수 있다.^[5]계산 언어학에서 PMI는 단어 간의 조합과 연관성을 찾는 데 사용되어 왔다.예를 들어, 텍스트 말뭉치에서 발생한 단어와 단어들의 발생 횟수는 각각 $p(x)$ $p(x,y)$ $p(x)$ ( $p(x)$ ) $p(x)$ 과 $p(x)$ $p(x,y)$ ( $p(x,y)$ , $p(x,y)$ ) $p(x,y)$ 의 확률의 근사치를 위해 사용될 수 있다.다음 표는 위키백과에서 처음 5,000만 단어의 PMI 점수를 1,000개 이상 공동 발생 시 필터링한 단어 쌍의 개수를 보여준다.각 카운트의 빈도는 값을 50,000,952로 나누어 얻을 수 있다(참고: 자연 로그는 로그 베이스 2 대신 이 예에서 PMI 값을 계산하는 데 사용된다).

단어 1	단어 2	단어 1을 세다	단어 2를 세다	공동계산서	PMI
푸에르토리코	리코	1938	1311	1159	10.0349081703
홍의	콩을 먹이다	2438	2694	2205	9.72831972408
로스엔젤로스의	엔젤레스	3501	2808	2791	9.56067615065
탄소의	이산화 탄소의	4265	1353	1032	9.09852946116
상금을 주다	영예의	5131	1676	1210	8.85870710982
산성의	프란시스코	5237	2477	1779	8.83305176711
노벨상의	상금을 주다	4098	5131	2498	8.68948811416
얼음을 치다	하키	5607	3002	1933	8.6555759741
별을 뜨다	트레킹을 하다	8264	1594	1489	8.63974676575
자동차	운전기사	5578	2749	1384	8.41470768304
그거.	그	283891	3293296	3347	-1.72037278119
이다	의	234458	1761436	1019	-2.09254205335
이것의	그	199882	3293296	1211	-2.38612756961
이다	의	565679	1761436	1562	-2.54614706831
그리고	의	1375396	1761436	2949	-2.79911817902
a	그리고	984442	1375396	1457	-2.92239510038
에	그리고	1187652	1375396	1537	-3.05660070757
로	그리고	1025659	1375396	1286	-3.08825363041
로	에	1025659	1187652	1066	-3.12911348956
의	그리고	1761436	1375396	1190	-3.70663100173

좋은 연어 쌍은 각 단어의 발생 확률보다 공동 발생 확률이 약간 낮기 때문에 PMI가 높다.반대로 발생 확률이 공동 발생 확률보다 상당히 높은 한 쌍의 단어는 작은 PMI 점수를 받는다.null

참조

^ Kenneth Ward Church and Patrick Hanks (March 1990). "Word association norms, mutual information, and lexicography". Comput. Linguist. 16 (1): 22–29.
^ Bouma, Gerlof (2009). "Normalized (Pointwise) Mutual Information in Collocation Extraction" (PDF). Proceedings of the Biennial GSCL Conference.
^ 프랑수아 롤, 모하메드 나디프저주파 사건이 공통 발생 기반 단어 유사성 측정에 미치는 영향 처리:포인트와이즈 상호정보의 사례연구KDIR 2011의 진행 : KDIR- 국제지식발굴 및 정보검색 국제회의, 2011년 10월 26일~29일 파리
^ Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS.
^ Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). "Profiling and analysis of chemical compounds using pointwise mutual information". Journal of Cheminformatics. 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946.

Fano, R M (1961). "chapter 2". Transmission of Information: A Statistical Theory of Communications. MIT Press, Cambridge, MA. ISBN 978-0262561693.

외부 링크

Rensselaer MSR Server에서 데모(PMI 값이 0과 1 사이로 정규화됨)

[Church1990-1] Kenneth Ward Church and Patrick Hanks (March 1990). "Word association norms, mutual information, and lexicography". Comput. Linguist. 16 (1): 22–29.

[2] Bouma, Gerlof (2009). "Normalized (Pointwise) Mutual Information in Collocation Extraction" (PDF). Proceedings of the Biennial GSCL Conference.

[3] 프랑수아 롤, 모하메드 나디프저주파 사건이 공통 발생 기반 단어 유사성 측정에 미치는 영향 처리:포인트와이즈 상호정보의 사례연구KDIR 2011의 진행 : KDIR- 국제지식발굴 및 정보검색 국제회의, 2011년 10월 26일~29일 파리

[4] Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS.

[5] Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). "Profiling and analysis of chemical compounds using pointwise mutual information". Journal of Cheminformatics. 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946.

[1]

[2]

[4]

[5]

Search