포인트와이즈 상호 정보
Pointwise mutual information![]() | 이 글은 주제를 잘 모르는 사람들에게 불충분한 맥락을 제공한다.. (2012년 2월 (이 템플리트 및 알아보기 더 하여 할 수 |
PMI([1]pointwise 상호 정보), 즉 포인트 상호 정보는 정보 이론과 통계에 사용되는 연관성의 척도다.PMI를 기반으로 구축되는 상호 정보(MI)와는 대조적으로, MI는 단일 이벤트를, MI는 가능한 모든 이벤트의 평균을 가리킨다.null
정의
이산 랜덤 변수 X와 Y에 속하는 한 쌍의 결과 x와 y의 PMI는 독립성을 가정하여 공동 분포와 개별 분포에 대한 우연 확률 간의 차이를 정량화한다.수학적으로:
랜덤 변수 X와 Y의 상호 정보(MI)는 PMI의 기대값(가능한 모든 결과에 걸쳐)이다.null
측정값은 대칭( ( ; )= ( ; ) 양수 또는 음수 값을 취할 수 있지만 X와 Y가 독립적일 경우 0이다.PMI가 음수 또는 양수일 수 있지만 모든 공동 이벤트(MI)에 대해 예상되는 결과는 양수라는 점에 유의하십시오.PMI는 X와 Y가 완벽하게 연관되어 있을 때(: p( x ) 또는 ( )= 최대화하여 다음과 같은 한계를 산출한다.
마지막으로 ; y) 이() 고정되어 p) 이 (가) 감소하면 pmi ( ; ) null
다음은 예시할 수 있는 예다.
x | y | p(x, y) |
---|---|---|
0 | 0 | 0.1 |
0 | 1 | 0.7 |
1 | 0 | 0.15 |
1 | 1 | 0.05 |
이 표를 사용하여 개별 분포에 대해 다음과 같은 추가 표를 얻을 수 있다.
p(x) | p(y) | |
---|---|---|
0 | 0.8 | 0.25 |
1 | 0.2 | 0.75 |
이 예제를 사용하면 ; y) 에 대한 4개의 값을 계산할 수 있다 base-2 로그 사용:
pmi(x=0;y=0) | = | −1 |
pmi(x=0;y=1) | = | 0.222392 |
pmi(x=1;y=0) | = | 1.584963 |
pmi(x=1;y=1) | = | -1.584963 |
(참조용으로 상호 정보 (; Y) 은(는) 0.2141709가 된다.)
상호 정보와의 유사성
포인트와이즈 상호 정보는 상호 정보와 많은 동일한 관계를 가지고 있다.특히.
여기서 ( x) 은 (는) 자체 정보 또는- ( = ) .
표준화된 포인트와이즈 상호 정보(npmi)
포인트와이즈 상호 정보는 [-1,+1] 사이에서 정규화하여 함께 발생하지 않을 경우 -1,+1(한계에 있음), 독립성일 경우 0, 그리고 완전한 공존일 경우 +1이 될 수 있다.[2]null
여기서 ( , ) 은는) 합동 자기 정보로, - p( = , Y= ) 로 추정된다
PMI 변종
위에서 언급한 npmi 외에도 PMI는 많은 다른 흥미로운 변형을 가지고 있다.이러한 변형에 대한 비교 연구는 다음에서 찾을 수 있다.
pmi용 체인 규칙
상호 정보처럼,[4] 포인트 상호 정보는 체인 룰을 따른다, 즉,
이는 다음과 같은 방법으로 쉽게 증명할 수 있다.
적용들
PMI는 정보 이론, 언어학 또는 화학(화학 화합물의 프로파일링 및 분석)과 같은 다양한 분야에서 사용될 수 있다.[5]계산 언어학에서 PMI는 단어 간의 조합과 연관성을 찾는 데 사용되어 왔다.예를 들어, 텍스트 말뭉치에서 발생한 단어와 단어들의 발생 횟수는 각각 ( ) 과 ( , ) 의 확률의 근사치를 위해 사용될 수 있다.다음 표는 위키백과에서 처음 5,000만 단어의 PMI 점수를 1,000개 이상 공동 발생 시 필터링한 단어 쌍의 개수를 보여준다.각 카운트의 빈도는 값을 50,000,952로 나누어 얻을 수 있다(참고: 자연 로그는 로그 베이스 2 대신 이 예에서 PMI 값을 계산하는 데 사용된다).
단어 1 | 단어 2 | 단어 1을 세다 | 단어 2를 세다 | 공동계산서 | PMI |
---|---|---|---|---|---|
푸에르토리코 | 리코 | 1938 | 1311 | 1159 | 10.0349081703 |
홍의 | 콩을 먹이다 | 2438 | 2694 | 2205 | 9.72831972408 |
로스엔젤로스의 | 엔젤레스 | 3501 | 2808 | 2791 | 9.56067615065 |
탄소의 | 이산화 탄소의 | 4265 | 1353 | 1032 | 9.09852946116 |
상금을 주다 | 영예의 | 5131 | 1676 | 1210 | 8.85870710982 |
산성의 | 프란시스코 | 5237 | 2477 | 1779 | 8.83305176711 |
노벨상의 | 상금을 주다 | 4098 | 5131 | 2498 | 8.68948811416 |
얼음을 치다 | 하키 | 5607 | 3002 | 1933 | 8.6555759741 |
별을 뜨다 | 트레킹을 하다 | 8264 | 1594 | 1489 | 8.63974676575 |
자동차 | 운전기사 | 5578 | 2749 | 1384 | 8.41470768304 |
그거. | 그 | 283891 | 3293296 | 3347 | -1.72037278119 |
이다 | 의 | 234458 | 1761436 | 1019 | -2.09254205335 |
이것의 | 그 | 199882 | 3293296 | 1211 | -2.38612756961 |
이다 | 의 | 565679 | 1761436 | 1562 | -2.54614706831 |
그리고 | 의 | 1375396 | 1761436 | 2949 | -2.79911817902 |
a | 그리고 | 984442 | 1375396 | 1457 | -2.92239510038 |
에 | 그리고 | 1187652 | 1375396 | 1537 | -3.05660070757 |
로 | 그리고 | 1025659 | 1375396 | 1286 | -3.08825363041 |
로 | 에 | 1025659 | 1187652 | 1066 | -3.12911348956 |
의 | 그리고 | 1761436 | 1375396 | 1190 | -3.70663100173 |
좋은 연어 쌍은 각 단어의 발생 확률보다 공동 발생 확률이 약간 낮기 때문에 PMI가 높다.반대로 발생 확률이 공동 발생 확률보다 상당히 높은 한 쌍의 단어는 작은 PMI 점수를 받는다.null
참조
- ^ Kenneth Ward Church and Patrick Hanks (March 1990). "Word association norms, mutual information, and lexicography". Comput. Linguist. 16 (1): 22–29.
- ^ Bouma, Gerlof (2009). "Normalized (Pointwise) Mutual Information in Collocation Extraction" (PDF). Proceedings of the Biennial GSCL Conference.
- ^ 프랑수아 롤, 모하메드 나디프저주파 사건이 공통 발생 기반 단어 유사성 측정에 미치는 영향 처리:포인트와이즈 상호정보의 사례연구KDIR 2011의 진행 : KDIR- 국제지식발굴 및 정보검색 국제회의, 2011년 10월 26일~29일 파리
- ^ Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS.
- ^ Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). "Profiling and analysis of chemical compounds using pointwise mutual information". Journal of Cheminformatics. 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946.
- Fano, R M (1961). "chapter 2". Transmission of Information: A Statistical Theory of Communications. MIT Press, Cambridge, MA. ISBN 978-0262561693.
외부 링크
- Rensselaer MSR Server에서 데모(PMI 값이 0과 1 사이로 정규화됨)