포인트와이즈 상호 정보

Pointwise mutual information

PMI([1]pointwise 상호 정보), 즉 포인트 상호 정보정보 이론통계에 사용되는 연관성의 척도다.PMI를 기반으로 구축되는 상호 정보(MI)와는 대조적으로, MI는 단일 이벤트를, MI는 가능한 모든 이벤트의 평균을 가리킨다.null

정의

이산 랜덤 변수 XY에 속하는 한 쌍의 결과 xy의 PMI는 독립성을 가정하여 공동 분포와 개별 분포에 대한 우연 확률 간의 차이를 정량화한다.수학적으로:

랜덤 변수 XY상호 정보(MI)는 PMI의 기대값(가능한 모든 결과에 걸쳐)이다.null

측정값은 대칭( ( ; )= ( ; ) 양수 또는 음수 값을 취할 수 있지만 XY독립적일 경우 0이다.PMI가 음수 또는 양수일 수 있지만 모든 공동 이벤트(MI)에 대해 예상되는 결과는 양수라는 점에 유의하십시오.PMI는 XY가 완벽하게 연관되어 있을 때(: p( x ) 또는 ( )= 최대화하여 다음과 같은 한계를 산출한다.

마지막으로 ; y) 이() 고정되어 p) (가) 감소하면 pmi ⁡( ; ) null

다음은 예시할 수 있는 예다.

x y p(x, y)
0 0 0.1
0 1 0.7
1 0 0.15
1 1 0.05

이 표를 사용하여 개별 분포에 대해 다음과 같은 추가 표를 얻을 수 있다.

p(x) p(y)
0 0.8 0.25
1 0.2 0.75

이 예제를 사용하면 ; y) 에 대한 4개의 값을 계산할 수 있다 base-2 로그 사용:

pmi(x=0;y=0) = −1
pmi(x=0;y=1) = 0.222392
pmi(x=1;y=0) = 1.584963
pmi(x=1;y=1) = -1.584963

(참조용으로 상호 정보 (; Y) 은(는) 0.2141709가 된다.)

상호 정보와의 유사성

포인트와이즈 상호 정보는 상호 정보와 많은 동일한 관계를 가지고 있다.특히.

여기서 ( x) (는) 자체 정보 또는- ( = ) .

표준화된 포인트와이즈 상호 정보(npmi)

포인트와이즈 상호 정보는 [-1,+1] 사이에서 정규화하여 함께 발생하지 않을 경우 -1,+1(한계에 있음), 독립성일 경우 0, 그리고 완전한 공존일 경우 +1이 될 수 있다.[2]null

여기서 ( , ) 는) 합동 자기 정보로, - p( = , Y= ) 로 추정된다

PMI 변종

위에서 언급한 npmi 외에도 PMI는 많은 다른 흥미로운 변형을 가지고 있다.이러한 변형에 대한 비교 연구는 다음에서 찾을 수 있다.

pmi용 체인 규칙

상호 정보처럼,[4] 포인트 상호 정보는 체인 룰을 따른다, 즉,

이는 다음과 같은 방법으로 쉽게 증명할 수 있다.

적용들

PMI는 정보 이론, 언어학 또는 화학(화학 화합물의 프로파일링 및 분석)과 같은 다양한 분야에서 사용될 수 있다.[5]계산 언어학에서 PMI는 단어 간의 조합과 연관성을 찾는 데 사용되어 왔다.예를 들어, 텍스트 말뭉치에서 발생한 단어와 단어들의 발생 횟수는 각각 ( ) ( , ) 의 확률의 근사치를 위해 사용될 수 있다.다음 표는 위키백과에서 처음 5,000만 단어의 PMI 점수를 1,000개 이상 공동 발생 시 필터링한 단어 쌍의 개수를 보여준다.각 카운트의 빈도는 값을 50,000,952로 나누어 얻을 수 있다(참고: 자연 로그는 로그 베이스 2 대신 이 예에서 PMI 값을 계산하는 데 사용된다).

단어 1 단어 2 단어 1을 세다 단어 2를 세다 공동계산서 PMI
푸에르토리코 리코 1938 1311 1159 10.0349081703
홍의 콩을 먹이다 2438 2694 2205 9.72831972408
로스엔젤로스의 엔젤레스 3501 2808 2791 9.56067615065
탄소의 이산화 탄소의 4265 1353 1032 9.09852946116
상금을 주다 영예의 5131 1676 1210 8.85870710982
산성의 프란시스코 5237 2477 1779 8.83305176711
노벨상의 상금을 주다 4098 5131 2498 8.68948811416
얼음을 치다 하키 5607 3002 1933 8.6555759741
별을 뜨다 트레킹을 하다 8264 1594 1489 8.63974676575
자동차 운전기사 5578 2749 1384 8.41470768304
그거. 283891 3293296 3347 -1.72037278119
이다 234458 1761436 1019 -2.09254205335
이것의 199882 3293296 1211 -2.38612756961
이다 565679 1761436 1562 -2.54614706831
그리고 1375396 1761436 2949 -2.79911817902
a 그리고 984442 1375396 1457 -2.92239510038
그리고 1187652 1375396 1537 -3.05660070757
그리고 1025659 1375396 1286 -3.08825363041
1025659 1187652 1066 -3.12911348956
그리고 1761436 1375396 1190 -3.70663100173

좋은 연어 쌍은 각 단어의 발생 확률보다 공동 발생 확률이 약간 낮기 때문에 PMI가 높다.반대로 발생 확률이 공동 발생 확률보다 상당히 높은 한 쌍의 단어는 작은 PMI 점수를 받는다.null

참조

  1. ^ Kenneth Ward Church and Patrick Hanks (March 1990). "Word association norms, mutual information, and lexicography". Comput. Linguist. 16 (1): 22–29.
  2. ^ Bouma, Gerlof (2009). "Normalized (Pointwise) Mutual Information in Collocation Extraction" (PDF). Proceedings of the Biennial GSCL Conference.
  3. ^ 프랑수아 롤, 모하메드 나디프저주파 사건이 공통 발생 기반 단어 유사성 측정에 미치는 영향 처리:포인트와이즈 상호정보의 사례연구KDIR 2011의 진행 : KDIR- 국제지식발굴 및 정보검색 국제회의, 2011년 10월 26일~29일 파리
  4. ^ Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS.
  5. ^ Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). "Profiling and analysis of chemical compounds using pointwise mutual information". Journal of Cheminformatics. 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946.

외부 링크