확률론적 잠재의미분석

Probabilistic latent semantic analysis

확률적 잠재의미분석(PLSI, 특히 정보 검색 서클에서 확률적 잠재의미지수)은 2가지 모드 및 공존 데이터의 분석을 위한 통계 기법이다.실제로, PLSA가 진화한 잠재 의미 분석에서와 마찬가지로, 특정 숨겨진 변수에 대한 친화력 측면에서 관찰된 변수의 저차원적 표현을 도출할 수 있다.

선형 대수에서 유래하고 (일반적으로 단수값 분해를 통해) 발생 테이블을 축소하는 표준 잠재 의미 분석과 비교하여, 확률론적 잠재 의미 분석은 잠복 클래스 모델에서 파생된 혼합 분해를 기반으로 한다.

모델

PLSA 모델을 나타내는 플레이트 표기법('비대칭' 공식).d는 문서 인덱스 변수, cc는 문서 토픽 에서 가져온 단어 토픽, P ww는 이 단어의 토픽 에서 가져온 단어입니다dd와 w는 관측 가능한 변수이며, c\c는 잠재적 변수입니다.

단어와 문서의 공존,) { 형태의 관측치를 고려하여 PLSA는 조건부 독립 다항 분포의 혼합으로 각 공존의 확률을 모델링한다.

c c 화두입니다.주제 수는 미리 선택해야 하는 하이퍼 모수이며 데이터에서 추정되지 않습니다.첫 번째 공식은 대칭형 공식으로 \dc\displaystyle p( cdisplaystyle p )\ p c)\ pw cdisplaystyled)\d는 모두 유사한 방식으로 잠복 에서 생성됩니다.econd 공식은 비대칭 입니다 문서 d\d에 P c d P ( c d 에 따라 문서에 잠복 클래스가 조건부로 선택되고( w c )\P ( w )에 해당 클래스에서 워드가 생성됩니다.단, 지금까지 사용되고 있습니다만,및 이 예의 문서는 정확히 동일한 방법으로 두 개의 이산형 변수의 공존을 모델링할 수 있습니다.

따라서 파라미터의 수는 + c \ cd + 입니다매개변수 수는 문서 수에 따라 선형적으로 증가합니다.또한 PLSA는 추정된 컬렉션에 포함된 문서의 생성 모델이지만 새로운 문서의 생성 모델은 아닙니다.

이들 파라미터는 EM 알고리즘을 사용하여 학습됩니다.

어플

PLSA는 피셔 [1]커널을 통해 차별적인 환경에서 사용될 수 있습니다.

PLSA는 정보 검색필터링, 자연어 처리, 텍스트로부터의 기계 학습, 생물 정보학 [2]및 관련 분야에서 응용되고 있습니다.

확률론적 잠재의미 분석에 사용된 측면 모델은 심각한 과적합 [3]문제가 있는 것으로 보고되었다.

내선번호

  • 계층 확장:
    • 비대칭: MASHA(다항식 비대칭 계층 분석)[4]
    • 대칭: HPLSA("계층적 확률론적 잠재 의미 분석")[5]
  • 생성 모델:PLSA의 단점, 즉 새로운 문서를 위한 적절한 생성 모델이 아니라는 지적에 대처하기 위해 다음과 같은 모델이 개발되었습니다.
  • 고차 데이터:과학 문헌에서는 거의 설명되지 않지만, PLSA는 자연스럽게 고차 데이터(3개 이상의 모드)로 확장된다. 즉, 3개 이상의 변수에 대한 동시 발생을 모델링할 수 있다.위의 대칭 공식에서는 이러한 추가 변수에 대한 조건부 확률 분포를 추가하는 것만으로 가능합니다.이것은 비음수 텐서 인수 분해에 대한 확률론적 유사체이다.

역사

이것은 잠복 클래스 모델의 한 예이며(참조 참조), 음이 아닌 행렬 인수분해와 관련이[6][7] 있다.현재의 용어는 1999년 토마스 호프만에 [8]의해 만들어졌다.

「 」를 참조해 주세요.

레퍼런스 및 메모

  1. ^ Thomas Hofmann, 문서 유사성 학습: 문서 검색분류대한 정보 기하학적 접근법, 신경 정보 처리 시스템의 발전 12, pp-914-920, MIT Press, 2000
  2. ^ Pinoli, Pietro; et, al. (2013). "Enhanced probabilistic latent semantic analysis with weighting schemes to predict genomic annotations". Proceedings of IEEE BIBE 2013. The 13th IEEE International Conference on BioInformatics and BioEngineering. IEEE. pp. 1–4. doi:10.1109/BIBE.2013.6701702. ISBN 978-147993163-7.
  3. ^ Blei, David M.; Andrew Y. Ng; Michael I. Jordan (2003). "Latent Dirichlet Allocation" (PDF). Journal of Machine Learning Research. 3: 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
  4. ^ Alexei Vinokourov와 Mark Girolami, 문서 수집의 계층적 조직과 분류를 위한 확률론적 프레임워크, 2002년 정보처리관리
  5. ^ Eric Gaussier, Cyril Goutte, Kris Popat 및 Francine Chen, Wayback Machine에 보관된 문서 클러스터링분류 계층 모델 2016-03-04 "정보 검색 어드밴스 - 제24회 IRG 유럽 IRG 회의 진행"
  6. ^ Chris Ding, Tao Li, Wei Peng(2006)."비음수 행렬 인수분해확률론적 잠재 의미 지수: 등가 카이-제곱 통계량 및 하이브리드 방법. AAAI 2006"
  7. ^ Chris Ding, Tao Li, Wei Peng(2008)."비음수행렬 인수분해와 확률론적 잠재의미적 지수화의 등가성에 대하여"
  8. ^ Thomas Hofmann, 확률론적 잠재의미적 색인화, 정보 검색 연구개발에 관한 제22회 국제 SIGIR 회의 진행(SIGIR-99), 1999

외부 링크