확률론적 잠재의미분석
Probabilistic latent semantic analysis확률적 잠재의미분석(PLSI, 특히 정보 검색 서클에서 확률적 잠재의미지수)은 2가지 모드 및 공존 데이터의 분석을 위한 통계 기법이다.실제로, PLSA가 진화한 잠재 의미 분석에서와 마찬가지로, 특정 숨겨진 변수에 대한 친화력 측면에서 관찰된 변수의 저차원적 표현을 도출할 수 있다.
선형 대수에서 유래하고 (일반적으로 단수값 분해를 통해) 발생 테이블을 축소하는 표준 잠재 의미 분석과 비교하여, 확률론적 잠재 의미 분석은 잠복 클래스 모델에서 파생된 혼합 분해를 기반으로 한다.
모델
단어와 문서의 공존,) { 형태의 관측치를 고려하여 PLSA는 조건부 독립 다항 분포의 혼합으로 각 공존의 확률을 모델링한다.
c c가 화두입니다.주제 수는 미리 선택해야 하는 하이퍼 모수이며 데이터에서 추정되지 않습니다.첫 번째 공식은 대칭형 공식으로 \dc\displaystyle p( cdisplaystyle p )\ p c)\ pw cdisplaystyled)\d는 모두 유사한 방식으로 잠복 에서 생성됩니다.econd 공식은 비대칭 입니다 문서 d\d에 P c d P ( c d 에 따라 문서에 잠복 클래스가 조건부로 선택되고( w c )\P ( w )에 해당 클래스에서 워드가 생성됩니다.단, 지금까지 사용되고 있습니다만,및 이 예의 문서는 정확히 동일한 방법으로 두 개의 이산형 변수의 공존을 모델링할 수 있습니다.
따라서 파라미터의 수는 + c \ cd + 입니다매개변수 수는 문서 수에 따라 선형적으로 증가합니다.또한 PLSA는 추정된 컬렉션에 포함된 문서의 생성 모델이지만 새로운 문서의 생성 모델은 아닙니다.
어플
PLSA는 피셔 [1]커널을 통해 차별적인 환경에서 사용될 수 있습니다.
PLSA는 정보 검색 및 필터링, 자연어 처리, 텍스트로부터의 기계 학습, 생물 정보학 [2]및 관련 분야에서 응용되고 있습니다.
확률론적 잠재의미 분석에 사용된 측면 모델은 심각한 과적합 [3]문제가 있는 것으로 보고되었다.
내선번호
- 생성 모델:PLSA의 단점, 즉 새로운 문서를 위한 적절한 생성 모델이 아니라는 지적에 대처하기 위해 다음과 같은 모델이 개발되었습니다.
- 잠재 디리클레 할당– 문서별 토픽 배포 전에 디리클레 추가
- 고차 데이터:과학 문헌에서는 거의 설명되지 않지만, PLSA는 자연스럽게 고차 데이터(3개 이상의 모드)로 확장된다. 즉, 3개 이상의 변수에 대한 동시 발생을 모델링할 수 있다.위의 대칭 공식에서는 이러한 추가 변수에 대한 조건부 확률 분포를 추가하는 것만으로 가능합니다.이것은 비음수 텐서 인수 분해에 대한 확률론적 유사체이다.
역사
이것은 잠복 클래스 모델의 한 예이며(참조 참조), 음이 아닌 행렬 인수분해와 관련이[6][7] 있다.현재의 용어는 1999년 토마스 호프만에 [8]의해 만들어졌다.
「 」를 참조해 주세요.
레퍼런스 및 메모
- ^ Thomas Hofmann, 문서 유사성 학습: 문서 검색 및 분류에 대한 정보 기하학적 접근법, 신경 정보 처리 시스템의 발전 12, pp-914-920, MIT Press, 2000
- ^ Pinoli, Pietro; et, al. (2013). "Enhanced probabilistic latent semantic analysis with weighting schemes to predict genomic annotations". Proceedings of IEEE BIBE 2013. The 13th IEEE International Conference on BioInformatics and BioEngineering. IEEE. pp. 1–4. doi:10.1109/BIBE.2013.6701702. ISBN 978-147993163-7.
- ^ Blei, David M.; Andrew Y. Ng; Michael I. Jordan (2003). "Latent Dirichlet Allocation" (PDF). Journal of Machine Learning Research. 3: 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
- ^ Alexei Vinokourov와 Mark Girolami, 문서 수집의 계층적 조직과 분류를 위한 확률론적 프레임워크, 2002년 정보처리 및 관리
- ^ Eric Gaussier, Cyril Goutte, Kris Popat 및 Francine Chen, Wayback Machine에 보관된 문서 클러스터링 및 분류 계층 모델 2016-03-04 "정보 검색 어드밴스 - 제24회 IRG 유럽 IRG 회의 진행"
- ^ Chris Ding, Tao Li, Wei Peng(2006)."비음수 행렬 인수분해 및 확률론적 잠재 의미 지수: 등가 카이-제곱 통계량 및 하이브리드 방법. AAAI 2006"
- ^ Chris Ding, Tao Li, Wei Peng(2008)."비음수행렬 인수분해와 확률론적 잠재의미적 지수화의 등가성에 대하여"
- ^ Thomas Hofmann, 확률론적 잠재의미적 색인화, 정보 검색 연구개발에 관한 제22회 국제 SIGIR 회의 진행(SIGIR-99), 1999