토픽 모델

Topic model

통계자연어 처리에서 주제 모델은 문서 집합에서 발생하는 추상적인 "주제"를 발견하기 위한 통계 모델의 한 유형입니다.주제 모델링은 텍스트 본문에서 숨겨진 의미 구조를 발견하기 위해 자주 사용되는 텍스트 마이닝 도구입니다.직관적으로, 문서가 특정 주제에 관한 것이라는 점을 고려할 때, 특정 단어가 문서에 더 자주 등장할 것으로 예상할 수 있다: "개"와 "뼈"는 개에 관한 문서에 더 자주 등장하고, "고양이"와 "야옹"은 고양이에 관한 문서에 더 자주 등장하며, "the"와 "is"는 둘 다 거의 동일하게 나타날 것이다.문서는 일반적으로 다양한 비율의 여러 주제를 다루고 있습니다. 따라서 고양이에 대한 10%, 개에 대한 90%의 문서에서는 아마도 고양이 단어보다 개 단어가 약 9배 더 많을 것입니다.주제 모델링 기법에 의해 생성되는 "주제"는 유사한 단어들로 이루어진 클러스터입니다.주제 모델은 이러한 직관을 수학적 프레임워크에서 포착하여 문서 세트를 검사하고 각 단어에 대한 통계를 기반으로 주제가 무엇이고 각 문서의 주제 균형이 무엇인지 발견할 수 있습니다.

주제 모델은 확률론적 주제 모델이라고도 하며, 이는 광범위한 텍스트 본문의 잠재 의미 구조를 발견하기 위한 통계 알고리즘을 참조한다.정보의 시대에는, 우리가 매일 접하는 문서 자료의 양은, 우리의 처리 능력을 간단하게 넘습니다.주제 모델은 구조화되지 않은 텍스트 본문의 많은 컬렉션을 이해할 수 있도록 정리하고 통찰력을 제공하는 데 도움이 됩니다.원래 텍스트 마이닝 도구로 개발된 주제 모델은 유전자 정보, 이미지 및 네트워크와 같은 데이터에서 지시적인 구조를 감지하는 데 사용되어 왔다.그들은 또한 생물 정보학이나[1] 컴퓨터 [2]비전 같은 다른 분야에서도 응용을 하고 있다.

역사

초기 주제 모델은 1998년 [3]파파디미트리우, 라그하반, 타마키 및 펨팔라에 의해 기술되었다.확률론적 잠재의미분석(PLSA)이라고 불리는 또 다른 것은 [4]1999년 토마스 호프만에 의해 만들어졌다.잠재 디리클레 할당(LDA)은 아마도 현재 사용되고 있는 가장 일반적인 주제 모델이며, PLSA의 일반화이다.2002년에 David Blei, Andrew Ng 및 Michael I. Jordan의해 개발된 LDA는 문서 토픽 및 토픽 워드 배포에 대해 희박한 Dirichlet 사전 배포를 도입하여 문서가 소수의 주제를 다루며 종종 그 주제에 사용되는 [5]직관을 인코딩합니다.다른 주제 모델은 일반적으로 새총 할당과 같은 LDA에 대한 확장으로, 주제를 구성하는 단어 상관 관계와 더불어 주제 간의 상관 관계를 모델링하여 LDA를 개선한다.계층적 잠목 분석(HLTA)은 LDA의 대안으로, 잠재 변수의 트리를 사용하여 단어 공존을 모델링하고 문서의 소프트 클러스터에 해당하는 잠재 변수의 상태를 주제로 해석한다.

문서-워드 매트릭스에서의 토픽 검출 프로세스의 애니메이션.모든 열은 문서에 대응하고 모든 행은 단어에 대응합니다.셀은 문서에 단어의 빈도를 저장하고, 다크셀은 높은 단어 빈도를 나타낸다.주제 모델은 유사한 단어를 사용하는 문서와 유사한 문서 집합에서 발생하는 단어를 그룹화합니다.결과 패턴을 "토픽"[6]이라고 합니다.

컨텍스트 정보의 토픽 모델

시간적 정보를 접근, Steyvers는 잡지 PNAS에서 초록에 또는 반면 Lamba & 인기가 1991년부터 2001년까지 증가된 주제를 확인하고 Madhusushan[7]에 사용되는 주제 모델 사용한 펜실베니아 가제트의 주제의 시간적인 역동성의 1728–1800. 그리피스 및 동안 블록과 뉴먼의 결정을 포함한다.pic modelinDJ로부터 취득한 전문 연구 기사를 게재하다1981-2018년 LIT 저널.도서관과 정보과학 분야에서 Lamba & Madhusudhan은[9][10][11] 저널 기사 및 전자 논문 및 자원(ETD)과 같은 다양한 인도 자원에 주제 모델링을 적용했습니다.Nelson은 미국 남북전쟁 중 리치몬드의 사회적, 정치적 변화와 연속성을 이해하기 위해 리치몬드 타임즈 디스패치에서 시간 경과에 따른 주제 변화를 분석해 왔습니다.Yang, Torget 및 Mihalcea는 1829년부터 2008년까지 신문에 주제 모델링 방법을 적용했습니다.Mimno는 150년에 걸친 고전 언어학 및 고고학 관련 24개 저널과 함께 주제 모델링을 사용하여 저널의 주제가 시간이 지남에 따라 어떻게 변화하는지, 그리고 저널이 시간이 지남에 따라 어떻게 더 다르거나 비슷해지는지를 살펴보았다.

Yin [13]등은 지리적으로 분산된 문서에 대한 주제 모델을 도입했다. 여기서 문서 위치는 추론 중에 감지되는 잠재 영역에 의해 설명된다.

Chang과 Blei는[14] 웹사이트 간의 연결을 모델링하기 위해 관계형 주제 모델에 링크된 문서 간의 네트워크 정보를 포함시켰다.

Rosen-Zvi [15]등의 저자-주제 모델은 저자 정보가 있는 문서에 대한 주제 탐지를 개선하기 위해 문서 작성자와 관련된 주제를 모델링한다.

HLTA는 주요 AI 및 기계 학습 현장에서 발행된 최신 연구 논문 모음에 적용되었다.그 결과 만들어진 모델은 AI 트리라고 불립니다.결과 토픽은 연구자연구 경향을 추적하고 읽을 논문을 식별하는 데 도움이 되며 회의 주최자 및 저널 편집자가 제출을 위한 리뷰어를 식별하는 데 도움이 됩니다.

알고리즘

실제로 연구자들은 최대우도 적합을 위해 여러 휴리스틱 중 하나를 사용하여 데이터 말뭉치에 적절한 모델 매개변수를 적합시키려고 시도한다.Blei의 최근 조사에 따르면 [16]이 알고리즘은 다음과 같습니다.Papadimitriou et [3]al로 시작하는 여러 그룹의 연구자들.가능한 보증을 가지고 알고리즘을 설계하려고 했습니다.데이터가 실제로 해당 모델에 의해 생성되었다고 가정하고 데이터를 생성하는 데 사용된 모델을 찾을 수 있는 알고리즘을 설계하려고 합니다.여기서 사용되는 기술에는 특이값 분해(SVD) 및 모멘트 방법포함됩니다.2012년에는 주제 [17]간 상관관계를 갖는 주제 모델로 일반화하는 비음수 행렬 인수분해(NMF) 기반 알고리즘이 도입되었다.

2018년 주제 모델에 대한 새로운 접근법이 제안되었다. 확률적 블록[18] 모델을 기반으로 한다.

정량 생물의학 주제 모델

토픽 모델은 다른 컨텍스트에서도 사용되고 있습니다.생물학 및 생물정보학 연구에서 주제 모델을 사용하는 예가 나타났다.[19]최근 주제 모델은 암의 게놈 [20]샘플 데이터 집합에서 정보를 추출하는 데 사용되었다.이 경우 주제는 추론해야 할 생물학적 잠재 변수이다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Blei, David (April 2012). "Probabilistic Topic Models". Communications of the ACM. 55 (4): 77–84. doi:10.1145/2133806.2133826. S2CID 753304.
  2. ^ 조, 양량, 리페이.물체와 씬의 동시 세그먼트화와 분류를 위한 공간적으로 일관성이 있는 잠재 토픽 모델」2007년 제11회 IEEE 컴퓨터 비전 국제회의.IEEE, 2007.
  3. ^ a b Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Latent Semantic Indexing: A probabilistic analysis" (Postscript). Proceedings of ACM PODS: 159–168. doi:10.1145/275487.275505. ISBN 978-0897919968. S2CID 1479546.
  4. ^ Hofmann, Thomas (1999). "Probabilistic Latent Semantic Indexing" (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Archived from the original (PDF) on 2010-12-14.
  5. ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John (January 2003). "Latent Dirichlet allocation". Journal of Machine Learning Research. 3: 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
  6. ^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  7. ^ Lamba, Manika jun (2019). "Mapping of topics in DESIDOC Journal of Library and Information Technology, India: a study". Scientometrics. 120 (2): 477–505. doi:10.1007/s11192-019-03137-5. ISSN 0138-9130. S2CID 174802673.
  8. ^ Lamba, Manika jun (2019). "Mapping of topics in DESIDOC Journal of Library and Information Technology, India: a study". Scientometrics. 120 (2): 477–505. doi:10.1007/s11192-019-03137-5. ISSN 0138-9130. S2CID 174802673.
  9. ^ Lamba, Manika jun (2019). "Metadata Tagging and Prediction Modeling: Case Study of DESIDOC Journal of Library and Information Technology (2008-2017)". World Digital Libraries. 12: 33–89. doi:10.18329/09757597/2019/12103 (inactive 31 July 2022). ISSN 0975-7597.{{cite journal}}: CS1 유지 : 2022년 7월 현재 DOI 비활성화 (링크)
  10. ^ Lamba, Manika may (2019). "Author-Topic Modeling of DESIDOC Journal of Library and Information Technology (2008-2017), India". Library Philosophy and Practice.
  11. ^ Lamba, Manika sep (2018). Metadata Tagging of Library and Information Science Theses: Shodhganga (2013-2017) (PDF). ETD2018:Beyond the boundaries of Rims and Oceans. Taiwan,Taipei.
  12. ^ Nelson, Rob. "Mining the Dispatch". Mining the Dispatch. Digital Scholarship Lab, University of Richmond. Retrieved 26 March 2021.
  13. ^ Yin, Zhijun (2011). "Geographical topic discovery and comparison". Proceedings of the 20th International Conference on World Wide Web: 247–256. doi:10.1145/1963405.1963443. ISBN 9781450306324. S2CID 17883132.
  14. ^ Chang, Jonathan (2009). "Relational Topic Models for Document Networks" (PDF). Aistats. 9: 81–88.
  15. ^ Rosen-Zvi, Michal (2004). "The author-topic model for authors and documents". Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence: 487–494. arXiv:1207.4169.
  16. ^ Blei, David M. (April 2012). "Introduction to Probabilistic Topic Models" (PDF). Comm. ACM. 55 (4): 77–84. doi:10.1145/2133806.2133826. S2CID 753304.
  17. ^ Sanjeev Arora; Rong Ge; Ankur Moitra (April 2012). "Learning Topic Models—Going beyond SVD". arXiv:1204.1956 [cs.LG].
  18. ^ Martin Gerlach; Tiago Pexioto; Eduardo Altmann (2018). "A network approach to topic models". Science Advances. 4 (7): eaaq1360. arXiv:1708.01677. Bibcode:2018SciA....4.1360G. doi:10.1126/sciadv.aaq1360. PMC 6051742. PMID 30035215.
  19. ^ Liu, L.; Tang, L.; et al. (2016). "An overview of topic modeling and its current applications in bioinformatics". SpringerPlus. 5 (1): 1608. doi:10.1186/s40064-016-3252-8. PMC 5028368. PMID 27652181. S2CID 16712827.
  20. ^ Valle, F.; Osella, M.; Caselle, M. (2020). "A Topic Modeling Analysis of TCGA Breast and Lung Cancer Transcriptomic Data". Cancers. 12 (12): 3799. doi:10.3390/cancers12123799. PMC 7766023. PMID 33339347. S2CID 229325007.

추가 정보

외부 링크