• 2023-02-06关键词提取
     一般来说,TF-IDF算法和TextRank算法就可以满足大部分的关键词提取任务。但是在某些场景,基于文档本身的关键词提取还不是非常足够,有些关键词不一定会显式的出现在文档中,对于
  • 2023-01-18主题模型之PLSA
    ​​WelcomeToMyBlog​​上一篇文章介绍了​​文本建模之UnigramModel​​,但这个模型太过于简略,本篇文章介绍PLSA(ProbabilisticLatentSemanticAnalysis,概率化的
  • 2023-01-01PLSA模型简介
    knitr::opts_chunk$set(echo=TRUE)1、文档生成  对于某一篇特定的文章,其生成过程可以看做如下方式:1.为这篇文章制造一个特定的doc_topic的骰子2.先掷doc_topic