首页 > 其他分享 >文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究|附代码数据

文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究|附代码数据

时间:2024-05-30 22:22:13浏览次数:19  
标签:分析 新闻组 ## 建模 atheism tf idf 文本

原文链接:http://tecdat.cn/?p=6864

我们围绕文本挖掘技术进行一些咨询,帮助客户解决独特的业务问题。 我们对20个Usenet公告板的20,000条消息进行分析  点击文末“阅读原文”获取完整代码数据******** )。

此数据集中的Usenet公告板包括新汽车,体育和密码学等主题。

预处理

我们首先阅读20news-bydate文件夹中的所有消息,这些消息组织在子文件夹中,每个消息都有一个文件。

   
raw_text
   
## # A tibble: 511,655 x 3
##    newsgroup   id    text                                                              
##    <chr>       <chr> <chr>                                                             
##  1 alt.atheism 49960 From: mathew <[email protected]>                                
##  2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources                       
##  3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism   
##  4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres
   
## # … with 511,645 more rows

请注意该newsgroup列描述了每条消息来自哪20个新闻组,以及id列,用于标识该新闻组中的消息。

图片

tf-idf

TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。我们希望新闻组在主题和内容方面有所不同,因此,它们之间的词语频率也不同。

图片

   
newsgroup_cors
   
## # A tibble: 380 x 3
##    item1                    item2                    correlation
##    <chr>                    <chr>                          <dbl>
##  1 talk.religion.misc       soc.religion.christian         0.835
##  2 soc.religion.christian   talk.religion.misc             0.835
##  3 alt.atheism              talk.religion.misc             0.779
##  4 talk.religion.misc       alt.atheism                    0.779
##  5 alt.atheism              soc.religion.christian         0.751
##  6 soc.religion.christian   alt.atheism                    0.751
##  7 comp.sys.mac.hardware    comp.sys.ibm.pc.hardware       0.680
##  8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware          0.680
##  9 rec.sport.baseball       rec.sport.hockey               0.577
## 10 rec.sport.hockey         rec.sport.baseball             0.577
## # … with 370 more rows

图片

主题建模

LDA可以整理来自不同新闻组的Usenet消息吗?

图片

主题1当然代表sci.space新闻组(因此最常见的词是“空间”),主题2可能来自密码学,使用诸如“密钥”和“加密”之类的术语。

情绪分析

我们可以使用我们 探讨的情绪分析技术来检查这些Usenet帖子中出现的正面和负面词的频率。哪些新闻组总体上最积极或最消极?

在这个例子中,我们将使用AFINN情感词典,它为每个单词提供积极性分数,并用条形图可视化

图片

用语言分析情绪

值得深入了解_为什么_有些新闻组比其他新闻组更积极或更消极。为此,我们可以检查每个单词的总积极和消极贡献度。

图片

N-gram分析

Usenet数据集是一个现代文本语料库,因此我们会对本文中的情绪分析感兴趣.图片图片


图片

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究》。

点击标题查阅往期内容

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集
自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据
R语言对NASA元数据进行文本挖掘的主题建模分析
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
用于NLP的Python:使用Keras进行深度学习文本生成
长短期记忆网络LSTM在时间序列预测和文本分类中的应用
用Rapidminer做文本挖掘的应用:情感分析
R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究
R语言对推特twitter数据进行文本情感分析
Python使用神经网络进行简单文本分类
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
R语言文本挖掘使用tf-idf分析NASA元数据的关键字
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
Python使用神经网络进行简单文本分类
R语言自然语言处理(NLP):情感分析新闻文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
R语言对推特twitter数据进行文本情感分析
R语言中的LDA模型:对文本数据进行主题模型topic modeling分析
R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)

标签:分析,新闻组,##,建模,atheism,tf,idf,文本
From: https://www.cnblogs.com/tecdat/p/18223363

相关文章

  • BUUCTF Crypto 1~20刷题记录
    文章目录一、Crypto1、MD52、Url编码3、摩丝4、password5、Quoted-printable6、篱笆墙的影子7、Rabbit8、RSA9、丢失的MD510、Alice与Bob11、大帝的密码武器12、rsarsa13、Windows系统密码14、信息化时代的步伐15、凯撒?替换?呵呵!16、萌萌哒的八戒17、权限获得第一步18、......
  • 模型节点操作学习笔记(Appendix)实验1 -- Tflite int8 删除最后的Round节点 (持续更新)
    背景如下:我要删除Round节点,同时看了一下,Dequantize和Quantize也是没有必要的。所以最好一起删除。原始项目地址:PINTO0309/hand-gesture-recognition-using-onnx:ThisisahandgesturerecognitionprogramthatreplacestheentireMediaPipeprocesswithONNX.Simultane......
  • 风控建模常用指标——WOE/IV/COR/VIF/PSI总结以及实现代码
    风控建模常用指标——WOE/IV/COR/VIF/PSI总结以及实现代码在金融领域,风险控制(风控)是维护金融稳定和安全的重要环节。随着大数据时代的到来,金融机构越来越依赖于数据驱动的风控模型来评估和量化风险。在构建这些模型时,一系列关键指标成为了衡量和解释模型性能的基石。其中,WO......
  • BUUCTF-Misc(61-70)
    [ACTF新生赛2020]swp参考:[BUUCTFmisc专题(76)ACTF新生赛2020]swp-CSDN博客解开压缩包,密密麻麻,不懂咋办了然后这边进行协议分析大部分是tcp,所以我们导出对象->选择http然后我就找到这个加密的压缩包然后010editor打开发现伪加密,改成00,有两处我只圈了一处在flag.swp里面......
  • 【Swing】JTextField设置光标
    1、设置焦点焦点默认是在窗体的第一个组件上UIManager.setLookAndFeel(UIManager.getSystemLookAndFeelClassName());JFramewindow=newJFrame();JPanelpanel=newJPanel(newFlowLayout(FlowLayout.LEFT));JButtonmessageDialog=newJButton("消息框");messageDi......
  • TF-IDF算法
    TF-IDF(termfrequency–inversedocumentfrequency,词频-逆向文件频率)TF-IDF本质上是一种统计方法,用来评估一个词/token在整个语料库中当前文档中的重要程度,字词的重要性随着它在当前文档中出现的频率成正比增加,随着它在整个语料库中出现的频率成反比降低。主要思想:某个单词在当......
  • 自己实现dubbo参数校验(类似RestFul 参数校验)
    1.场景:因为工作中经常需要做参数校验,在springboot项目中使用@Valid+@NotNull、@NotBlank…注解开发API接口非常丝滑,相反在开发RPC接口时却还是需要编写大量的参数判断,严重影响主业务流程的开发(公司目前用的是Dubbo2.7.2)且代码整洁度、风格都受到了挑战。基于以上原因萌生了写一......
  • react+three.js导入外部gltf格式
    我把gltf文件放在了public/static下面了。其他地方还没适用。因为之前想导入obj一直没成功,就跟着官网和各种例子成功导入了gltf格式的然后其他的没啥。看代码吧。大部分我都写了备注components组件importReact,{useEffect,useRef}from"react";import*asTHREE......
  • Tron_CTF2024新生赛 WEB
    web业余憨憨简单复现一下,不过有两题环境挂了s1mple_php题目easy我的解答:源码:<?phphighlight_file(__FILE__);include("flag.php");$c=$_POST['c'];$v=$_GET['v'];$e=$_GET['e'];if(isset($_GET['v'])andisset($_GET['......
  • 尽管依赖行者未找到任何缺失的依赖项,但在尝试使用 Ctypes 加载 DLL 时仍出现 FileNotF
    答案:设置winmode=0我是第一次使用ctypes,因此在尝试真正实现它之前先玩了一下。但是,我无法使用ctypes.CDLL()加载我编译的DLL,因为它会抛出FileNotFoundError。这是完整的错误信息:FileNotFoundError:无法找到模块'E:\absolute\path\to.dll'(或其依赖项之一)。请尝试使用带有构......