拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究

时间：2022-11-27 22:00:42浏览次数：40

标签：新闻组 ## 建模 tecdat atheism religion Usenet idf alt

我们将对1993年发送到20个Usenet公告板的20,000条消息进行分析。此数据集中的Usenet公告板包括新闻组用于政治，宗教，汽车，体育和密码学等主题。

预处理

我们首先阅读20news-bydate文件夹中的所有消息，这些消息组织在子文件夹中，每个消息都有一个文件。我们可以看到在这样的文件用的组合read_lines()，map()和unnest()。

raw_text

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集

## # A tibble: 511,655 x 3
##    newsgroup   id    text                                                              
##    <chr>       <chr> <chr>                                                             
##  1 alt.atheism 49960 From: mathew <[email protected]>                                
##  2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources                       
##  3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism   
##  4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据_02

## # … with 511,645 more rows

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集_03

请注意该newsgroup列描述了每条消息来自哪20个新闻组，以及id列，用于标识该新闻组中的消息。

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_统计分析_04

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据_05

在新闻组中查找tf-idf

我们希望新闻组在主题和内容方面有所不同，因此，它们之间的词语频率也不同。

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_统计分析_06

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集_07

newsgroup_cors

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集_08

## # A tibble: 380 x 3
##    item1                    item2                    correlation
##    <chr>                    <chr>                          <dbl>
##  1 talk.religion.misc       soc.religion.christian         0.835
##  2 soc.religion.christian   talk.religion.misc             0.835
##  3 alt.atheism              talk.religion.misc             0.779
##  4 talk.religion.misc       alt.atheism                    0.779
##  5 alt.atheism              soc.religion.christian         0.751
##  6 soc.religion.christian   alt.atheism                    0.751
##  7 comp.sys.mac.hardware    comp.sys.ibm.pc.hardware       0.680
##  8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware          0.680
##  9 rec.sport.baseball       rec.sport.hockey               0.577
## 10 rec.sport.hockey         rec.sport.baseball             0.577
## # … with 370 more rows

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_统计分析_09

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集_10

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_统计分析_11

主题建模

LDA可以做同样的事情来整理来自不同新闻组的Usenet消息吗？

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集_12

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_统计分析_13

主题1当然代表sci.space新闻组（因此最常见的词是“空间”），主题2可能来自加密，使用诸如“密钥”和“加密”之类的术语。

情绪分析

我们可以使用我们探讨的情绪分析技术来检查这些Usenet帖子中出现的正面和负面词的频率。哪些新闻组总体上最积极或最消极？

在这个例子中，我们将使用AFINN情感词典，它为每个单词提供数字积极性分数，并用条形图可视化

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据_14

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_统计分析_15

用语言分析情绪

值得深入了解为什么有些新闻组比其他新闻组更积极或更消极。为此，我们可以检查每个单词的总积极和消极贡献。

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据_16

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_统计分析_17

N-gram分析

Usenet数据集是一个更大的现代文本语料库，因此我们会对本文中的情绪分析感兴趣.

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据_18

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据_19

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集_20

拓端tecdat|R语言代写文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究_数据集_21

如果您有任何疑问，请在下面发表评论。

标签：新闻组,##,建模,tecdat,atheism,religion,Usenet,idf,alt
From： https://blog.51cto.com/u_14293657/5890440

拓端tecdat|R语言代写周氏检验(Chow test) 检验回归中结构不稳定性的虚拟变量的替代方
全球化时代快速增长的经济体之一是埃塞俄比亚经济。在低收入国家中，它已成为在国内生产总值（GDP）中实现两位数增长率的少数几个国家之一。然而，关于两位数的增长率存在很多争论，......
拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA
R语言中的偏最小二乘回归PLS-DA主成分回归（PCR）的方法本质上是使用第一个方法的普通最小二乘（OLS）拟合来自预测变量的主成分（PC）。这带来许多优点：预测变......
拓端tecdat|R语言代写大数据分析纽约市的311万条投诉统计可视化与时间序列分析
R语言大数据分析纽约市的311万条投诉统计可视化与时间序列分析介绍本文并不表示R在数据分析方面比Python更好或更快速，我本人每天都使用两种语......
拓端tecdat|用于NLP的Python代写辅导：使用Keras的多标签文本LSTM神经网络分类
用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类介绍在本文中，我们将看到如何开发具有多个输出的文本分类模型。我们将开发一个文本分类......
拓端tecdat|R语言代码编写析因设计分析：线性模型中的对比
R语言析因设计分析：线性模型中的对比对比度可用于对线性模型中的处理进行比较。常见的用途是使用析因设计时，除析因设计外还使用控制或检查处理。在......
拓端tecdat|适用于NLP自然语言处理的Python代写：使用Facebook FastText库
适用于NLP自然语言处理的Python：使用FacebookFastText库在本文中，我们将研究FastText，它是用于单词嵌入和文本分类的另一个极其有用的模块......
拓端tecdat|R语言代码编写逻辑回归、方差分析、伪R平方分析
R语言逻辑回归、方差分析、伪R平方分析目录怎么做测试假设条件并非所有比例或计数都适用于逻辑回归分析过度分散伪R平方测试p值Logistic回归示......
拓端tecdat|R语言编程指导预测人口死亡率：用李·卡特模型、非线性模型进行平滑估计
R语言预测人口死亡率：用李·卡特模型、非线性模型进行平滑估计今天早上，我和同事一起分析死亡率。我们在研究人口数据集，可以观察到很多波动性。......
拓端tecdat|R语言编程指导中的block Gibbs吉布斯采样贝叶斯多元线性回归
R语言中的blockGibbs吉布斯采样贝叶斯多元线性回归在这篇文章中，我将对多元线性回归做同样的事情。我将得出block的Gibbs采样器所需的条件后验分......
拓端tecdat|R语言编程指导LME4混合效应模型研究教师的受欢迎程度
R语言LME4混合效应模型研究教师的受欢迎程度介绍本教程对多级回归进行了基本介绍。本教程期望：多级分析的基础知识。R中编码的基础知识......