R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化

时间：2023-04-01 12:33:01浏览次数：56

支持向量机（SVM）是一种机器学习方法，基于结构风险最小化原则，即通过少量样本数据，得到尽可能多的样本数据。支持向量机对线性问题进行处理，能解决非线性分类问题。本文介绍了R语言中的 SVM工具箱及其支持向量机（SVM）方法，并将其应用于文本情感分析领域，结果表明，该方法是有效的。在此基础上，对文本挖掘新闻语料进行情感分类和词云可视化，从视觉上对文本进行情感分析。

语料是从yahoo Qimo上爬的新闻语料，一共49000篇，每篇包含题目、新闻内容、评论、读者投票结果（投票选择依次为：实用，感人、开心、超扯、无聊、害怕、难过、火大）以及总投票个数。

数据概览

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_文本挖掘

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_数据_02

以第一个预料为例

对其分词提取关键词

library(jiebaR)
cutter = worker(type = "keywords", topn = 10)  
words = "1.txt"

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_数据_03

查看工作目录下所有的文件

dir = list.files(".")

获取分类号

xx<-readLines(dir[i],encoding = "UTF-8")

## Warning in readLines(dir[i], encoding = "UTF-8"): 读'1.txt'时最后一行未遂

# xx<-readLines("2.txt",encoding = "UTF-8")  
  
class=strsplit(xx[length(xx)-1],split="#")[[1]][3]

词性分类

for(i in 1:10){
  cutter = worker(type = "keywords", topn = 10)

绘制词汇图

mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系：

wordcloud(cutter_words,as.numeriter_words)),random.order=FAL

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_建模_04

准备训练集和测试集

ntrain <- round(n*0.8) # 训练集  
tindex <- sample(n,ntrain) # 筛选测试集样本  
xtrain<-textdata[tindex,]  
xtest<-textdata[-tindex,]

#可视化  
plot(textdata[,c("classlist","X1")] ,pch=ifelse(istrain==1,1,2))

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_建模_05

训练SVM

现在我们在训练集上使用来训练线性SVM

svm(classlist ~ . , textdata)

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_文本挖掘_06

预测数据

predictedY <- predict(model, textdata)

预测的数据

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_文本挖掘_07

查看分类混淆矩阵

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_数据_08

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化_建模_09

标签：10,SVM,分类,词云,文本,语料,向量
From： https://blog.51cto.com/u_14293657/6163504

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化
全文链接：http://tecdat.cn/?p=32032原文出处：拓端数据部落公众号支持向量机（SVM）是一种机器学习方法，基于结构风险最小化原则，即通过少量样本数据，得到尽可能多的样本数据。支持向量机对线性问题进行处理，能解决非线性分类问题。本文介绍了R语言中的SVM工具箱及其支持向量机（SVM）方法，并......
基于LGC局部全局一致性和SVM支持向量机的半监督分类算法matlab仿真
1.算法描述半监督学习(Semi-SupervisedLearning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使......
基于LGC局部全局一致性和SVM支持向量机的半监督分类算法matlab仿真
1.算法描述半监督学习(Semi-SupervisedLearning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数......
灰狼优化算法GWO优化SVM支持向量机惩罚参数c和核函数参数g
灰狼优化算法GWO优化SVM支持向量机惩罚参数c和核函数参数g，有例子，易上手，简单粗暴，替换数据即可，分类问题。仅适应于windows系统YID:6999630206572076......
【SVM时序预测】基于遗传算法优化支持向量机GA-SVM农产品价格时间序列预测附matlab代
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......
【SVM回归预测】基于支持向量机实现航线预测附matlab代码
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......
m基于分段蚁群算法优化SVM的数据预测matlab仿真
1.算法描述支持向量机（supportvectormachines,SVM）是二分类算法，所谓二分类即把具有多个特性（属性）的数据分为两类，目前主流机器学习算法中，神经网络等其他机器学习模型已经能......
m基于分段蚁群算法优化SVM的数据预测matlab仿真
1.算法描述支持向量机（supportvectormachines,SVM）是二分类算法，所谓二分类即把具有多个特性（属性）的数据分为两类，目前主流机器学习算法中，神经网络等其他机器......
【SVM时序预测】基于遗传算法优化支持向量机GA-SVM的失业率时间序列预测附matlab代码
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。......
机器学习算法（四）: 基于支持向量机的分类预测（SVM）
机器学习算法（四）:基于支持向量机的分类预测本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc1.相关流程支持向量机（SupportVectorMachine，SVM......