R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

时间：2022-12-31 10:04:34浏览次数：54

标签：NIKEID MEANS res cluster 微博 gsub pattern cldata

2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"。微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。

R语言主要用于统计分析与数据可视化,大量新兴研究领域算法不断更新,在人工智能领域有广泛的应用,R语言亦可用相对简单地完成微博可视化工作。

我们最近有一个很棒的机会与一位伟大的客户合作，要求构建一个耐克微博聚类算法。本文利用R语言完成对微博相应分析。

所要分析的数据对象为耐克nike微博热搜话题数据，数据样式如下图所示：

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_词频

查看数据

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_数据_02

文本预处理

res=pinglun1[pinglun1!=" "];

剔除通用标题

res=gsub(pattern="NIKEiD"," ",res);   
res=gsub(pattern="http://t.cn/"," ",res); 
res=gsub(pattern="com"," ",res); 
res=gsub(pattern="耐克"," ",res); 
res=gsub(pattern="官网"," ",res); 
res=gsub(pattern="中国"," ",res);

分词+频数统计

keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);

绘制词汇图

library("wordcloud")

mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系：
wordcloud(d$word,d$freq

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_数据_03

d2=data.frame(word=class2$word, freq=class2$freq);  

# 过滤掉1个字和词频小于100的记录

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_建模_04

K均值聚类K-means

for(i in  1:nrow(cldata)){

   for(j in  unique(d$word) ){

    if(j %in%  unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1

  }

}

 

cl=kmeans(cldata,3)

聚类数据可视化

#cluster 1

y1=cldata[cldata$cluster==1,]

 

#cluster 2

 

y2=cldata[cldata$cluster==2,]

 

 #cluster 3

 

y3=cldata[cldata$cluster==3,]

1类词频云图

words=unlist(keyword[cl$cluster==1]);

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_数据_05

2类词频云图

words=unlist(keyword[cl$cluster==2]);

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_建模_06

3类词频云图

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_词频_07

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化_词频_08

标签：NIKEID,MEANS,res,cluster,微博,gsub,pattern,cldata
From： https://blog.51cto.com/u_14293657/5981888

【机器学习】--Kmeans从初识到应用
一.前述Kmeans算法一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。Kmeans算法是一种无监督的算法。二.概念及原理Kmeans原理：随机选取k......
知更鸟Begin主题侧边栏关于本站：微信、QQ、微博、订阅按钮底色美化
摘要使用知更鸟Begin主题的博友们会发现，小工具”关于本站”中：微信、QQ、微博和订阅4个按钮是灰白色的，很不显眼，所以今天分享一下修改这4个按钮底色的美化教程。一、代码部署......
详解聚类算法Kmeans-重要参数init & random_state & n_init：初始质心怎么放更好【菜菜
视频作者：菜菜TsaiTsai链接：【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibiliinit在K-Means中有一个重要的环节，就是放置初始质心。如果有足够......
Python记录微博关键词的教程
功能效果：通过关键词，记录微博用户以及博客的相关数据代码核心部分：fromconfigimportg_none_word,g_weibo_host,g_weibo_headers,WeiboDataimportrequestsfrombs4imp......
Python 爬取微博指定博主所有内容
这么做有啥用呢，一方面是为了防止他的微博删除，另一方面怕被系统和谐，所以就把他的微博内容爬取下来，然后保存到word文档中，以备不时查看...那么接下来进入爬虫分析环节，小编这里......
R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化
全文链接：http://tecdat.cn/?p=31048原文出处：拓端数据部落公众号2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"。微博具有文本信息......
无限互联新浪微博项目(视频)分享
微博项目示例1项目演示 http://www.tudou.com/programs/view/FiK1E8IZ_xA/?resourceId=119121756_06_02_992iOS项目开发流程 http://www.tudou.com/p......
判断网页打开浏览器类型，PC 手机端，微信浏览器，在新浪微博客户端打开
于2021-06-1720:33:33订阅专栏//判断网页打开浏览器类型，PC手机端，微信浏览器，，，<scripttype="text/javascript">varbrowser={versions:fu......
详解聚类算法Kmeans-重要参数n_clusters【菜菜的sklearn课堂笔记】
视频作者：菜菜TsaiTsai链接：【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibilin_clusters是KMeans中的k，表示着我们告诉模型我们要分几类。这是KM......
基于K-means聚类算法进行客户人群分析
摘要：在本案例中，我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据，把客户分成不同的群体，供营销团队参考并相应地制定营销策略。本文分享自华为云社区《......