R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

时间：2022-12-27 22:45:25浏览次数：77

标签：NIKEID 文本 MEANS res cluster 微博可视化 cldata

?p=31048

原文出处：拓端数据部落公众号

2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"。微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。

R语言主要用于统计分析与数据可视化,大量新兴研究领域算法不断更新,在人工智能领域有广泛的应用,R语言亦可用相对简单地完成微博可视化工作。

我们最近有一个很棒的机会与一位伟大的客户合作，要求构建一个耐克微博聚类算法。本文利用R语言完成对微博相应分析。

所要分析的数据对象为耐克nike微博热搜话题数据，数据样式如下图所示：

查看数据

文本预处理

res=pinglun1[pinglun1!=" "];

剔除通用标题

res=gsub(pattern="NIKEiD"," ",res);   
res=gsub(pattern="http://t.cn/"," ",res); 
res=gsub(pattern="com"," ",res); 
res=gsub(pattern="耐克"," ",res); 
res=gsub(pattern="官网"," ",res); 
res=gsub(pattern="中国"," ",res);

分词+频数统计

keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);

绘制词汇图

library("wordcloud")

mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系：
wordcloud(d$word,d$freq

以chat为基地.png

d2=data.frame(word=class2$word, freq=class2$freq);  

# 过滤掉1个字和词频小于100的记录

以chat为基地.png

K均值聚类K-means

for(i in  1:nrow(cldata)){

   for(j in  unique(d$word) ){

    if(j %in%  unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1

  }

}

 

cl=kmeans(cldata,3)

聚类数据可视化

#cluster 1

y1=cldata[cldata$cluster==1,]

 

#cluster 2

 

y2=cldata[cldata$cluster==2,]

 

 #cluster 3

 

y3=cldata[cldata$cluster==3,]

1类词频云图

words=unlist(keyword[cl$cluster==1]);

以chat为基地.png

2类词频云图

words=unlist(keyword[cl$cluster==2]);

以chat为基地.png

3类词频云图

以chat为基地.png

How-private-equity-can-catalyze-diversity-1536x1536.jpg

最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组

2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

3.r语言文本挖掘tf-idf主题建模，情感分析n-gram建模研究

4.游记数据感知旅游目的地形象

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型：数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

标签：NIKEID,文本,MEANS,res,cluster,微博,可视化,cldata
From： https://www.cnblogs.com/tecdat/p/17009172.html

无限互联新浪微博项目(视频)分享
微博项目示例1项目演示 http://www.tudou.com/programs/view/FiK1E8IZ_xA/?resourceId=119121756_06_02_992iOS项目开发流程 http://www.tudou.com/p......
判断网页打开浏览器类型，PC 手机端，微信浏览器，在新浪微博客户端打开
于2021-06-1720:33:33订阅专栏//判断网页打开浏览器类型，PC手机端，微信浏览器，，，<scripttype="text/javascript">varbrowser={versions:fu......
详解聚类算法Kmeans-重要参数n_clusters【菜菜的sklearn课堂笔记】
视频作者：菜菜TsaiTsai链接：【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibilin_clusters是KMeans中的k，表示着我们告诉模型我们要分几类。这是KM......
基于K-means聚类算法进行客户人群分析
摘要：在本案例中，我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据，把客户分成不同的群体，供营销团队参考并相应地制定营销策略。本文分享自华为云社区《......
基于K-means聚类算法进行客户人群分析
摘要：在本案例中，我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据，把客户分成不同的群体，供营销团队参考并相应地制定营销策略。本文分享自华为云社区《......
详解聚类算法Kmeans-概述 & 工作原理【菜菜的sklearn课堂笔记】
视频作者：菜菜TsaiTsai链接：【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili有监督学习：模型在训练的时候，即需要特征矩阵X，也需要真实标签y。无......
weidlxDeepRec：热门微博推荐框架性能提升实战
微博推荐团队：陈雨、韩楠、蔡小娟、高家华1.项目背景热门微博是新浪微博的重要功能之一，包含热门流、热点流、频道流、小视频后推荐、视频社区等场景。推荐首页发现页推荐沉......
MatLab Kmeans聚类
机器学习以及人工智能的学习需要扎实的数学功底才能走的更远，爬的更高，所以打好数学基础是关键，但无论工作学习都没有充足的时间去拿着书本一个字一个字的去学习了，这里我建议大......
R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视
全文链接：http://tecdat.cn/?p=30360最近我们被客户要求撰写关于网络购物的研究报告，包括一些图形和统计输出。随着网络的迅速发展，依托于网络的购物作为一种新型的消费方式......
Kmeans
一、KMeans算法步骤是最简单的聚类算法之一，算法接受参数k；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中......

R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

全文链接：http://tecdat.cn/?p=31048

原文出处：拓端数据部落公众号

查看数据

文本预处理

剔除通用标题

分词+频数统计

绘制词汇图

K均值聚类K-means

聚类数据可视化

1类词频云图

2类词频云图

3类词频云图

相关文章

赞助商

阅读排行