首页 > 其他分享 >R语言聚类、文本挖掘分析虚假电商评论数据:K-Means(K-均值)、层次聚类、词云可视化|附代码数据

R语言聚类、文本挖掘分析虚假电商评论数据:K-Means(K-均值)、层次聚类、词云可视化|附代码数据

时间:2024-05-22 22:41:56浏览次数:25  
标签:词汇 Means means 算法 评论 聚类 电商 数据

全文链接:http://tecdat.cn/?p=32540

原文出处:拓端数据部落公众号

聚类分析是一种常见的数据挖掘方法,已经广泛地应用在模式识别、图像处理分析、地理研究以及市场需求分析。本文主要研究聚类分析算法K-means在电商评论数据中的应用,挖掘出虚假的评论数据。

本文主要帮助客户研究聚类分析在虚假电商评论中的应用,因此需要从目的出发,搜集相应的以电商为交易途径的评论信息。对调查或搜集得到的信息进行量化录入处理,以及对缺失值过多的分析对象进行删除。之后进行多维度的数据描述。由于地图最多只能显示三维空间,而顾客指标属性很可能不止三个,因此在数据描述中可以进行单一指标与某个确定指标的二维展示,这样大致先了解客户分布。

最终,通过应用改进的K-means算法对数据进行挖掘,得出了直观有用的形象化结论,对之后公司管理层做销售决策提供了必要的依据。本次改进,也可以作为今后其他数据的参考,来进行其他数据的可靠挖掘,可以说提供了可靠的参照。

研究内容

本项目主要是针对现实中的市场营销与统计分析方法的结合,来挖掘潜在的客户需求。随着电子商务的发展和用户消费习惯改变,电商在销售渠道的比重将大大增强,2014年电商销售已经超过了店面销售的数量。因此,这为通过数据挖掘算法来分析客户的交易选择行为,将客户的喜好通过分类来组别,这样进一步能挖掘潜在客户和已交易客户的下一步潜在需求。

本文在基础的K-means聚类算法的基础上,结合该算法固有的一些缺陷,提出了一些改进措施,即通过改进的K-means聚类算法来对“B2C电商评论信息数据集”数据进行处理,在最终得到结果之后依据形象化的结论提出相应的公司决策,以满足市场的要求。

K-means的改进

文献[7]是Huang为克服K-means算法仅适合于数值属性数据聚类的局限性,提出的一种适合于分类属性数据聚类的K-modes算法"该算法对K-means进行了3点扩展:引入了处理分类对象的新的相异性度量方法(简单的相异性度量匹配模式),使用mode:代替means,并在聚类过程中使用基于频度的方法修正modes,以使聚类代价函数值最小化"这些扩展允许人们能直接使用K-means范例聚类有分类属性的数据,无须对数据进行变换"K-modes算法的另一个优点是modes,能给出类的特性描述,这对聚类结果的解释是非常重要的"事实上,K-modes算法比K-means算法能更快收敛,与K-means算法一样,K-modes算法也会产生局部最优解,依赖于初始化modes的选择和数据集中数据对象的次序。初始化modes的选择策略尚需进一步研究。

1999年,Huang等人[8]证明了经过有限次迭代K-modes算法仅能收敛于局部最小值。

K-medoids聚类算法的基本策略就是通过首先任意为每个聚类找到一个代表对象(medoid)而首先确定n个数据对象的k个聚类;(也需要循环进行)其它对象则根据它们与这些聚类代表的距离分别将它们归属到各相应聚类中(仍然是最小距离原则)。

综合考虑以上因素,本文考虑了孤立点。传统的聚类分析将全部点进行聚类,而不考虑可能存在的孤立点对聚类结果的干扰,这使得聚类结果缺乏可靠性和稳定性。对于聚类结果,需要进行判别分析,包括内分析和外分析。内分析主要是在聚类之后,点到类中心的阈值来寻找孤立点,从而剔除孤立点,保证样本和聚类中心的可靠性,在剔除了孤立点后需要重新计算类中心,如果出现极端情况,甚至有可能进行再一次聚类分析;外分析是指在确定好最终的聚类结果后,进行外样本预测,使聚类结果更加稳定。

分析

数据集与环境

本文的实验环境为Windows 7操作系统,R编程环境。同时选取了“B2C电商评论信息数据集”作为实验对象。这个数据集中包含了2370条B2C电商评论信息。

数据文件:

image.png

设计

在这里,为了提高算法效率,降低数据的稀疏性,本文首先导入文本数据,对该数据进行文本挖掘。筛选出所有评论中词频最高的前30个词汇,用作实验的聚类属性。

   
# == 分词+频数统计  
words=unlist(lapply(X=data, FUN=segmentCN));  

每个高频词汇和其词频数据如下表所示:

word freq
漂亮 547
喜欢 519
颜色 477
质量 474
丝巾 452
不错 435
好评 425
谢谢 277
非常 273
解释 263
愉快 237
生活 229
满意 226
继续 225
宝贝 222
美丽 217
一天 214
提供 214
努力 213
祝愿 212
衷心 212
赏赐 212
感恩 212
收到 211
没有 187
色差 141
好看 126
图片 120
可以 110

通过中文分词Rwordseg词频云软件包可以根据不同的词汇的词频高低来显示文本挖掘的高频词汇的总体结果。通过将词频用字体的大小和颜色的区分,我们可以明显地看到哪些词汇是高频的,哪些词汇的频率是差不多的,从而进行下一步研究。

实验采用上述数据集得到的高频词汇得到每个用户和高频词汇的频率矩阵。

记录 漂亮 喜欢 颜色 质量 丝巾 满意
1 0 0 0 0 0 0
2 0 1 0 0 0 0
3 1 1 0 0 0 0
4 1 1 0 0 0 0
5 0 0 0 0 1 0
6 1 0 0 0 0 0
7 1 0 0 0 0 0
8 0 0 1 0 0 0
9 0 2 0 0 0 0
10 0 0 0 0 0 1
11 0 1 1 0 1 0
12 0 0 0 0 0 0
13 1 0 0 2 1 1
14 0 0 0 0 0 0
15 1 1 0 1 0 0
16 0 1 0 0 0 0
17 1 0 1 1 1 0
18 0 0 0 0 0 0

用户词汇频率矩阵表格的一行代表用户的一条评论,列代表高频词汇,表中的数据代表该条评论中出现的词汇频率。

结果及分析

K-均值聚类算法的虚假评论聚类结果

用K-mean进行分析,选定初始类别中心点进行分类。

一般是随机选择数据对象作为初始聚类中心,由于kmeans聚类是无监督学习,因此需要先指定聚类数目。

层次聚类是另一种主要的聚类方法,它具有一些十分必要的特性使得它成为广泛应用的聚类方法。它生成一系列嵌套的聚类树来完成聚类。

从树的直观表示来看,当height取80的时候,树的分支可以大概分成2类,分成的类别比较清楚和直观,因此我们去k等于2,分别对应虚假评论和真实评论。

image.png

K-means算法得到的聚类中心

   

#查找虚假评论

#比较典型的识别方式 
# 看文字,什么非常好,卖家特别棒,我特满意,以后还会来等等,写一大堆文字,但是没有对产品有实质性描述的,一般是刷的,这一点是主要判断依据,因为刷单的人一般要写很多家的评价,所以他不会对产品本身做任何评论,全都是一些通话套话。 
 

fake1= grep(pattern="非常好" ,data);       
fake2= grep(pattern="卖家特  

 for(j in 1:length(index)){
    jj=which(dd[,1]==index[j])
    rating[i,colnames(rating)==index[j]]=dd[]]#高频词汇的数量赋值到评价矩阵
  }  
}
 


cl=kmeans(rating,2)#对评价矩阵进行k均值聚类
write.csv(cl$cent

image.png

每个类所有点到类中心的距离之和与平均距离

image.png

通过设定距离阈值k=2,我们找出了3356个异常值并将其剔除。

 

然后绘制聚类散点图,通过聚类图,我们可以看到真实评论和虚假评论明显地被分成了两个聚类簇。

1111.png

最后对2个类分别做了词频统计,并用词频云表示每个类的特征。

真实评论

   
wordcloud(colnames(c

image.png

虚假评论

image.png

从词频云图可以看到,真实的评价中的主要关键词是质量,不错,色差等,从这些关键词来看,本文可以推测这类用户主要看重的是商品的功能性和质量型,并且主要集中在一些基本的特征,如质量、色差。也可以推测这些用户的商品评论没有太多华丽的词汇,而只是简单的不错,谢谢等。因此,可以认为真实的评论一般比较简单,并且会有一些对商品具体的方面的不足进行描述如色差,而不是一味的非常好、喜欢、愉快等。

虚假评论类别中主要的关键词是好评!,感恩!,美丽!,赏赐!、努力!祝愿!等词汇。从这些关键词我们大致可以推测这类用户主要使用的是一些华丽的词藻。他们比较看重评论的夸张度和给人的好感度,更在乎评论给别的买家造成的美好体验。这些用户往往使用很“完美”的评价,大多使用好评、美丽、感恩等评价很高的词汇,而没有很关注商品的质量和具体的细节,一般套用了相近的评论模板,因此可以认为是虚假评论。

参考文献

[1]T Zhang.R.Ramakrishnan and M.ogihara.An efficient data clustering method for very largedatabases.In Pror.1996 ACM-SlGMOD hat.Conf.Management of Data,Montreal.Canada,June 1996:103.114.

[2]邵峰晶,于忠清,王金龙,孙仁城  数据挖掘原理与算法(第二版) 北京:科学出版社 ,2011, ISBN 978-7-03-025440-5.

[3]张建辉.K-meaIlS聚类算法研究及应用:[武汉理工大学硕士学位论文].武汉:武汉理工大学,2012.

[4]冯超.K-means 类算法的研究:[大连理工大学硕士学位论文].大连:大连理工大学,2007.

[5]曾志雄.一种有效的基于划分和层次的混合聚类算法.计算机应用,2007,27(7):1692.1695.

[6]范光平.一种基于变长编码的遗传K-均值算法研究:[浙江大学硕士学位论文].杭州:浙江大学,2011.

[7]孙士保,秦克云.改进的K-平均聚类算法研究.计算机工程,2007,33(13):200.202.

[8]孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进.沈阳师范大学学报,2009,27(4):448-450.

[9]Jain AK,Duin Robert PW,Mao JC.Statistical paaern recognition:A review.IEEE Trans.Actions on Paaem Analysis and Machine Intelligence,2000,22(1):4-37.

[10]Sambasivam S,Theodosopoulos N.Advanced data clustering methods ofmining web documents.Issues in Informing Science and Information Technology,2006,8(3):563.579.


QQ截图20220608233601.png

最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组

2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究

4.游记数据感知旅游目的地形象

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型:数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

标签:词汇,Means,means,算法,评论,聚类,电商,数据
From: https://www.cnblogs.com/tecdat/p/18207291

相关文章

  • R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化
    全文链接:http://tecdat.cn/?p=31644原文出处:拓端数据部落公众号借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。我们不能只关心进口的进水速率,却忽略了出水......
  • 电商数仓—表
    0各表同步策略   1后台管理系统1.1商品1.1.1sku_info商品信息表字段名字段说明id商品库存id(itemlID)spu_id商品idprice价格sku_namesku名称sku_desc商品规格描述weight重量tm_id品牌(冗余)category3_id三级分类id(冗余)sku_......
  • 02-大厂电商设计解析之商品管理系统
    1雪花算法使用IdWorkeridWorker=newIdWorker(1,1);for(inti=0;i<10000;i++){longid=idWorker.nextId();System.out.println(id);}配置分布式ID生成器将IdWorker.java拷贝到util包在工程的resources下新增applicationContext-service.xml<!‐‐雪花ID生......
  • 01-电商商品中心解密:仅凭SKU真的足够吗?
    在电子商务系统中,SKU(StockKeepingUnit,库存单位)和SPU(StandardProductUnit,标准产品单位)是两种不同的概念,它们共同用于商品管理和库存控制。虽然理论上可以只使用SKU来管理商品,但在实际应用中,同时使用SPU和SKU有其明显的优势和必要性。SKU(库存单位)SKU是商品的具体型号或款式,每......
  • NoWhere Means NowHere
    遗忘是很可怕的。我会连几个月前博文里的缩写都忘记其指代对象,所以才要用文字记下来。然而,遗忘给人以梦幻般的无根感,像失忆症引起的失眠症一样。现在我好像不能从物理上回到过去;即使是精神上,把过去写的,聊的都翻出来,可是,重返的只是记忆而已,我依旧被困于现在。......
  • 数据分享|MATLAB、R基于Copula方法和k-means聚类的股票选择研究上证A股数据|附代码数
    全文链接:http://tecdat.cn/?p=31733最近我们被客户要求撰写关于Copula的研究报告,包括一些图形和统计输出。Copula方法是测度金融市场间尾部相关性比较有效的方法,而且可用于研究非正态、非线性以及尾部非对称等较复杂的相依特征关系因此,Copula方法开始逐渐代替多元GARCH模型的相......
  • R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归|附代码数据
    原文链接:http://tecdat.cn/?p=4146 原文出处:拓端数据部落公众号 最近我们被客户要求撰写关于用电负荷时间序列的研究报告,包括一些图形和统计输出。通过对用电负荷的消费者进行聚类,我们可以提取典型的负荷曲线,提高后续用电量预测的准确性,检测异常或监控整个智能电网(Laurinec等......
  • 实验一原型设计————电商系统
    一、实验题目:原型设计二、实验目的:掌握产品原型设计方法和相应工具使用。三、实验要求(1)对比分析墨刀、Axure、Mockplus等原型设计工具的各自的适用领域及优缺点(至少3条)。1.墨刀:适用领域:产品设计,项目管理,可以利用墨刀绘制流程图,明确项目流程和时间节点,提高项目执行效率。优......
  • R语言银行信用数据SOM神经网络聚类实现可视化
    原文链接:http://tecdat.cn/?p=3231原文出处:拓端数据部落公众号  当今社会,“信用”越来越多的人们关注个人或企业,有望获得最高的信用评分,以享受更多的信贷额度,更优惠的利率。 那么我们如何评分信用,并使我们的客户可视化?自组织地图( SOM )是一种无监督的数据可视化技术,可用......
  • 销帮帮CRM与电商运营增效的关系?
    在电商运营中,不同部门之间往往存在信息壁垒,导致客户体验的不连贯。销帮帮CRM通过提供跨职能管理客户关系的共享平台和一体化工作流引擎,使员工能够使用正确的工具和数据更有效地管理跨业务线的客户关系,实现更互联的客户体验。这有助于提升客户满意度和忠诚度,进而促进电商业务的增长......