首页 > 其他分享 >R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化|附代码数据

R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化|附代码数据

时间:2024-02-19 18:13:09浏览次数:34  
标签:用户 Apriori kmeans 关联 可视化 规则 网购 聚类

全文链接:http://tecdat.cn/?p=30360

最近我们被客户要求撰写关于网络购物用户行为的研究报告,包括一些图形和统计输出。

随着网络的迅速发展,依托于网络的购物作为一种新型的消费方式,在全国乃至全球范围内飞速发展

电子商务成为越来越多消费者购物的重要途径。我们被客户要求撰写关于网络购物行为的研究报告。

项目计划使用数据挖掘的方法,以京东商城网购用户的网络购物数据为基础,对网络购物行为的三个要素:行为过程、行为结果、行为主体进行分析。

(1)使用关联规则分析方法分析网络购物用户的行为过程,分别探析信誉度、搜索排名对网购用户购买决策的影响程度;

(2)使用聚类分析方法,对网购用户的行为结果进行讨论,发现不同网购群体的网购习惯和特征;

(3)使用分类/预测分析方法,对网购行为主体进行研究。本项目还将引用其它研究的数据及观点对本数据分析所得结论进行比较验证。

本项目的结论为以京东商城为代表的网购平台运营商、商家提供网站管理、网店运营方面的参考,为商家制定网络营销策略提供决策支持。

关联规则挖掘

   

  data1[,i]=as.factor(data1[,i])##将每个变量转成因子形式

}

inspect(frequentsets[1:10])#查看频繁项集

图片 从上面的表 可以看到部分频繁出现的一些选项规则,抽取的10个频繁项集的支持度在0.3左右。

然后查看支持度最高的前10个规则

图片

可以看到支持度最高的前十个选项集合(称为频繁项集)的支持度在0.9左右,因此在下面使用apriori模型对数据进行分析时,选取最小支持度为0.9左右,以便发现合适数量的规则。

   
set of 47 rules

 

rule length distribution (lhs + rhs):sizes

 1  2  3

11 24 12

 

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.

  1.000   2.000   2.000   2.021   2.500   3.000

 

summary of quality measures:

    support         confidence          lift      

 Min.   :0.9000   Min.   :0.9000   Min.   :0.9977 

 1st Qu.:0.9050   1st Qu.:0.9400   1st Qu.:1.0000 

 Median :0.9150   Median :0.9585   Median :1.0043 

 Mean   :0.9191   Mean   :0.9572   Mean   :1.0043 

 3rd Qu.:0.9300   3rd Qu.:0.9846   3rd Qu.:1.0083 

 Max.   :0.9850   Max.   :0.9945   Max.   :1.0141 

 

mining info:

  data ntransactions support confidence

 trans           200     0.9        0.3

我们得到规则的概述,可以看到他们的支持度在0.9到0.98之间,置信度也非常高,说明这些规则具有较高的的可预测度(Predictability)。因此从这些规则可以得到比较可靠的推断结论。置信度太低的规则在实际应用中也不会有多大用处。

图片

从规则中剔除掉其他选项的规则后,我们得到以上的规则,从以上规则,我们可以看出网购用户大多通过论坛或者社区的弹窗信息进入网购的页面,他们在论坛中看到了某些用户的评论,并且通过弹窗信息进入购买,而他们选择网购的原因也是因为评论真实性,看到了其他网购的用户经验从而影响他们的购买决策。

对规则进行可视化

   
plot(rules, method="grouped")

图片

上图表示支持度和置信度的二维散点图,从上图来看,规则的置信度和支持度较高,大部分规则位于左上方,说明规则大多有较高的置信度,具有较好的可信性。

图片

上图表示规则前项和规则后项的联系,图中的点越大表示规则的支持度越高,可以看到规则中社区论坛进入购买页面和选择网购原因是评论真实之间有较高的支持度。

图片

上图是一个规则的网络图表示,箭头表示规则之间的递推关系。从上图我们也可以直观地看到我们得到的规则。


点击标题查阅往期内容

图片

实现LDA主题模型分析网购满意度数据

图片

左右滑动查看更多

图片

01

图片

02

图片

03

图片

04

图片

   
d=dist(data2)#对数据的样本求欧几里得距离

 

hmod=hclust(d)#使用欧几里得距离对样本进行层次聚类

图片

图片

从树状图的结果来看,使用高度为60左右对树状图进行横截,所有样本大致可以分成4类。

   
cent <- rbind(cent, colMeans(data2[memb == k, , drop = FALSE]))#筛选出第4层次以上的样本

}

hc1 <- hclust(dist(cent)^2, method = "cen", members = table(memb))#重新对新样本进行层次聚类

opar <- par(mfrow = c(1, 2))

图片

上图是对树重新进行层次聚类的结果与原来树的对比,从左边 我们可以i看到,树具有4个分支,因此可以认为样本大致可以聚成4类。

kmeans聚类

   
fitted(kc);  #查看具体聚类情况 

 

#聚类结果可视化  

plot(data2[,c(1:20)], col = kc$cluster);  #不同的颜色代表不同的聚类结果。

图片

上图表示不同问题选项之间样本的聚类情况,不同的颜色代表不同的样本,可以看到不同颜色的类别分别聚到了不同的类中,因此类别之间的区分效果良好。

可以看到红色类用户的Q2,Q7,Q11得分较高Q4得分较低,Q21得分较高,蓝色用户Q10Q23的得分较高,黑色用户的得分分布比较普遍,在每个问题中不同选项均有分布。绿色用户Q2,Q19得分较低,Q10的得分较高。

可以看到红色用户大多是年龄较大,4线城市的用户,接触网购不多,因此也不会使用手机电脑网络等方式进入网购页面。蓝色用户代表接触网购时间较长的用户,他们进入网络页面的方式大多是搜索引擎,他们大多熟悉网购操作,对自己需要的商品也比较熟悉,然而一般对网购不进行评论,除非对商品非常满意。绿色是年龄较小的用户,但是他们接触网络的时间也较长,大多是青少年,因此接触新兴事物的兴趣较大,因此他们的网购花费较低,但是网购的频率较高。

决策树

将Q30_总体而言,您对网购是否满意?的答案作为网购用户分类的分类目标属性,使用其他属性作为分类属性,对数据进行分类

   
draw.tree(CARTmodel)

## 交叉验证的估计误差(“xerror”列),以及标准误差(“xstd”列),平均相对误差=xerror±xstd 

printcp(CARTmodel)

图片

   
> CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]

[1] 0.04938272

根据最小误差的最小变异系数来对树进行剪枝。

图片

得到剪枝后的决策树。

从决策树图来看 ,我们可以发现问题的选项作为决策树的分支,分别将年龄,网购历史,网站购物主要看重的因素,喜欢的促销方式和网购花费作为决策条件,将样本分成了8个类别。

并使用决策树进行对样本的预测。

   
> table(pre,data2$Q30)#混淆矩阵

  

pre  3  4  5  6

  3 20  9  2  0

  4  9 74  9  1

  5  6 13 34  0

  6  0  0  0  0

从混淆矩阵的结果来看,对4个类别的预测效果较好,说明模型的拟合效果良好。

图片


图片

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化》。

点击标题查阅往期内容

数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Python用Apriori算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化
【视频】关联规则模型、Apriori算法及R语言挖掘商店交易数据与交互可视化|数据分享
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
用SPSS Modeler的Web复杂网络对所有腧穴进行关联规则分析
PYTHON在线零售数据关联规则挖掘APRIORI算法数据可视化
R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化
R语言关联挖掘实例(购物篮分析)
python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析
基于R的FP树fp growth 关联数据挖掘技术在煤矿隐患管理
python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析
通过Python中的Apriori算法进行关联规则挖掘
Python中的Apriori关联算法-市场购物篮分析
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
在R语言中轻松创建关联网络
python主题建模可视化LDA和T-SNE交互式可视化
R语言时间序列数据指数平滑法分析交互式动态可视化
用R语言制作交互式图表和地图
如何用r语言制作交互可视化报告图表

标签:用户,Apriori,kmeans,关联,可视化,规则,网购,聚类
From: https://www.cnblogs.com/tecdat/p/18021691

相关文章

  • {fastcluster}:快速分层聚类程序(Fast Hierarchical Clustering Routines)
    1.函数代码该R包中最主要的函数是 hclust ,代码如下:>fastcluster::hclustfunction(d,method="complete",members=NULL){if(method=="ward"){message("The\"ward\"methodhasbeenrenamedto\"ward.D\&quo......
  • R语言Kmeans聚类、PAM、DBSCAN、AGNES、FDP、PSO粒子群聚类分析iris数据结果可视化比
    全文链接:http://tecdat.cn/?p=32007原文出处:拓端数据部落公众号本文以iris数据和模拟数据为例,帮助客户了比较R语言Kmeans聚类算法、PAM聚类算法、DBSCAN聚类算法、AGNES聚类算法、FDP聚类算法、PSO粒子群聚类算法在iris数据结果可视化分析中的优缺点。结果:聚类算法的聚类结......
  • r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化|附代码数据
    原文链接:http://tecdat.cn/?p=23825最近我们被客户要求撰写关于有限正态混合模型EM算法的研究报告,包括一些图形和统计输出。简介本文介绍了基于有限正态混合模型在r软件中的实现,用于基于模型的聚类、分类和密度估计。提供了通过EM算法对具有各种协方差结构的正态混合模型进行参......
  • ICDE 2023 探索并行过滤图:革新层次聚类算法
    ICDE2023|探索并行过滤图,革新层次聚类算法机器学习中的无监督学习方法现在已经被广泛运用,特别是聚类算法被广泛运用于经济、生物以及机器视觉等多种领域之中。而聚类算法中也包含许多方向,如基于密度聚类,基于划分聚类以及基于度量聚类。传统的基于度量聚类在一个包含n个数据点......
  • 数学建模入门笔记(2) 聚类分析
    聚类分析​ 聚类分析(ClusterAnalysis):又称群分析,对多个样本/指标定量分类的多元分析方法,是无监督学习1聚类分析的分类​Q型聚类(QualitativeClustering):也称硬聚类,一般用于将样本聚类,每一簇之间无交集,用距离作为相似性度量,包括K-Means聚类、层次聚类、DBSCAN聚类等​ R......
  • R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化
    原文链接:http://tecdat.cn/?p=22732 原文出处:拓端数据部落公众号 关联规则挖掘是一种无监督的学习方法,从交易数据中挖掘规则。它有助于找出数据集中的关系和一起出现的项目。在这篇文章中,我将解释如何在R中提取关联规则。关联规则模型适用于交易数据。交易数据的一个例子可以......
  • 数据挖掘||利用SQL Server 2012或者Excel 2013采用聚类和时序挖掘模型和算法,对自行车
    1.实验要求 利用SQLServer2012或者Excel2013(二者选择其一即可)进行数据挖掘实验,采用聚类和时序挖掘模型和算法,可以对附件中给定的excel数据进行聚类和时序挖掘实验,也可以采用自己采集的数据(如采用自选请说明数据来源)。 2.实验环境 操作系统:windows11;软件:Excel2019;SQLServer......
  • 聚类算法笔记【零基础数模系列】
    聚类算法前言作为数模小白,看了很多讲解新概念新模型的文章,这些文章往往要么讲的很浅不讲原理只讲应用,让人知其然不知其所以然。要么讲的很深小白看不懂,同时总是忽略关键部分,经常性引入陌生概念让初学者疑惑,因此有了本文,任何能熟练掌握线性代数知识且逻辑思维能力尚可的人都可以......
  • 【scikit-learn基础】--『监督学习』之 空间聚类
    空间聚类算法是数据挖掘和机器学习领域中的一种重要技术。本篇介绍的基于密度的空间聚类算法的概念可以追溯到1990年代初期。随着数据量的增长和数据维度的增加,基于密度的算法逐渐引起了研究者的关注。其中,DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是......
  • 【scikit-learn基础】--『监督学习』之 谱聚类
    谱聚类算法基于图论,它的起源可以追溯到早期的图分割文献。不过,直至近年来,受益于计算机计算能力的提升,谱聚类算法才得到了广泛的研究和关注。谱聚类被广泛应用于图像分割、社交网络分析、推荐系统、文本聚类等领域。例如,在图像分割中,谱聚类可以有效地将图像划分为背景和前景;在社交......