首页 > 其他分享 >SPSS Modeler决策树分类模型分析商店顾客消费商品数据

SPSS Modeler决策树分类模型分析商店顾客消费商品数据

时间:2024-01-25 23:55:26浏览次数:34  
标签:消费 模型 Modeler 顾客 SPSS 数据 节点 决策树

全文链接:https://tecdat.cn/?p=34926

原文出处:拓端数据部落公众号

随着大数据时代的来临,数据挖掘和分析在商业决策中扮演着越来越重要的角色。商店的顾客消费行为数据是商业决策的关键信息之一,通过对这些数据的深入分析,可以更好地理解顾客的消费习惯和偏好,从而优化商品销售策略,提高销售业绩。本文将使用SPSS Modeler软件,帮助客户通过决策树分类模型对商店顾客消费商品数据进行深入分析,探讨顾客消费行为的特征和规律,以期为商店的经营提供有价值的参考。

本文首先介绍了数据概览的过程,包括使用SPSS Modeler软件导入数据、数据审核等步骤。接着,文章探讨了决策树算法在数据挖掘中的应用,并介绍了常用的决策树演算法及其适用场景。然后,文章介绍了数据分区的方法,以评估模型准确度。在数据准备完成后,文章建立了一个CHAID决策树分类模型,并详细介绍了模型的设定和生成过程。最后,文章分析了决策树模型的结果,揭示了对顾客每次平均消费金额影响最大的变量是购物数量和商品的打折力度。同时,文章也指出了其他重要变量如商品id、购物日期、商店名称和消费者信息等的影响。

数据概览

原始数据:

image.png

首先我们打开 Modeler,新建 Stream,拖入一个“可变文件”节点到工作区。双击节点。选择示例数据文件作为输入。然后我们点击“可变文件”节点的预览按钮。

image.png

利用“数据审核”节点审核数据

“数据审核”节点可以提供给我们很多有用的信息,其中就包括数据缺失值信息。下边,我们就将“数据审核”节点加入到我们的 stream 中来,连接“可变文件”节点和“数据审核”节点,运行 Stream,我们可以得到下图

image.png

image.png

从上图中我们可以看到很多有用的信息,数据的分布图形,数据的类型,统计值等,在这里我们要关注的是最后一列有效数据,可以发现有七个缺失值 ,这说明 “数据审核”节点已经成功的帮我们识别出了这列缺失值。同时我们可以发现有效数据仍然是 801.

同时我们可以对数据中的离群点和异常点进行丢弃的操作.

image.png

然后我们需要对顾客每次的平均消费进行一个离散化.具体的离散化分割点,如下表所示

image.png

在对数据进行离散化之后,我们可以得到新的消费数据如下:

image.png

以及它的分布情况包括最大值最小值均值,偏度和峰度

image.png

方法和模型结果

决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。

一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支 。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。

决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 C&R Tree 四种。

数据分区

为了在训练出模型后能够分析模型准确度,在此我们将加入字段选项下的「分区」节点,将数据分为 70%训练数据以及 30%测试数据。在分区节点的编辑页中,点选预览可发现每笔数据已经多出了一个栏位「分区」,栏位中的值被随机归类为「1_训练」及「2_测试」,让决策树节点可判别是否要使用此资料做为训练数据。在完成资料分区后,我们已经完成数据准备,可以套用决策树模型节点了。

考量到数据特性以及我们希望提供的决策树具有多元分类法,因此我们将建立 chaid分类模型。

CHAID 节点设定

将 CHAID 节点与分区节点连接后,我们将于此节点编辑页面中的模型标签下设定相关的变数。由于 CHAID 节点设定较多,以下将挑选我们有修改预设值的变数进行详细介绍。此定义来自“SPSS Modeler  Modeling Nodes 文件”。

生成决策树模型

决策树节点设定完成后,点击主工具列的运行当前流前即可看到两个决策树模型的产生。

双击决策树模型则可看到模型结果,而我们最主要要观察的是模型标签及查看器标签下的内容。模型标签内容如图所示,左栏位使用文字树状展开,表现每一阶层的分类状况及目标变数的模式;右栏位则是整体模型预测变量的重要性比较。我们也将会根据变量重要性调整模型设定、变数选择,持续的训练出较佳的模型。查看器标签则是将一样的决策树结果用树状图的方式展现。

image.png

从上面的图中,我们可以看到决策树模型得到的预测变量,重要性,从这个图中我们可以看到,对顾客每次平均消费金额影响最大的是购物数量, 如果消费者每次购物的物品数量越多,那么他的平均消费金额会越大。其次是商品的打折力度,如果说,商品的打折力度越强,那么顾客的消费金额就越多,也就是说,商品的打折力度会刺激消费者的消费行为。然后是商品的id,因为不同的商品具有不同的价格,可以判断有些物品的价格如果越高,那么顾客的平均消费金额就会越多。其次是,购物日期商店名称以及消费者本人的信息。

image.png

从上面的图中,我们可以看到决策树模型的预测变量重要程度,形容对顾客消费金额影响最大的变量是顾客的收入,可能收入越高,每次消费金额就越大.其次是顾客的年龄,顾客的年龄越小,则平均的消费金额越大,说明年轻消费者的消费能力更强.然后是消费者的家庭情况,如果消费者有一个孩子,或者已经不是单身,那么他们的平均消费金额更大,因为他们的家庭支出会更多.但是消费者的婚姻状况,如果消费者不是单身,那么他们的消费金额会更加大.其次是消费者的居住情况,如果消费者是租房子,那么它的一部分支出会消费在房子的租金上,因此他的消费金额会较低.最后是家庭人数,我家庭人数越多,那么消费者的消费金额越多,因为他们的家庭开支更多,每次在购物消费的金额也就越多.

微信活码:20231208-1755.png

分析结果

在前面的串流产生中,我们加入了分区节点将数据分成训练数据与测试数据,因此在决策树模型产生后,可加入分析节点 。分析节点中我们勾选重合矩阵选项,因此除了分析节点原本就提供的正确错误率比较,可进一步了解实际值与预测值的比较矩阵 。

image.png

从上面的决策树误差结果来看,可以看到不同的分区上决策树模型的最小误差是相似的,而最大误差在测试机上更小,同时可以看到决策树模型的平均误差非常的小,可以认为该模型是一个较好的模型,具有较好的预测性和准确度。

因此从上面的结果来看,我们可以认为,决策树模型可以较好的拟合这个数据集,可以对未知的数据进行良好的预测。从业务的角度,我们可以对商店的销售提出一些建议:例如对一些商品进行打折而提高用客户的消费金额,另外由于消费者对一些商品的消费金额较大,因此可以调整摆放的位置,并且配合打折的信息从而提高消费者的消费金额。同时,由于不同的商品和不同的消费者的消费金额不同,因此我们可以针对消费金额较大的用户制定特定的营销策略,例如会员制度、定期发送销售海报邮件等等。

最后我们得到以下结果文件:

image.png


thumb-gettyimages-1343870632.webp

最受欢迎的见解

1.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

标签:消费,模型,Modeler,顾客,SPSS,数据,节点,决策树
From: https://www.cnblogs.com/tecdat/p/17988448

相关文章

  • Unity 的行为决策树的技术原理
    Unity的行为决策树是一种强大的工具,用于创建复杂的游戏人工智能(AI)。行为决策树是一种图形化的编程工具,它可以将游戏角色的行为和决策过程可视化,从而使开发人员更容易理解和调试游戏AI。在本文中,我们将详细讲解Unity的行为决策树的技术原理,并给出相应的代码实现。对啦!这里有个游戏......
  • R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交
    全文链接:http://tecdat.cn/?p=32760原文出处:拓端数据部落公众号航班延误是航空公司、旅客和机场管理方面都面临的一个重要问题。航班延误不仅会给旅客带来不便,还会对航空公司和机场的运营产生负面影响。因此,对航班延误的影响因素进行预测分析,对于航空公司、旅客和机场管理方面都......
  • SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据
    全文链接:http://tecdat.cn/?p=10809最近我们被客户要求撰写关于分层线性模型的研究报告,包括一些图形和统计输出。本文用于比较六个不同统计软件程序(SAS,Stata,HLM,R,SPSS和Mplus)的两级分层线性模型的过程和输出下面介绍的六个模型都是两级分层模型的变体,也称为多级模型,这是混合模型......
  • R语言软件对房屋价格预测:回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化
    全文链接:https://tecdat.cn/?p=34827原文出处:拓端数据部落公众号在房地产市场中,准确地预测房屋价格是至关重要的。过去几十年来,随着数据科学和机器学习的快速发展,各种预测模型被广泛应用于房屋价格预测中。而R语言作为一种强大的数据分析和统计建模工具,被越来越多的研究者和从业......
  • 机器学习-决策树系列-贝叶斯算法-概率图模型-29
    目录1.复习条件概率2.正式进入3.生成式与判别式这个阶段的内容,采用概率论的思想,从样本里面学到知识(训练模型),并对新来的样本进行预测。主要算法:贝叶斯分类算法、隐含马尔可夫模型、最大熵模型、条件随机场。通过本阶段学习,掌握NLP自然语言处理的一些基本算法,本阶段的理解对......
  • 机器学习-决策树系列-Adaboost算法-集成学习-29
    目录1.adaboost算法的基本思想2.具体实现1.adaboost算法的基本思想集成学习是将多个弱模型集成在一起变成一个强模型提高模型的准确率,一般有如下两种:bagging:不同的basemodel可以并行计算,输出预测结果少数服从多数,回归问题则对多个模型输出的结果求平均。boosting:后一......
  • SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量数据研究
    全文链接:https://tecdat.cn/?p=34709原文出处:拓端数据部落公众号自2011年全球PC出货量达到历史最高的3.64亿台后,全球PC市场出货量已经连续四年下滑。市场调研公司Gartner最新数据显示,2015年Q3全球PC销量同比降低7.7%,至7370万台。IDC数据更加不乐观,2015年Q3全球PC出货量共计7100......
  • 机器学习——决策树模型
    谈起过年回家的年轻人最怕什么、最烦什么?无外乎就是面对那些七大姑、八大姨的催结婚、催生子、催相亲、催买房……说起这些亲戚们是如何判断催什么,不得不让我们想起经典的决策树模型。决策树是一个用于分类和回归的机器学习模型。通过对输入对象数据特征进行一系列条件划分构建一个......
  • 【算法】决策树算法:ID3
    importmathfromcollectionsimportCounter#创建数据集defcreate_dataset():dataset=[#年龄,工作,房子,信用,标签['青年',0,0,'一般','0'],['青年',0,0,'好','0'],[�......
  • 决策树算法思想及其Python实现
    决策树算法是一种在机器学习和数据挖掘领域广泛应用的强大工具,它模拟人类决策过程,通过对数据集进行逐步的分析和判定,最终生成一颗树状结构,每个节点代表一个决策或一个特征。决策树的核心思想是通过一系列问题将数据集划分成不同的类别或值,从而实现对未知数据的预测和分类。这一算......