首页 > 其他分享 >SPSS用CHAID决策树、逻辑回归预测电信用户产品使用流失数据

SPSS用CHAID决策树、逻辑回归预测电信用户产品使用流失数据

时间:2024-06-18 15:10:46浏览次数:27  
标签:预测 模型 CHAID 用户 SPSS 流失 机顶盒 决策树

全文链接:https://tecdat.cn/?p=36513

原文出处:拓端数据部落公众号

在电信行业中,用户产品使用的流失情况对于企业而言是一个关键的运营指标。理解用户为何流失以及预测其流失趋势,对于提升用户满意度、减少流失率及制定有效的营销策略至关重要。本研究旨在通过SPSS软件,利用CHAID(Chi-squared Automatic Interaction Detector)决策树和逻辑回归方法,对电信用户的产品使用流失数据进行预测分析。

数据描述与初步分析

数据来源

本研究采用了电信公司的用户产品使用流失数据作为研究样本。

image.png

image.png

数据初步分析

首先,我们利用基本统计量和图表对用户产品使用流失状态的分布进行了初步分析。从数据中可以看出,不同产品使用状态的分布情况。其中,正常使用的产品状态占比最高,随后是主动停止产品使用的用户数量,而系统暂停和剪线停止的状态相对较少。

首先,我们通过基本统计量和图表来看下用户产品使用流失状态的分布。

image.png

image.png

image.png

通过初步分析,我们可以发现不同产品使用状态之间的频数和百分比差异,为后续的预测模型构建提供了重要的数据支持。

可以看到正常的产品状态是最多的,其次是主动停止产品使用的数量,然后是系统暂停和剪线停止的状态。

交叉分析

什么是交叉分析?交叉分析是指同时将两个或两个以上有一定联系的变量及其变量值按照一定的顺序交叉排列在一张统计表内,使各变量值成为不同变量的结点,从中分析变量之间的相关关系,进而得出科学结论的一种数据分析技术。

首先我们通过交叉分析来看下不同托付银行的流失状态有何差异?

image.png

image.png

首先我们可以看到不同的产品状态中,农业银行的用户数量是最多的,其次是建设银行。通过对比,主动停 和正常使用产品的用户托付银行的数量来看,用户是否流失,和他们使用的银行种类是有一定差别的,从chisq检验的结果来看,不同银行的客户流失有一定的差别,因此,p小于0.05。

然后我们对其他的变量进行检测:

image.png

image.png

image.png

image.png

image.png

image.png

可以看到营业厅、是否有机顶盒、建筑类型等变量对用户是否流失都有一定的影响。

付费节目合计金额 * 模拟产品状态

image.png

image.png

从渐进 Sig. (双侧)的结果来看,小于0.05,因此付费节目合计金额变量对用户是否流失都有一定的影响。

模拟收视费合计金额 * 模拟产品状态

image.png

从渐进 Sig. (双侧)的结果来看,大于0.05,因此模拟收视费合计金额变量对用户是否流失没有一定的影响。

游戏业务合计金额 * 模拟产品状态

image.png

image.png

从渐进 Sig. (双侧)的结果来看,大于0.05,因此游戏业务合计金额变量对用户是否流失没有一定的影响。

预测算法

1 逻辑回归模型

逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。逻辑回归的数学模型和求解都相对比较简洁,实现相对简单。通过对特征做离散化和其他映射,逻辑回归也可以处理非线性问题,是一个非常强大的分类器。因此在实际应用中,当我们能够拿到许多低层次的特征时,可以考虑使用逻辑回归来解决我们的问题。对于客户是否流失的分类问题可以使用逻辑回归来预测。

参数求解与模型评估

在逻辑回归模型中,参数求解是关键步骤之一。统计学中常用的最大似然估计方法被广泛应用于逻辑回归的参数求解过程中。通过最大化数据的似然度(概率),我们可以找到一组最优参数,使得模型能够更好地拟合实际数据。在求解过程中,我们可以观察自变量的系数显著性,以评估模型的可靠性。

根据模型的输出结果,我们可以观察到托收银行、是否发放数字机顶盒、营业厅等自变量在模型中具有显著影响。这说明这些变量与电信用户流失之间存在较强的关联性,为制定针对性的营销策略提供了有力支持。

image.png

看显著水平这一列就可以看到 自变量 的系数是否显著, 托收银行、是否发放数字机顶盒、营业厅3个自变量显著说明这个回归模型是可靠的。为了验证逻辑回归模型在电信用户流失预测中的有效性,我们进行了部分预测结果的展示。通过对比实际流失情况与模型预测结果,我们可以发现模型在大多数情况下能够准确预测用户的流失情况。这进一步证明了逻辑回归模型在电信用户流失预测中的实际应用价值。

部分预测结果:

image.png

CHAID决策树模型构建

本文采用CHAID决策树算法对电信客户的属性特征进行分析,以构建客户流失预测模型。CHAID算法基于卡方检验进行变量选择和分割,能够自动检测变量间的交互作用,并生成易于理解的决策树。通过对电信客户数据的处理和分析,我们成功构建了基于CHAID决策树的客户流失预测模型。

对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。

image.png

风险

image.png

从一侧的结果来看,可以发现误差较小,因子模型的准确度较高,模型产生的结果是可信的。

image.png

从生成的预测决策树来看,可以看到每个节点的用户流失数量的比例,可以看到沙河站和南口站的主动停的比例是最高的,因此这两个站用户流失比例最高,其次是天通苑站。再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现:再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现,给发送了数字机顶盒的用户来说,他们的流失率要相对于没有发送机顶盒的用户较低。

风险

image.png

从一侧的结果来看,可以发现误差较小,因子模型的准确度较高,模型产生的结果是可信的。

结论

从渐进 Sig. (双侧)的结果来看,付费节目合计金额变量对用户是否流失都有一定的影响。模拟收视费合计金额变量对用户是否流失没有一定的影响。游戏业务合计金额变量对用户是否流失没有一定的影响。从生成的预测决策树来看,可以看到每个节点的用户流失数量的比例,可以看到沙河站和南口站的主动停的比例是最高的,因此这两个站用户流失比例最高,其次是天通苑站。再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现:再从下面一个节点是否发送数字机顶盒的结果来看,我们可以发现,给发送了数字机顶盒的用户来说,他们的流失率要相对于没有发送机顶盒的用户较低。

部分预测结果:

image.png

最后我们得到了数据文件和结果文件:

image.png

image.png

Emerging-faster-and-stronger-building-blocks-of-the-new-normal.jpg

标签:预测,模型,CHAID,用户,SPSS,流失,机顶盒,决策树
From: https://www.cnblogs.com/tecdat/p/18254404

相关文章

  • SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为
    全文链接:http://tecdat.cn/?p=32118最近我们被客户要求撰写关于电商购物网站的用户行为的研究报告,包括一些图形和统计输出。假如你有一个购物类的网站,那么你如何给你的客户来推荐产品呢? ( 点击文末“阅读原文”获取完整文档、数据 )这个功能在很多电商类网站都有,那么,通过SQLS......
  • 吴恩达机器学习 第二课 week4 决策树
    目录01学习目标02 实现工具03 问题描述04构建决策树05总结01学习目标   (1)理解“熵”、“交叉熵(信息增益)”的概念   (2)掌握决策树的构建步骤与要点02 实现工具  (1)代码运行环境         Python语言,Jupyternotebook平台  (2)所......
  • 决策树算法介绍:原理与案例实现
    一、引言在机器学习领域,决策树是一种常用且直观的分类和回归方法。它通过一系列简单的决策规则,将数据集分割成更小的子集,最终形成一个树状结构。本文将详细介绍决策树算法的原理,并通过具体案例实现来帮助读者更好地理解和应用这一算法。二、决策树原理1.决策树的基本概念......
  • 决策树算法:揭示数据背后的决策逻辑
    目录一决策树算法原理特征选择信息增益信息增益比基尼指数树的构建树的剪枝预剪枝后剪枝二决策树算法实现一使用决策树进行分类数据预处理构建决策树模型二使用决策树进行回归数据预处理构建决策树回归模型三决策树算法的优缺点优点缺点四决策树的改......
  • 【机器学习】决策树模型(个人笔记)
    目录多样性指标基尼杂质指数(GiniImpurityIndex)熵(Entropy)决策树的应用源代码文件请点击此处!多样性指标基尼杂质指数(GiniImpurityIndex)若集合中包含\(m\)个元素和\(n\)个类别,其中\(a_i\)个元素属于第\(i\)个类别,则:\[基尼杂质指数=1-p_1^2-p_2^2-...-p_......
  • 机器学习之决策树
    importmathimportpicklefrommatplotlibimportpyplotaspltdefcalc_shang(dataset:list):"""计算给定数据集的香农熵:paramdataset::return:"""length=len(dataset)label_count_map={}foritem......
  • MATLAB基础应用精讲-【数模应用】SPSSPRO数据处理
    目录SPSSSPSSRO数据标签1、作用2、输入输出描述3、案例示例4、案例数据5、案例操作6、输出结果分析7、注意事项数据编码1、作用2、输入输出描述3、案例示例4、案例数据5、案例操作6、输出结果分析7、注意事项8、模型理论异常值处理 1、作用2、输入输出......
  • 算法金 | 突破最强算法模型,决策树算法!!
    大侠幸会,在下全网同名「算法金」0基础转AI上岸,多个算法赛Top「日更万日,让更多人享受智能乐趣」1.引言今天我们唠唠吴恩达:机器学习的六个核心算法!之决策树算法。决策树是一种用于分类和回归的机器学习算法。它通过一系列的决策规则将数据逐步划分,最终形成一......
  • 算法金 | 突破最强算法模型,决策树算法!!
    大侠幸会,在下全网同名「算法金」0基础转AI上岸,多个算法赛Top「日更万日,让更多人享受智能乐趣」1.引言今天我们唠唠吴恩达:机器学习的六个核心算法!之决策树算法。决策树是一种用于分类和回归的机器学习算法。它通过一系列的决策规则将数据逐步划分,最终形成一个类似......
  • 机器学习_决策树与随机森林
    决策树和随机森林是常用的机器学习算法,尤其在分类和回归任务中应用广泛。以下详细介绍它们的用法,并提供相应的代码实例。决策树决策树是基于树结构的模型,逐步细化决策,最终形成对目标变量的预测。用法分类:用于分类任务,目标变量是类别。回归:用于回归任务,目标变量是连续值......