首页 > 其他分享 >R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

时间:2024-03-12 17:46:46浏览次数:36  
标签:CARTmodel cp ## chaid 用户 CART 流失 电商 决策树

全文链接:http://tecdat.cn/?p=31644

原文出处:拓端数据部落公众号

借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。我们不能只关心进口的进水速率,却忽略了出水口的出水速率。挽留一个老用户相比拉动一个新用户,在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个适合他们需求的用户流失预测算法。本课题着眼于利用决策树算法和随机森林模型,对用户进行预测,判断哪些客户会流失。数据的处理方法以及机器学习本身算法理论的学习和代码实现在各领域具有相同性,之后同学可以在其他感兴趣的领域结合数据进行分析,利用此课题所学知识举一反三。

数据

image.png

   
查看可用数据源

image.png

用户名密码登陆

   

channel <- odbcConnect("sa", uid="sa", pwd="12345")

品牌表

   
data<-sqlQuery(channel,"select * from  DataMeet1$")
 
head(data)

image.png

input:品牌 品牌 奶粉阶段(对应小孩年龄) 城市等级(1,2,3线城市)

Output

用户寿命(天) 是否流失

   
head(data)

image.png

转换数据,拟合决策树模型

建立决策树预测是否流失

   
CARTmodel = rpart
draw.tree(CARTmodel) 

image.png

绘制决策树

输出决策树cp值

   
printcp(CARTmodel)

image.png

根据cp值对决策树进行剪枝

   
cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
cp

prune(CARTmodel, cp= CARTmodel$cpCP"])  #剪枝

image.png

   

CARTmodel2 <- prune(CARTmo

image.png

对数据进行预测

   
(predict(CARTmodel2,datanew.test ))

summary(CARTmodel2)

image.png

计算混淆矩阵和准确度

   
tab=table(tree.pred,datanew.test$是否流失)#得到训练集混淆矩阵

(tab[1,1]+tab[2,2])/sum(tab)

image.png

mse

   

mean((as.numeric(tree.pred) - as.numeric(datanew.test$是否流失))^2)

image.png

输出结果

   
CARTmodel2 

image.png

   
将表写进数据库里
sqlSave(channel,result_lossnew11,

变量重要程度

   
CARTmodel$varmportance

image.png

预测用户寿命.天.

   
CARTmodel = rpart(用户寿命.天. ~

image.png

绘制决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

输出决策树cp值

image.png

根据cp值对决策树进行剪枝

   
prune(CARTmodel, cp= CARTmodel$cptab

image.png

   
prune(CARTmodel

image.png

进行预测

   
predict(CARTmodel

image.png

输出结果

image.png

   
#mse

mean((as.numeric(tree.pred) - as.numeric(datanew.test$用户寿命.天.))^2)
   
## [1] 7713.91

变量重要程度

image.png

随机森林

随机森林是属于集成学习,其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。

   
rf <- randomForest(datanew.train$用户寿命.天.  ~ 

MSE误差

   

mean(predict(rf)- datanew.train$用户寿命.天.  )^2
   
## [1] 0.007107568

image.png

变量重要程度

image.png

   
plot(d,center=TRUE,leaflab='none',

image.png

混淆矩阵

   
table(predict(rf), datanew.train$是否流失  )
   
##    
##       0   1
##   0  84  15
##   1  23 589

image.png

   
#变量重要程度
importance(rf)

image.png

image.png

chaid树

CHAID是一种高效的统计分箱技术,是商业上运用最成功的算法之一。通过统计检验方法,CHAID评估潜在预测变量的所有取值,合并对目标变量而言在统计意义上同质的取值成为一个分箱,保留那些有异质性的取值为单独的分箱,然后选择最佳的预测,成为决策树的第一个分支,因此每一个子节点都是同质的,此过程继续递推直至完成整个决策树。

image.png

   
plot(ct, mai

下载.png

image.png

ctree

是否流失

image.png

   
plot(ct,

image.png

混淆矩阵

   
table(predict(ct), datanew.train$是否流失)
   
##    
##       0   1
##   0  89   1
##   1  18 603

预测类别概率

   
tr.pred = predict(ct, newdata=datanew.train, type="prob")
tr.pred

image.png

   
将结果表写进数据库里
sqlSave(channel,resul

the-secret-to-great-health-1339038575-thumb-1536x1536.webp

最受欢迎的见解

1.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

标签:CARTmodel,cp,##,chaid,用户,CART,流失,电商,决策树
From: https://www.cnblogs.com/tecdat/p/18068835

相关文章

  • Map MEIC to MOZCART
    转自:https://dreambooker.site/2020/03/10/map-meic-to-mozcart/ ThespeciesassociatedwithspecificchemicalmechanismislistinRegistry/registry.chemafterchem_opt==andemi_opt=.IwillfocusontheMOZCARTmechanism(8):#KPPmechanismfrommoz......
  • 跨境电商独立站整合在线客服功能
    如果你有一个外贸独立站,想要在自己网站实现在线客服功能 请注册账号https://gofly.v1kf.com/ 前往【部署】【团队设置】【网站接入】【弹窗模式】可以找到JS代码,直接把该代码粘贴到网页任何位置,就可以点击右下角图标直接聊天了。 ......
  • API电商接口大数据分析与数据挖掘 (商品详情店铺)
    API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。API接口API(应用程序接口)是一种允许不同软件应用程序相互通信的方式。在商品详情和店铺分析的上下文中,API接口可......
  • 电商API接口入门指南 (淘宝商品详情店铺)
    电商API接口入门指南旨在为初学者提供关于电商API接口的基本知识和使用方法的指导。以下是一个简要的入门指南,帮助你开始使用电商API接口。一、了解API接口的基本概念首先,你需要了解API接口的基本概念。API(ApplicationProgrammingInterface,应用程序编程接口)是不同软件应用程序......
  • SPSS modeler关联规则、卡方模型探索北京平谷大桃产业发展与电商化研究
    原文链接:https://tecdat.cn/?p=35275原文出处:拓端数据部落公众号平谷区的大桃产业经历了30多年的发展历程,成为了中国著名的大桃之乡,世界最大的桃园。以大桃产业为主的果品产业已成为全国农业产业结构调整的特色代表,是名副其实的富民产业、生态产业,对农民就业、农村稳定和社会主......
  • 淘宝电商api接口 获取商品详情 搜索商品
    iDataRiver平台https://www.idatariver.com/zh-cn/提供开箱即用的taobao淘宝电商数据采集API,供用户按需调用。接口使用详情请参考淘宝接口文档接口列表1.获取商品详情参数类型是否必填默认值示例值描述apikeystring是idr_***从控制台里复制apikeyitem......
  • Lazada电商api接口 获取商品详情 数据采集
    iDataRiver平台https://www.idatariver.com/zh-cn/提供开箱即用的Lazada电商数据采集API,供用户按需调用。接口使用详情请参考Lazada接口文档接口列表获取用户详情参数类型是否必填默认值示例值描述apikeystring是idr_***从控制台里复制apikeyitem_idn......
  • 亿级电商流量,高并发下Redis与MySQL的数据一致性如何保证
    前言:只要使用到缓存,无论是本地缓存还是使用Redis做缓存,那么就会存在数据同步不一致的问题。先读取缓存,缓存数据有,则立即返回结果如果缓存中没有数据,则从数据库中读取数据把读取到的数据同步到缓存中,提供下次读请求返回数据这样的作法是大多数人使用缓存的方式,这样能......
  • 东南亚主播扎堆,南宁怎样做跨境电商?
    第一个是,国新办举行新闻发布会,回顾《区域全面经济伙伴关系协定》生效两周年成果。第二个是,警茶出圈,成为热点话题。先来看今天的第一条。前不久,国新办举行了新闻发布会,回顾了《区域全面经济伙伴关系协定》生效两周年的成果。《区域全面经济伙伴关系协定》,是由东盟十国发起,中国、日......
  • 如何避免机器人客服成为淘宝、抖音等电商卖家们的噩梦?
    作为淘宝、抖音等平台的电商卖家,我们已经能切身感受到机器人客服在提高效率和降低成本上的巨大潜力。但近期的热搜话题“AI客服快把人逼疯了”,也给我们揭示出一个不容忽视的问题:如果处理不当,机器人客服是会对顾客体验造成负面影响的。以下是一些真实的对话案例,我们可以明显的看到......