首页 > 其他分享 >【视频】决策树模型原理和R语言预测心脏病实例

【视频】决策树模型原理和R语言预测心脏病实例

时间:2023-07-06 23:34:30浏览次数:53  
标签:模型 回归 节点 实例 心脏病 数据 我们 决策树

全文链接:https://tecdat.cn/?p=33128

原文出处:拓端数据部落公众号

分析师:Yudong Wan

决策树模型简介

决策树模型是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。与传统的线性回归模型不同,决策树回归模型能够捕捉到非线性关系,并生成易于解释的规则。

image.png

决策树模型的实现过程

决策树模型的实现过程主要包括三个步骤:特征选择、树的构建和剪枝。

首先,特征选择是为了确定在每个节点上进行分割的最佳特征。常用的特征选择指标有信息增益、基尼指数等。

image.png

其次,树的构建是通过递归地分割数据集来生成决策树。根据某个标准,我们选择一个特征作为划分依据,并将数据集划分为更小的子集。

image.png

image.png

最后,剪枝是为了避免过拟合,提高模型的泛化能力。我们可以通过剪掉一些叶节点来减少决策树的复杂度。

max_features:在划分节点时所考虑的特征值数量的最大值,默认取None,可以传入int型或float型数据。如果是float型数据,表示百分数。max_leaf_nodes:最大叶子节点数,默认取None,可以传入int型数据。

min samples leaf:叶子节点的最少样本数,默认取1,如果小于该数值,该叶子节点会和兄弟节点一起被剪枝(即剔除该叶子节点和其兑弟节点,并停止分裂)。

min_weight_fraction_leaf:叶子节点最小的样本权重和,默认取0,即不考虑权重问题,如果小于该数值,该叶子节点会和兄弟节点一起被剪枝(即剔除该叶子节点和其兄弟节点,并停止分裂)。如果较多样本有缺失值或者样本的分布类别偏差很大,则需考虑样本权重问题。 max_features:在划分节点时所考虑的特征值数量的最大值,默认取None,可以传入int型或float型数据。如果是float型数据,表示百分数。max_leaf_nodes:最大叶子节点数,默认取None,可以传入int型数据。

image.png

image.png

决策树模型的应用场景

应用场景:决策树模型适用于非线性关系较为明显的问题,例如:

1.房屋价格预测:基于一些特征(如地理位置、面积等),预测房屋的价格。

image.png

2.销售量预测:根据产品的特征(如价格、广告费用等),预测销售量。

image.png

决策树模型的优缺点

优点

决策树模型具有以下优点: 首先,它易于理解和解释,生成的决策树可以直观地呈现规 则,让我们能够了解特征对结果的影响。

其次,决策树模型能够处理离散型和连续型的特征,适用于 多种数据类型。

最后,它对异常值和缺失值相对不敏感,能够在存在噪声的 数据集中表现较好。

缺点

然而,决策树模型也有一些缺点需要注意:

首先,在处理复杂问题时,决策树可能过度拟合训练数据,导致泛化能力较差,需要采取剪枝等措施来解决这个问题。

其次,对于特征空间划分较多的数据,决策树可能会产生过于复杂的模型,难以解释和理解。

最后,决策树的训练过程容易受到数据的微小变化影响,可能会产生不稳定的结果。

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

数据集信息:

这个数据集可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病。

目标:

主要目的是预测给定的人是否有心脏病,借助于几个因素,如年龄、胆固醇水平、胸痛类型等。

我们在这个问题上使用的算法是:

  • 二元逻辑回归
  • Naive Bayes算法
  • 决策树
  • 随机森林

数据集的描述:

该数据有303个观察值和14个变量。每个观察值都包含关于个人的以下信息。

  • 年龄:- 个人的年龄,以年为单位
  • sex:- 性别(1=男性;0=女性)
  • cp - 胸痛类型(1=典型心绞痛;2=非典型心绞痛;3=非心绞痛;4=无症状)。
  • trestbps--静息血压
  • chol - 血清胆固醇,单位:mg/dl
  • fbs - 空腹血糖水平>120 mg/dl(1=真;0=假)
  • restecg - 静息心电图结果(0=正常;1=有ST-T;2=肥大)
  • thalach - 达到的最大心率
  • exang - 运动诱发的心绞痛(1=是;0=否)
  • oldpeak - 相对于静止状态,运动诱发的ST压低
  • slope - 运动时ST段峰值的斜率(1=上斜;2=平坦;3=下斜)
  • ca - 主要血管的数量(0-4),由Flourosopy着色
  • 地中海贫血症--地中海贫血症是一种遗传性血液疾病,会影响身体产生血红蛋白和红细胞的能力。1=正常;2=固定缺陷;3=可逆转缺陷
  • 目标--预测属性--心脏疾病的诊断(血管造影疾病状态)(值0=<50%直径狭窄;值1=>50%直径狭窄)

在Rstudio中加载数据

 
heart<-read.csv("heart.csv",header = T)

header = T意味着给定的数据有自己的标题,或者换句话说,第一个观测值也被考虑用于预测。 

 
head(heart)

当我们想查看和检查数据的前六个观察点时,我们使用head函数。 

 
tail(heart)

 显示的是我们数据中最后面的六个观察点

 
colSums(is.na(heart))

这个函数是用来检查我们的数据是否包含任何NA值。
如果没有发现NA,我们就可以继续前进,否则我们就必须在之前删除NA。

检查我们的数据结构

 
str(heart)

查看我们的数据摘要

 
summary(heart)

通过观察以上的总结,我们可以说以下几点

  • 性别不是连续变量,因为根据我们的描述,它可以是男性或女性。因此,我们必须将性别这个变量名称从整数转换为因子。
  • cp不能成为连续变量,因为它是胸痛的类型。由于它是胸痛的类型,我们必须将变量cp转换为因子。
  • fbs不能是连续变量或整数,因为它显示血糖水平是否低于120mg/dl。
  • restecg是因子,因为它是心电图结果的类型。它不能是整数。所以,我们要把它转换为因子和标签。
  • 根据数据集的描述,exang应该是因子。心绞痛发生或不发生。因此,将该变量转换为因子。
  • 斜率不能是整数,因为它是在心电图中观察到的斜率类型。因此,我们将变量转换为因子。
  • 根据数据集的描述,ca不是整数。因此,我们要将该变量转换为因子。
  • thal不是整数,因为它是地中海贫血的类型。因此,我们将变量转换为因子。
  • 目标是预测变量,告诉我们这个人是否有心脏病。因此,我们将该变量转换为因子,并为其贴上标签。

根据上述考虑,我们对变量做了一些变化

 
#例如
sex<-as.factor(sex)
levels(sex)<-c("Female","Male")

检查上述变化是否执行成功

 
str(heart)

 
summary(heart)

  

EDA

EDA是探索性数据分析(Exploratory Data Analysis)的缩写,它是一种数据分析的方法/哲学,采用各种技术(主要是图形技术)来深入了解数据集。

对于图形表示,我们需要库 "ggplot2"

 
library(ggplot2)
ggplot(heart,aes(x=age,fill=target,color=target)) + geom_histogram(binwidth = 1,color="black") + labs(x = "Age",y = "Frequency", title = "Heart Disease w.r.t. Age")

我们可以得出结论,与60岁以上的人相比,40至60岁的人患心脏病的概率最高。 

 
table <- table(cp)

pie(table)

我们可以得出结论,在所有类型的胸痛中,在个人身上观察到的大多数是典型的胸痛类型,然后是非心绞痛。

执行机器学习算法

Logistic回归

首先,我们将数据集分为训练数据(75%)和测试数据(25%)。

 
set.seed(100) 
#100用于控制抽样的permutation为100. 
index<-sample(nrow(heart),0.75*nrow(heart))

在训练数据上生成模型,然后用测试数据验证模型。 

 
glm(family = "binomial")
# family = " 二项式 "意味着只包含两个结果。

为了检查我们的模型是如何生成的,我们需要计算预测分数和建立混淆矩阵来了解模型的准确性。 

 
pred<-fitted(blr)
# 拟合只能用于获得生成模型的数据的预测分数。

我们可以看到,预测的分数是患心脏病的概率。但我们必须找到一个适当的分界点,从这个分界点可以很容易地区分是否患有心脏病。

为此,我们需要ROC曲线,这是一个显示分类模型在所有分类阈值下的性能的图形。它将使我们能够采取适当的临界值。

 
pred<-prediction(train$pred,train$target)
perf<-performance(pred,"tpr","fpr")
plot(perf,colorize = T,print.cutoffs.at = seq(0.1,by = 0.1))

通过使用ROC曲线,我们可以观察到0.6具有更好的敏感性和特异性,因此我们选择0.6作为区分的分界点。

 
pred1<-ifelse(pred<0.6,"No","Yes")

 
# 训练数据的准确性
acc_tr 

从训练数据的混淆矩阵中,我们知道模型有88.55%的准确性。

现在在测试数据上验证该模型

 
predict(type = "response")
## type = "response "是用来获得患有心脏病的概率的结果。
head(test)

我们知道,对于训练数据来说,临界点是0.6。同样地,测试数据也会有相同的临界点。

 
confusionMatrix((pred1),target)

 
#测试数据的准确性.

检查我们的预测值有多少位于曲线内

 
[email protected]

我们可以得出结论,我们的准确率为81.58%,90.26%的预测值位于曲线之下。同时,我们的错误分类率为18.42%。

Naive Bayes算法

在执行Naive Bayes算法之前,需要删除我们在执行BLR时添加的额外预测列。

 
#naivebayes模型
nB(target~.)

用训练数据检查模型,并创建其混淆矩阵,来了解模型的准确程度。

 
predict(train)
confMat(pred,target)

我们可以说,贝叶斯算法对训练数据的准确率为85.46%。

现在,通过预测和创建混淆矩阵来验证测试数据的模型。

 
Matrix(pred,target)

 

我们可以得出结论,在Naive Bayes算法的帮助下生成的模型准确率为78.95%,或者我们也可以说Naive Bayes算法的错误分类率为21.05%。

决策树

在实施决策树之前,我们需要删除我们在执行Naive Bayes算法时添加的额外列。

 
train$pred<-NULL

rpart代表递归分区和回归树

当自变量和因变量都是连续的或分类的时候,就会用到rpart。

rpart会自动检测是否要根据因变量进行回归或分类。

实施决策树

 
plot(tree)

在决策树的帮助下,我们可以说所有变量中最重要的是CP、CA、THAL、Oldpeak。

让我们用测试数据来验证这个模型,并找出模型的准确性。

 
conMat(pred,targ)

我们可以说,决策树的准确率为76.32%,或者说它的错误分类率为23.68%。

随机森林

在执行随机森林之前,我们需要删除我们在执行决策树时添加的额外预测列。

 
test$pred<-NULL

在随机森林中,我们不需要将数据分成训练数据和测试数据,我们直接在整个数据上生成模型。为了生成模型,我们需要使用随机森林库

 
# Set.seed通过限制permutation来控制随机性。

set.seed(100)
model_rf<-randomForest(target~.,data = heart)
model_rf

在图上绘制出随机森林与误差的关系。

 
plot(model_rf)

红线代表没有心脏病的MCR,绿线代表有心脏病的MCR,黑线代表总体MCR或OOB误差。总体误差率是我们感兴趣的,结果不错。

结论

在进行了各种分类技术并考虑到它们的准确性后,我们可以得出结论,所有模型的准确性都在76%到84%之间。其中,随机森林的准确率略高,为83.5%。

关于分析师

image.png

在此对Yudong Wan对本文所作的贡献表示诚挚感谢,他完成了数据科学与大数据技术学位,专注数据分析,机器学习。擅长Python、R。


QQ截图20220707171154.png

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

标签:模型,回归,节点,实例,心脏病,数据,我们,决策树
From: https://www.cnblogs.com/tecdat/p/17533619.html

相关文章

  • 实例讲解看nsenter带你“上帝视角”看网络
    摘要:本文重点关注进入目标进程的“网络ns”视角,即站在「容器中的进程视角」看待容器里面的网络世界,并在那个视角中执行命令。本文分享自华为云社区《《跟唐老师学习云网络》-nsenter魔法棒》,作者:tsjsdbd。有时候Docker容器中缺少需要的软件。比如curl,wget,ifconfig,ip,tcpdump......
  • 数据代码分享|R语言用CHAID决策树分析花卉栽培影响因素数据可视化、误差分析
    在植物学和农业科学领域,理解影响植物生长和花朵产生的因素对于提高生产效率和优化栽培方法具有重要意义。因此,对于一个包含多个变量的数据集进行全面的分析和可视化是非常有帮助的。本研究基于一个数据集,该数据集包含了花卉栽培过程中的多种变量,其中包括数值型变量(如花朵数量、......
  • ASP.NET Core 6框架揭秘实例演示[42]:检查应用的健康状况
    现代化的应用及服务的部署场景主要体现在集群化、微服务和容器化,这一切都建立在针对部署应用或者服务的健康检查上。ASP.NET提供的健康检查不仅可能确定目标应用或者服务的可用性,还具有健康报告发布功能。ASP.NET框架的健康检查功能是通过HealthCheckMiddleware中间件完成的。我们......
  • C#图片按比例缩放实例
    下面是关于C#图片按比例缩放实例的详细攻略。步骤一:导入命名空间和设置窗口首先,在代码中导入必要的命名空间,以使用Image类和Bitmap类。usingSystem.Drawing;usingSystem.Drawing.Imaging;接着,在窗口中添加PictureBox控件,用于显示缩放后的图片。在属性中将SizeMode设置为Zo......
  • ASP.NET Core 6框架揭秘实例演示[41]:跨域资源的共享(CORS)N种用法
    同源策略是所有浏览器都必须遵循的一项安全原则,它的存在决定了浏览器在默认情况下无法对跨域请求的资源做进一步处理。为了实现跨域资源的共享,W3C制定了CORS规范。ASP.NET利用CorsMiddleware中间件提供了针对CORS规范的实现。(本文提供的示例演示已经同步到《ASP.NETCore6框架揭......
  • keepalived高可用服务搭建——单实例
    准备四台机器hostnameIP说明lb0110.0.0.30keepalived主服务器(nginx主负载均衡)lb0210.0.0.60Keepalived备服务器(Nginx辅负载均衡)www0110.0.0.40www01www0210.0.0.50www02安装keepalived(lb01,lb02)[root@lb01~]#yuminstallkeepalived-y[roo......
  • 用 IaC 的方式管理 EC2 实例 - 每天5分钟玩转 GPT 编程系列(1)
    目录写在前面你听我说HelloDevChat第一轮第二轮第三轮成果检验总结一下写在前面咳咳,开个系列吧,就叫《每天5分钟玩转GPT编程》。在这个系列里我们将分享各种借助GPT解决实际工作问题的经验,包括但不限于让GPT辅助写代码。咳咳,敲黑板:本系列文章欢迎大家投稿,分享出你使用G......
  • spring启动流程 (2) Bean实例化流程
    本文通过阅读Spring源码,分析Bean实例化流程。Bean实例化入口上一篇文章已经介绍,Bean实例化入口在AbstractApplicationContext类的finishBeanFactoryInitialization方法:protectedvoidfinishBeanFactoryInitialization(ConfigurableListableBeanFactorybeanFactory){ //Ini......
  • 光脚丫思考Vue3与实战:第03章 Vue实例
    下面是本文的屏幕录像的在线视频:03-Vue实例04-生命周期示意图+钩子函数温馨提示:1、视频下载:线上视频被压缩处理,可以下载高清版本:03-Vue实例:https://pan.baidu.com/s/1O9lUFm2jRIlBeFrBjXPZIA 提取码:nbzt03-生命周期示意图+钩子函数:https://pan.baidu.com/s/1D4ndTSgPBNGE8D4_......
  • 选读SQL经典实例笔记01_检索和排序
    1. 在WHERE子句中引用别名列1.1. 当表里的某些列没有被恰当命名的时候,这个技巧尤其有用1.2. sqlselectsalassalary,commascommissionfromempwheresalary<50001.3. 内嵌视图1.3.1.  sqlselect*from(selectsalassalary,commascommission......