首页 > 其他分享 >数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化|附代码数据

数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化|附代码数据

时间:2023-02-10 23:55:44浏览次数:59  
标签:ygrid 用主 回归 可视化 PCA 数据 xgrid 决策树

全文链接:http://tecdat.cn/?p=22262

最近我们被客户要求撰写关于心脏病数据的研究报告,包括一些图形和统计输出。

在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)

但在实际生活中,有更多的观察值,更多的解释变量。随着两个以上的解释变量,它开始变得更加复杂的可视化。

数据

我们使用心脏病数据 ( 查看文末了解数据获取方式 ) ,预测急诊病人的心肌梗死,包含变量:

  1. 心脏指数
  2. 心搏量指数
  3. 舒张压
  4. 肺动脉压
  5. 心室压力
  6. 肺阻力
  7. 是否存活

图片

其中我们有急诊室的观察结果,对于心肌梗塞,我们想了解谁存活下来了,以得到一个预测模型。但是在运行一些分类器之前,我们先把我们的数据可视化。

主成分PCA

由于我们有7个解释变量和我们的因变量(生存或死亡),我们可以去做一个PCA。

acp=PCA(X)

图片

添加死亡生存变量,就把它当作数字0,1变量。


点击标题查阅往期内容

图片

数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

图片

左右滑动查看更多

图片

01

图片

02

图片

03

图片

04

图片

 是否存活= 是否存活=="存活")*1

图片

结果不错,我们看到因变量与部分自变量是同向的。也可以可视化样本和类别

plot(cp  )

图片

我们可以在这里推导出一个不错的分类器。至少,在前两个成分上投影时,我们可以看到我们的类别。
现在,我们不能在前两个主成分上得到一个分类器并将其可视化吗?   因为PCA是简单的基于正交投影的,所以我们可以(这里的数据是标准化的)。给定前两个分量平面上的两个坐标,给定我们的变换矩阵、归一化分量和一个分类器(这里是基于逻辑回归),我们可以回到原始空间,并对新数据进行分类。

PCA(X,ncp=ncol(X))
function(d1,d2,Mat,reg){
  z=Mat %*% c(d1,d2,rep(0,ncol(X)-2))
  newd=data.frame(t(z*s+m))
pred(reg, newd  }

 逻辑回归

现在考虑一个逻辑回归。只是为了简化(去掉非显著变量),我们使用一个逐步回归的程序来简化模型。

reg_tot=step(glm(是否存活~. ,
family=binomial))

图片

可视化等概率线(如个人有50%的生存机会)使用以下

xgrid=seq(-5,5,length=25 )
ygrid=seq(-5,5,length=25 )
zgrid=ter(xgrid,ygrid,p)

然后,我们在之前的图形上添加一条等高线

PCA(data,quali.sup=8 )

contour( zgrid )

图片

结果不差,但我们应该可以做得更好。如果我们把所有的变量都保留在这里(即使它们不重要),会怎么样呢?

 glm(是否存活~., 
            family=binomial)
 
contour(xgrid,ygrid,zgrid )

图片

在现实生活中,要想真正说出我们的分类器的一些相关信息,我们应该在观测值的一个子集上拟合我们的模型,然后在另一个子集上测试它。在这里,我们的目标更多的是在某个投影空间上得到一个函数来可视化我们的分类。

决策树

默认分类树

> plot( re,type=4,extra=6)

图片

我们可以在此更改选项,例如每个节点的最小观察数

rpart(factor(是否存活)~ ,
+       control=rpart.control(minsplit=10))

图片

或者

 rpart( 
+        control=rpart.control(minsplit=5))

图片

要将该分类可视化,获得前两个成分的投影

> p=function(d1,d2) pred2(d1,d2 )

> zgrid=Outer(xgrid,ygrid,p)
 PCA(  quali.sup=8,graph=TRUE)
> image(xgrid,ygrid,zgrid )
> contour(xgrid,ygrid,zgrid,add=TRUE,levels=.5)

图片

也可以考虑这种情况

 rpart( control=rpart.control(minsplit=5))

图片

最后,我们还可以生成更多的树,通过采样获得。这就是bagging的概念:我们boostrap 观测值,生长一些树,然后,我们将预测值进行汇总。在网格上

 > for(i in 1:1200){
+ indice = sample(1:nrow(MYOCARDE),
 + arbre_b = rpart(factor(是否存活)~.,
+}
>Zgrid = Z/1200

可视化

图片

最后,可以使用随机森林算法。

> fore= randomForest(factor(是否存活)~.,
> pF=function(d1,d2) pred2(d1,d2,Minv,fore)
> zgridF=Outer(xgrid,ygrid,pF)
PCA(data,.sup=8,graph=TRUE)
> image(xgrid,ygrid,Zgrid,add=TRUE,
> contour(xgrid,ygrid,zgridF,

图片


点击标题查阅往期内容

R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例
R语言有RStan的多维验证性因子分析(CFA)
主成分分析(PCA)原理及R语言实现及分析实例
R语言无监督学习:PCA主成分分析可视化
R语言使用Metropolis- Hasting抽样算法进行逻辑回归
R语言多元Logistic逻辑回归 应用案例
R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
R语言基于树的方法:决策树,随机森林,Bagging,增强树
spss modeler用决策树神经网络预测ST的股票
R语言中自编基尼系数的CART回归决策树的实现
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
matlab使用分位数随机森林(QRF)回归树检测异常值
基于随机森林、svm、CNN机器学习的风控欺诈识别模型
R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例
R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类

标签:ygrid,用主,回归,可视化,PCA,数据,xgrid,决策树
From: https://www.cnblogs.com/tecdat/p/17110704.html

相关文章

  • 经济学:动态模型平均(DMA)、动态模型选择(DMS)、ARIMA、TVP预测原油时间序列价格|附代
    全文链接:http://tecdat.cn/?p=22458最近我们被客户要求撰写关于动态模型平均的研究报告,包括一些图形和统计输出。本文提供了一个经济案例。着重于原油市场的例子。简要地......
  • 82、商城业务---购物车---数据模型分析
    以京东为例,它的购物车其实就是两个购物车的交互。我们未登录时,将商品添加到购物车(并且重新打开浏览器它还存在)。当我们登陆后,自动将商品添加到登陆后的购物车中。当我们重......
  • MySQL数据类型
    数值类型关键字INT是INTEGER的同义词,关键字DEC是DECIMAL的同义词。TINYINT1Bytes(-128,127)(0,255)小整数值SMALLINT2Bytes(-32768,32767)(0,65535)大整......
  • MySQL数据库系统部署使用
    推荐步骤:在centos01上安装MySQL数据库服务,生成服务器配置文件,添加系统服务优化命令初始化MySQL,设置访问密码登录MySQL数据库 在centos01的MySQL服务器上创建数据库,数据库......
  • 函数式接口介绍、方法引用在Lambda中的使用 及 基本数据类型优化、并行流使用
    (目录)函数式接口1.概述​ 只有一个抽象方法的接口我们称之为函数接口。​ JDK的函数式接口都加上了**@FunctionalInterface**注解进行标识。但是无论是否加上该注解......
  • MySQL数据库系统部署使用
    拓扑图:推荐步骤: 在centos01上安装MySQL数据库服务,生成服务器配置文件,添加系统服务优化命令初始化MySQL,设置访问密码登录MySQL数据库 在centos01的MySQL服务器上创建数据......
  • 深度学习炼丹-数据标准化
    前言一,Normalization概述1.1,Normalization定义1.2,什么情况需要Normalization1.3,为什么要做Normalization1.4,DataNormalization常用方法1.5,代码实现二,norm......
  • 数据结构 C语言版 第2版 严蔚敏 电子书 pdf
    作者:严蔚敏出版社:人民邮电出版社原作名:严蔚敏,李冬梅,吴伟民 关注公众号:红宸笑。回复:电子书即可  《数据结构(C语言版第2版)/21世纪高等学校计算机规划教......
  • Qt常用数据类型(2)
    6.日期和时间6.1.QDate//构造函数QDate::QDate();QDate::QDate(inty,intm,intd);//公共成员函数//重新设置日期对象中的日期boolQDate::setDate(intyear,intm......
  • 【数据结构和算法思想】递归思想
    递归的理解:在程序中可以调用函数来完成任务,为了完成相同的任务可以调用同一个函数。如果在函数中调用函数本身,那么改函数就被称为递归函数。递归代码模板:voidfunc(){/......