R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

时间：2023-10-09 15:59:22浏览次数：34

标签：Bagging bagging 模型 html vu Logistic Regression 1000

原文链接：http://tecdat.cn/?p=22448

原文出处：拓端数据部落公众号

最近我们被客户要求撰写关于分析心脏病患者的研究报告，包括一些图形和统计输出。

今天，我们将看下bagging 技术里面的启发式算法。

通常，bagging 与树有关，用于生成森林。但实际上，任何类型的模型都有可能使用bagging 。回顾一下，bagging意味着 "boostrap聚合"。因此，考虑一个模型m：X→Y。让表示从样本中得到的m的估计

现在考虑一些boostrap样本，，i是从{1,⋯,n}中随机抽取的。基于该样本，估计。然后抽出许多样本，考虑获得的估计值的一致性，使用多数规则，或使用概率的平均值（如果考虑概率主义模型）。因此

Bagging逻辑回归

考虑一下逻辑回归的情况。为了产生一个bootstrap样本，自然要使用上面描述的技术。即随机抽取一对(yi,xi)，均匀地（概率为）替换。这里考虑一下小数据集。对于bagging部分，使用以下代码

html


for(s in 1:1000){
  df_s = df[sample(1:n,size=n,replace=TRUE)
  logit[s]= glm(y~., df_s, family=binomial

然后，我们应该在这1000个模型上进行汇总，获得bagging的部分。

html


  unlist(lapply(1:1000,function(z) predict(logit[z],nnd))}

我们现在对任何新的观察都有一个预测

html

vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))
contour(vu,vu,vv,levels = .5,add=TRUE)

Bagging逻辑回归

另一种可用于生成bootstrap样本的技术是保留所有的xi，但对其中的每一个，都（随机地）抽取一个y的值，其中有

因此

因此，现在Bagging算法的代码是

html

glm(y~x1+x2, df, family=binomial)
for(s in 1:100)
  y = rbinom(size=1,prob=predict(reg,type="response")
  L_logit[s] = glm(y~., df_s, family=binomial)

bagging算法的agg部分保持不变。在这里我们获得

html

vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))))
contour(vu,vu,vv,levels = .5,add=TRUE)

当然，我们可以使用该代码，检查预测获得我们的样本中的观察。

在这里考虑心肌梗塞数据。

数据

我们使用心脏病数据，预测急诊病人的心肌梗死，包含变量：

心脏指数
心搏量指数
舒张压
肺动脉压
心室压力
肺阻力
是否存活

其中我们有急诊室的观察结果，对于心肌梗塞，我们想了解谁存活下来了，得到一个预测模型

html

reg = glm(as.factor(PRO)~., carde, family=binomial)
for(s in 1:1000){
  L_logit[s] = glm(as.factor(PRO)~., my_s, family=binomial)
}

unlist(lapply(1:100,predict(L_logit[z],newdata=d,type="response")}

对于第一个观察，通过我们的1000个模拟数据集，以及我们的1000个模型，我们得到了以下死亡概率的估计。

html

v_x = p(x)
hist(v_x,proba=TRUE,breaks=seq(,by.05),=",="",
segments(mean(v_x),0,mean(v_x,5="=2)

因此，对于第一个观察，在78.8%的模型中，预测的概率高于50%，平均概率实际上接近75%。

或者，对于样本22，预测与第一个非常接近。

html

histo(23)
histo(11)

我们在此观察到

Bagging决策树

Bagging是由Leo Breiman于1994年在Bagging Predictors中介绍的。如果说第一节描述了这个程序，那么第二节则介绍了 "Bagging分类树"。树对于解释来说是不错的，但大多数时候，它们是相当差的预测模型。Bagging的想法是为了提高分类树的准确性。
bagging 的想法是为了生成大量的树

html


for(i in 1:12)
  set.seed(sed[i])
idx = sample(1:n, size=n, replace=TRUE)
cart =  rpart(PR~., md[idx,])

这个策略其实和以前一样。对于bootstrap部分，将树存储在一个列表中

html

for(s in 1:1000)
idx = sample(1:n, size=n, replace=TRUE)
  L_tree[[s]] = rpart(as.(PR)~.)

而对于汇总部分，只需取预测概率的平均值即可

html

p = function(x){
  unlist(lapply(1:1000,function(z) predict(L_tree[z],newdata,)[,2])

因为在这个例子中，我们无法实现预测的可视化，让我们在较小的数据集上运行同样的代码。

html


for(s in 1:1000){
  idx = sample(1:n, size=n, replace=TRUE)
  L_tree[s] = rpart(y~x1+x2,
}
  unlist(lapply(1:1000,function(z) predict(L_tree[[z]])
outer(vu,vu,Vectorize(function(x,y) mean(p(c(x,y)))

从bagging到森林

在这里，我们生成了很多树，但它并不是严格意义上的随机森林算法，正如1995年在《随机决策森林》中介绍的那样。实际上，区别在于决策树的创建。当我们有一个节点时，看一下可能的分割：我们考虑所有可能的变量，以及所有可能的阈值。这里的策略是在p中随机抽取k个变量（当然k<p，例如k=sqrt{p}）。这在高维度上是有趣的，因为在每次分割时，我们应该寻找所有的变量和所有的阈值，而这可能需要相当长的时间（尤其是在bootstrap 程序中，目标是长出1000棵树）。

最受欢迎的见解

1.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用

2.R语言GARCH-DCC模型和DCC（MVT）建模估计

3.R语言实现 Copula 算法建模依赖性案例分析报告

4.R语言COPULAS和金融时间序列数据VaR分析

5.R语言多元COPULA GARCH 模型时间序列预测

6.用R语言实现神经网络预测股票实例

7.r语言预测波动率的实现：ARCH模型与HAR-RV模型

8.R语言如何做马尔科夫转换模型markov switching model

9.matlab使用Copula仿真优化市场风险

标签：Bagging,bagging,模型,html,vu,Logistic,Regression,1000
From： https://www.cnblogs.com/tecdat/p/17751939.html

R语言用普通最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分类|附代码数
原文链接：http://tecdat.cn/?p=21379 原文出处：拓端数据部落公众号最近我们被客户要求撰写关于回归的研究报告，包括一些图形和统计输出。本文我们对逻辑回归和样条曲线进行介绍。logistic回归基于以下假设：给定协变量x，Y具有伯努利分布，目的是估计参数β。回想一下，针对该......
R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证|附代码数据
全文链接：http://tecdat.cn/?p=32071原文出处：拓端数据部落公众号最近我们被客户要求撰写关于交易策略的研究报告，包括一些图形和统计输出。随着中国的证券市场规模的不断壮大、市场创新不断深化、信息披露不断完善、市场监管不断强化，随着现代投资组合理论的发展和计算机技术的进......
R语言武汉流动人口趋势预测：灰色模型GM（1，1）、ARIMA时间序列、logistic逻辑回归模型|附代
全文链接：http://tecdat.cn/?p=32496原文出处：拓端数据部落公众号人口流动与迁移，作为人类产生以来就存在的一种社会现象，伴随着人类文明的不断进步从未间断。人力资源是社会文明进步、人民富裕幸福、国家繁荣昌盛的核心推动力量。当前，我国经济正处于从以政府主导的投资驱动型的经......
SAS数据挖掘EM贷款违约预测分析：逐步Logistic逻辑回归、决策树、随机森林|附代码数据
全文链接：http://tecdat.cn/?p=31745原文出处：拓端数据部落公众号最近我们被客户要求撰写关于贷款违约预测的研究报告，包括一些图形和统计输出。近几年来，各家商业银行陆续推出多种贷款业务，如何识别贷款违约因素已经成为各家商业银行健康有序发展贷款业务的关键。在贷款违约预测的......
R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证|附代码数据
全文链接：http://tecdat.cn/?p=32071原文出处：拓端数据部落公众号最近我们被客户要求撰写关于交易策略的研究报告，包括一些图形和统计输出。随着中国的证券市场规模的不断壮大、市场创新不断深化、信息披露不断完善、市场监管不断强化，随着现代投资组合理论的发展和计算机技术的进......
MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression
MPDIoU:ALossforEfficientandAccurateBoundingBox RegressionMPDIoU:一个有效和准确的边界框损失回归函数摘要边界框回归(Boundingboxregression,BBR)广泛应用于目标检测和实例分割，是目标定位的重要步骤。然而，当预测框与边界框具有相同的纵横比，但宽度和高度值完......
matlab用马尔可夫链蒙特卡罗 (MCMC) 的Logistic逻辑回归模型分析汽车实验数据|附代码
原文链接：http://tecdat.cn/?p=24103此示例说明如何使用逻辑回归模型进行贝叶斯推断（点击文末“阅读原文”获取完整代码数据）。统计推断通常基于最大似然估计(MLE)。MLE选择能够使数据似然最大化的参数，是一种较为自然的方法。在MLE中，假定参数是未知但固定的数值，并在一定......
报错test_features2d.cpp:51:10: fatal error: features2d/test/test_detectors_regre
问题描述：ubuntu18.04安装opencv4.5.1+contrib报错test_features2d.cpp:51:10:fatalerror:features2d/test/test_detectors_regression.impl.hpp:没有那个文件或目录解决方法如题，报错如下：解决方法：按照报错提示，将opencv-4.5.1/modules中的features2d文件夹一整个复制到ope......
NNs（Neural Networks，神经网络）和Polynomial Regression（多项式回归）等价性之思考，以及深度
NNs（NeuralNetworks，神经网络）和PolynomialRegression（多项式回归）等价性之思考，以及深度模型可解释性原理研究与案例1.MainPoint0x1：行文框架第二章：我们会分别介绍NNs神经网络和PR多项式回归各自的定义和应用场景。第三章：讨论NNs和PR在数学公式上的等价性，NNs......
傻瓜式零代码临床预测模型构建、评价、验证LogisticApp
傻瓜式临床预测模型软件LogisticApp无需复杂冗长的代码只需要鼠标点点，即可轻松完成3分SCI支持Windows32位、64位，Macintel芯片、M1/M2芯片视频教程见B站up主：R语言临床预测模型1LogisticApp简介傻瓜式零代码Logistic临床预测模型构建、评价、验证。......

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

原文链接：http://tecdat.cn/?p=22448

原文出处：拓端数据部落公众号

Bagging逻辑回归

Bagging逻辑回归

数据

Bagging决策树

从bagging到森林

相关文章

赞助商

阅读排行