首页 > 其他分享 >R语言多元Logistic逻辑回归 应用案例

R语言多元Logistic逻辑回归 应用案例

时间:2024-04-09 18:22:40浏览次数:20  
标签:Status Migr 模型 多元 案例 num Logistic Upland Data

原文链接http://tecdat.cn/?p=2640  

原文出处:拓端数据部落公众号

 

可以使用逐步回归过程确定多元逻辑回归。此函数选择模型以最小化AIC。

如何进行多元逻辑回归

可以使用step函数通过逐步回归过程确定多元逻辑回归。此函数选择模型以最小化AIC。

通常建议不要盲目地遵循逐步回归程序,而是要使用拟合统计(AIC,AICc,BIC)比较模型,或者根据生物学或科学上合理的可用变量建立模型。

多元相关是研究潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量。

多元相关

创建数值变量的数据框

   


Data.num $ Status = as.numeric(Data.num $ Status)

Data.num $ Length = as.numeric(Data.num $ Length)

Data.num $ Migr = as.numeric(Data.num $ Migr)

Data.num $ Insect = as.numeric(Data.num $ Insect)

Data.num $ Diet = as.numeric(Data.num $ Diet)

Data.num $ Broods = as.numeric(Data.num $ Broods)

Data。 num $ Wood = as.numeric(Data.num $ Wood)

Data.num $ Upland = as.numeric(Data.num $ Upland)

Data.num $ Water = as.numeric(Data.num $ Water)

Data.num $ Release = as.numeric(Data.num $ Release)

Data.num $ Indiv = as.numeric(Data.num $ Indiv)

###检查新数据框

headtail(Data.num)

1 1 1520 9600.0 1.21 1 12 2 6.0 1 0 0 1 6 29

2 1 1250 5000.0 0.56 1 0 1 6.0 1 0 0 1 10 85

3 1 870 3360.0 0.07 1 0 1 4.0 1 0 0 1 3 8

77 0 170 31.0 0.55 3 12 2 4.0 NA 1 0 0 1 2

78 0 210 36.9 2.00 2 8 2 3.7 1 0 0 1 1 2

79 0 225 106.5 1.20 2 12 2 4.8 2 0 0 0 1 2

###检查变量之间的相关性

###这里使用了Spearman相关性

 

多元逻辑回归的例子

在此示例中,数据包含缺失值。在R中缺失值用NA表示。SAS通常会无缝地处理缺失值。虽然这使用户更容易,但可能无法确保用户了解这些缺失值的作用。在某些情况下,R要求用户明确如何处理缺失值。处理多元回归中的缺失值的一种方法是从数据集中删除具有任何缺失值的所有观察值。这是我们在逐步回归过程之前要做的事情,创建一个名为Data.omit的数据框。但是,当我们创建最终模型时,我们只想排除那些在最终模型中实际包含的变量中具有缺失值的观察样本。为了测试最终模型的整体p值,绘制最终模型,或使用glm.compare函数,我们将创建一个名为Data.final的数据框,只排除那些观察结果。

尽管二项式和poission分布中的模型应该没问题,但是对于使用某些glm拟合的步骤过程存在一些注意事项。

用逐步回归确定模型

最终模型

   
summary(model.final)


Coefficients:

              Estimate Std. Error z value Pr(>|z|)   

(Intercept) -3.5496482  2.0827400  -1.704 0.088322 . 

Upland      -4.5484289  2.0712502  -2.196 0.028093 * 

Migr        -1.8184049  0.8325702  -2.184 0.028956 * 

Mass         0.0019029  0.0007048   2.700 0.006940 **

Indiv        0.0137061  0.0038703   3.541 0.000398 ***

Insect       0.2394720  0.1373456   1.744 0.081234 . 

Wood         1.8134445  1.3105911   1.384 0.166455   

 

伪R方

   
$Pseudo.R.squared.for.model.vs.null

                             Pseudo.R.squared

McFadden                             0.700475

Cox and Snell (ML)                   0.637732

Nagelkerke (Cragg and Uhler)         0.833284

 

模型总体p值

在最终模型中创建包含变量的数据框,并省略NA。

偏差表分析

 

   
Analysis of Deviance Table

 

Model 1: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood

Model 2: Status ~ 1

  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)   

1        63     30.392                         

2        69     93.351 -6  -62.959 1.125e-11 ***

似然比检验

 

   
Likelihood ratio test

 

  #Df  LogLik Df  Chisq Pr(>Chisq)   

1   7 -15.196                        

2   1 -46.675 -6 62.959  1.125e-11 ***

 

标准化残差图

简单的预测值图

在最终模型中创建包含变量的数据框,并在NA中省略

过度离散检验

过度离散是glm的deviance残差相对于自由度较大的情况。这些值显示在模型的摘要中。一个指导原则是,如果deviance残差与剩余自由度的比率超过1.5,则模型过度离散。过度离散表明模型不能很好地拟合数据:解释变量可能无法很好地描述因变量,或者可能无法为这些数据正确指定模型。如果存在过度离散,一种可能的解决方案是 在glm中使用quasibinomial family选项。

 

   
Null deviance: 93.351  on 69  degrees of freedom

Residual deviance: 30.392  on 63  degrees of freedom

deviance /   df.residual

 

[1] 0.482417

 

评估模型的替代方法

使用逐步回归程序的替代或补充是将模型与拟合统计进行比较。我的compare.glm 函数将为glm模型显示AIC,AICc,BIC和伪R平方。使用的模型应该都拟合相同的数据。也就是说,如果数据集中的不同变量包含缺失值,则应该谨慎使用。如果您对使用哪种拟合统计数据没有任何偏好,您希望在最终模型中使用较少的项,我可能会推荐AICc或BIC。

一系列模型可以与标准的anova 进行比较。模型应嵌套在先前模型中或anova函数列表中的下一个模型中; 和模型应该拟合相同的数据。在比较多个回归模型时,通常放宽p值为0.10或0.15。

在以下示例中,使用通过逐步回归过程选择的模型。请注意,虽然模型9最小化了AIC和AICc,但模型8最小化了BIC。anova结果表明模型8不是对模型7的显着改进。这些结果支持选择模型7,8或9中的任何一个。  

 

   
compareGLM(model.1, model.2, model.3, model.4, model.5, model.6,
           model.7, model.8, model.9)

 

$Models

  Formula                                                  

1 "Status ~ 1"                                             

2 "Status ~ Release"                                       

3 "Status ~ Release + Upland"                               

4 "Status ~ Release + Upland + Migr"                       

5 "Status ~ Release + Upland + Migr + Mass"                

6 "Status ~ Release + Upland + Migr + Mass + Indiv"        

7 "Status ~ Release + Upland + Migr + Mass + Indiv + Insect"

8 "Status ~ Upland + Migr + Mass + Indiv + Insect"         

9 "Status ~ Upland + Migr + Mass + Indiv + Insect + Wood"  

 

$Fit.criteria

  Rank Df.res   AIC  AICc   BIC McFadden Cox.and.Snell Nagelkerke   p.value

1    1     66 94.34 94.53 98.75   0.0000        0.0000     0.0000       Inf

2    2     65 62.13 62.51 68.74   0.3787        0.3999     0.5401 2.538e-09

3    3     64 56.02 56.67 64.84   0.4684        0.4683     0.6325 3.232e-10

4    4     63 51.63 52.61 62.65   0.5392        0.5167     0.6979 7.363e-11

5    5     62 50.64 52.04 63.87   0.5723        0.5377     0.7263 7.672e-11

6    6     61 49.07 50.97 64.50   0.6118        0.5618     0.7588 5.434e-11

7    7     60 46.42 48.90 64.05   0.6633        0.5912     0.7985 2.177e-11

8    6     61 44.71 46.61 60.14   0.6601        0.5894     0.7961 6.885e-12

9    7     60 44.03 46.51 61.67   0.6897        0.6055     0.8178 7.148e-12


Analysis of Deviance Table

 

Model 1: Status ~ 1

Model 2: Status ~ Release

Model 3: Status ~ Release + Upland

Model 4: Status ~ Release + Upland + Migr

Model 5: Status ~ Release + Upland + Migr + Mass

Model 6: Status ~ Release + Upland + Migr + Mass + Indiv

Model 7: Status ~ Release + Upland + Migr + Mass + Indiv + Insect

Model 8: Status ~ Upland + Migr + Mass + Indiv + Insect

Model 9: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood

 

  Resid. Df Resid. Dev Df Deviance Pr(>Chi)   

1        66     90.343                        

2        65     56.130  1   34.213 4.94e-09 ***

3        64     48.024  1    8.106 0.004412 **

4        63     41.631  1    6.393 0.011458 * 

5        62     38.643  1    2.988 0.083872 . 

6        61     35.070  1    3.573 0.058721 . 

7        60     30.415  1    4.655 0.030970 * 

8        61     30.710 -1   -0.295 0.587066   

9        60     28.031  1    2.679 0.101686

 

 


最受欢迎的见解

1.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言多元Logistic逻辑回归 应用案例

3.R语言面板平滑转移回归(PSTR)分析案例实现

4.R语言回归中的Hosmer-Lemeshow拟合优度检验

5.R语言泊松Poisson回归模型分析案例

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

8.在R语言中实现Logistic逻辑回归

9.R语言实现向量自回归VAR模型

 

标签:Status,Migr,模型,多元,案例,num,Logistic,Upland,Data
From: https://www.cnblogs.com/tecdat/p/18124522

相关文章

  • 3.类与对象(中篇)介绍了类的6个默认构造函数,列举了相关案例,实现了一个日期类
    1.类的6个默认成员函数如果一个类中什么成员都没有,简称为空类。空类中真的什么都没有吗?并不是,任何类在什么都不写时,编译器会自动生成以下6个默认成员函数。默认成员函数:用户没有显式实现,编译器会生成的成员函数称为默认成员函数。默认成员函数是一种特殊成员函数:​......
  • 使用Stream流分组求和案例
    需求:现有一个User对象,包含有用户名username,性别sex,年龄age,考试分数score。现在需要对UserList,相同用户名和性别和年龄的人将他们的学科分数相加,算出总分思路:先将userList转换为Map,key为User对象Map<String,List<User>>collect=userList.stream().collect(......
  • 【交换机】华三交换机操作案例
     一、H3C交换机的基础配置1.创建VLAN:(可根据需求设置vlan)system-view//进入配置视图vlan20//创建vlan20,并进入vlan20配置视图quit//退出此设置2.将端口加入到VLAN中:(单个)interfaceGigabitEthernet1/0/49//进入此端口(此命令可简写:intg1/0/49)port......
  • 深入理解 WebSocket:实时双向通信的核心技术(python案例)
    引言WebSocket是一种在Web开发中广泛使用的通信协议,它提供了一种实时、双向的通信机制,允许客户端和服务器之间建立持久连接,实现高效的实时数据传输。本文将深入探讨WebSocket的工作原理、优势、应用场景以及使用示例,帮助读者全面了解WebSocket技术。什么是WebSocket?......
  • 用vue.js写案例——ToDoList待办事项 (步骤和全码解析)
     目录 一.准备工作二.编写各个组件的页面结构三.实现初始任务列表的渲染四.新增任务五.删除任务六.展示未完成条数七.切换状态-筛选数据八.待办事项(全)代码 一.准备工作在开发“ToDoList”案例之前,需要先完成一些准备工作,包括创建项目、引入BootStrap样式文......
  • 交换机的基本原理与配置_实验案例二:交换机的基本配置
    1、实验环境如图5.18所示、两台交换机互连,并与四台计算机连接在一起,设备之间接口的连接情况如表5-4所示。图5-18实验案例二示意图表5-4设备之间接口的连接情况设备接口接口设备SW1Fa0/24<————>Fa0/24SW2SW1Fa0/1<————>主机ASW1Fa0/2<————>主机BSW2Fa0/1<......
  • 贝叶斯线性回归和多元线性回归构建工资预测模型|附代码数据
    原文链接:http://tecdat.cn/?p=21641最近我们被客户要求撰写关于贝叶斯线性回归的研究报告,包括一些图形和统计输出。在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解工资模型在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶......
  • 词云图案例
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>词云图</title><scripttype="text/javascript"src="js/echarts.js"></script><......
  • koa下mysql连接池案例
    下面是一个简单的示例,演示了如何在Koa应用程序中使用MySQL连接池:constKoa=require('koa');constRouter=require('koa-router');constmysql=require('mysql');constapp=newKoa();constrouter=newRouter();//创建MySQL连接池constpool=mysql.cre......
  • 51单片机小案例02
    1.矩阵键盘        思路:根据以下图的不同口,以竖列返回各个按键的值,然后根据返回的值打印在显示屏上MatrixKey.c文件#include"public.h"#include<REGX52.H>#include"MatrixKey.h"unsignedcharMatrixKey(){ unsignedcharKeyNumber=0; P1=0xFF; P1_3=......