首页 > 其他分享 >R语言非线性回归和广义线性模型:泊松回归、伽马回归、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂锻炼钠摄入数据

R语言非线性回归和广义线性模型:泊松回归、伽马回归、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂锻炼钠摄入数据

时间:2023-09-28 16:25:25浏览次数:42  
标签:泊松 clam glm 回归 补剂 拟合 我们

全文链接:https://tecdat.cn/?p=33781

原文出处:拓端数据部落公众号

我们使用广义线性模型(Generalized Linear Models,简称GLM)来研究客户的非正态数据,并探索非线性关系。GLM是一种灵活的统计模型,适用于各种数据类型和分布,包括二项分布、泊松分布和负二项分布等非正态分布。通过GLM,我们可以对非正态数据进行建模和预测,并且能够处理计数数据,如客户购买数量、网站点击次数等。GLM还允许引入自变量的非线性效应,从而更好地拟合与响应变量之间的复杂关系。这使得GLM成为处理非正态数据和非线性关系的强大工具。

泊松回归和伽马回归 - 探索联系

如果我们查看火车与机动车碰撞数据,我们会发现一个有趣的模式。

   
library(readr)
......

train <- read_csv("s_agresti.csv")

train_plot <- ggplot(train,
   ......

image.png

仅仅通过观察,我们就可以看出方差随预测变量而变化。此外,我们处理的是计数数据,它具有自己的分布,即泊松分布。然而,如果我们坚持使用lm进行分析会怎样呢?

   
train_lm <-......odel(train_lm)

image.png

预测值和观测值之间不匹配。部分原因是这里的响应变量在残差中不是正态分布的,而是泊松分布,因为它是计数数据。

泊松回归

具有泊松误差的广义线性模型通常具有对数链接,尽管也可以具有恒等链接。例如,

   
pois_tib <- tibble(x = rep(0:40,2),
            ......
  geom_col(position = position_dodge())

image.png

上面显示了两个泊松分布,一个均值为5,另一个均值为20。请注意它们的方差如何变化。

对数链接(例如ŷ=ea+bx̂=eβ+αx)是一个自然的拟合方法,因为它不能得到小于0的值。因此,在这种情况下,我们可以这样做:

   
train_glm <- glm(collisions ~ km_trtravel, 
           ......

然后,我们可以重新评估模型的假设,包括过分离。请注意,下面的QQ图并没有什么实际意义,因为这不是正态分布。

   
check_model(train_glm)

image.png

那么...残差怎么办呢?鉴于残差不是正态分布的,使用qqnorm图几乎没有意义。拟合残差关系仍然可能看起来很奇怪。

使用广义线性模型的分位数残差

评估广义线性模型(以及许多其他模型形式)的一种方法是查看其分位数残差。 因此,首先让我们使用DHARMa生成一些模拟残差。

   

res <- simulateResiduals(train_glm)

我们可以绘制这些图表,并进行非参数拟合检验。

   
plotQQunif(res)

image.png

很好,拟合效果不错。忽略异常值测试,因为在更详细的观察中我们发现没有异常值。

我们还可以查看预测与量化残差图。

   
plotResiduals(res)

image.png

   
check_overdispersion(train_glm) |> plot()
   
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

image.png

查看glm结果

让我们来看看模型结果。

   
summary(train_glm)

image.png

注意,在这里我们看到了标准的glm输出,我们可以像处理任何对数变换一样解释系数。我们还有一个离散参数,描述了均值和方差之间的关系。对于泊松分布,它的值为1。

最后,我们可以绘图。

   
train_plot +
......"log")))

image.png

image.png

Gamma回归

然而,我们的数据通常不是离散的。考虑来自Zuur的蛤蜊数据。

   
clams <- read_delim("ams.txt", delim = "\t") %>%
  mutate(MONTH = factor(MONTH))

AFD(无灰干质量)与月份和长度有什么关系?显然这里存在非线性关系。

   
clam_plot <- ggplot(clams,
      ......

clam_plot

image.png

现在,看起来我们应该用对数变换的模型进行拟合,但是…

   
clam_lm <- lm(log(......

image.png

显然存在明显的问题。即使对AFD取对数后的qq图也不好,残差拟合图也不好。Gamma glm采用其逆函数作为其规范连接,但它们通常也可以使用对数连接。

   
clam_gamma <- glm(AFD ~ ......
                  data = clams)
   
check_model(clam_gamma)

image.png

还有

   
clam_res <- simulateR......res)

image.png

   
ploals(clam_res)

image.png

好的,也许不是很好。但这主要是由于高值的稀疏性导致的,所以没关系。

我们可以使用predict进行绘图,在这里分别绘制每个月的图。

   
clam_plot +......
  facet_wrap(~MONTH)

image.png

我们还可以查看其他属性。

image.png

   
summary(clam_gamma)

image.png

我们可以重新参数化伽马分布,使得均值=形状/速率。在这种情况下,我们使用该均值和形状参数化伽马分布。离散参数是1/形状。

但是,为了更容易理解,伽马的方差随均值的平方成比例地扩展。离散参数越大,方差扩展得越快。

最后,我们可以使用纳吉尔克计的伪R2来计算R2。

   
# fit
r2(clam_gamma)

image.png

这是正态的吗?

你可能会问为什么这里使用伽马分布而不是正态分布?我们可以用正态误差和对数链接进行glm拟合。

   
clam_glm_norm <- glm(AFD ......
                     data = clams)

一种判断的方法是寻找过离散。

   
norm_res <- simulateRe......orm_res)

image.png

   
plotuals(norm_res)

image.png

我们可以看到QQ图很好。而且predobs也不糟糕(特别是与上面相比)。这是一些很好的证据,表明这里可能只需要正态误差和对数链接。

逻辑回归

让我们来看看我们的小鼠感染隐孢子虫的例子。请注意,数据被限制在0和1之间。

   
mouse <- read_csv...... Porportion)) +
  geom_point()

mouse_plot

image.png

这是因为虽然N是每个样本的总小鼠数量,但是我们不能有超过N的感染!实际上,每只老鼠就像一次抛硬币。它是否被感染了。

二项分布

二项分布有两个参数,成功的概率和硬币投掷的次数。得到的分布始终介于0和1之间。考虑使用不同概率进行15次硬币投掷的情况。

  R
bin_tibble <- tibble(outcome = rep(0:15, 2),......
  geom_col(position = position_dodge())

image.png

我们也可以将x轴的范围调整为0到1,来表示比例。

或者,考虑相同的概率,但是不同次数的硬币投掷。

  R
bin_tibble <- tibble(outcome = rep(0:15, 2),......
  geom_col(position = position_dodge())

image.png

你可以看到两个参数都会影响分布的形状。

二项式逻辑回归

在二项逻辑回归中,我们主要是估计获得正面的概率。然后我们以权重的形式提供(而不是估计)试验次数。这里使用的典型链接函数是logit函数,因为它描述了一个在0和1之间饱和的逻辑函数。

在R中,我们可以使用两种形式来参数化二项逻辑回归 - 这两种形式是等价的,因为它们将结果扩展为成功次数和总试验次数。

  R
mouse_glm_cbind <- glm(cbind(Y,......
                 data = mouse)

第二种方式使用权重来表示试验次数。

  R
mouse_glm <- glm(Porport......
                 data = mouse)

这两个模型是相同的。

从这一点开始,工作流程与以往一样 - 假设检验、分析和可视化。

  R
checl(mouse_glm)

image.png

  R
binduals(mouse_glm, ......

下载 (2).png

  R
res_bin <- sim......

image.png

  R
plotRes_bin)

image.png

  R
summary(moglm)

image.png

  R
r2(mouse_glm)

image.png

注意,离散参数为1,就像泊松分布一样。

  R
ggplot(mouse,
     ......
              method.args = list(family = binomial))

image.png

Beta回归

最后,我们经常会遇到受限数据,但这些数据不是从二项式分布中抽取的 - 也就是说,并不存在独立的“硬币翻转”,如果你愿意的话。

考虑以下关于服用不同补充剂时锻炼后钠摄入比例的分析,2300是推荐摄入量,所以我们将其标准化为这个值。

  R
sodium <- read_csv("laake.csv")
  R
ggplot(sodium,
 ......
  geom_boxplot()

image.png

现在,让我们使用Beta回归来观察这个结果。

  R

sodium_beta <- beta......
                       data = sodium)
  R
soditmb <- glmmTMB(Porport......
                       data = sodium)
chec......a_tmb)

image.png

  R
plotQQunif(sodium_beta_tmb)  

image.png

然后我们可以继续进行所有我们通常的测试和可视化。例如 -

  R
emmeans(sodium_b......
  confint(adjust = "none")

image.png

如果我们有一个连续的协变量,我们可以获得拟合值和误差,并将它们放入模型中。


commercial-underwriting-1398340167-ca-thumb-1536x1536.webp

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

标签:泊松,clam,glm,回归,补剂,拟合,我们
From: https://www.cnblogs.com/tecdat/p/17736024.html

相关文章

  • R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证|附代码数据
    全文链接:http://tecdat.cn/?p=32295原文出处:拓端数据部落公众号临床决策(clinical decision making)是医务人员在临床实践过程中,根据国内外医学科研的最新进展,不断提出新方案,与传统方案进行比较后,取其最优者付诸实施,从而提高疾病诊治水平的过程。在临床医疗实践中,许多事件......
  • 大秀焕新回归,更懂女性的维密再提速
    文|螳螂观察作者|易不二维密的转型之路已经渐入佳境。继维密CEO马丁·沃特斯将2023年第一季度财报中国市场的扭亏为盈,评为“一个特别的亮点”之后,维密又重启了维密秀。在放出超模回归的TheIcon广告大片,做足了预热工作之后,暂停了4年之久的维密大秀,终于以影片《Victoria’sSec......
  • R语言用普通最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类|附代码数
    原文链接:http://tecdat.cn/?p=21379 原文出处:拓端数据部落公众号 最近我们被客户要求撰写关于回归的研究报告,包括一些图形和统计输出。本文我们对逻辑回归和样条曲线进行介绍。logistic回归基于以下假设:给定协变量x,Y具有伯努利分布,  目的是估计参数β。回想一下,针对该......
  • pytorch(3-2) 多层 线性回归 训练和预测代码
     脱离网页化python没有可视化    #%matplotlibinlineimporttorchimporttorchvisionfromtorch.utilsimportdatafromtorchvisionimporttransformsfromd2limporttorchasd2l#通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,#并除以2......
  • 本地测试Spark的逻辑回归算法
    本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法,效果不尽如人意。    数据样例如下,竖杠前的0,1代表两种类型,后面逗号隔开的是两个特征,两个特征只要有一个大于等于0.6就会被分为1这一类,否则就是0。1|0.3,0.60|0.2,0.11|0.5,0.61|0.8,0.30|0.4,0.30|0.3,0.......
  • R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化
    全文链接:https://tecdat.cn/?p=33760原文出处:拓端数据部落公众号概述:众所周知,心脏疾病是目前全球最主要的死因。开发一个能够预测患者心脏疾病存在的计算系统将显著降低死亡率并大幅降低医疗保健成本。机器学习在全球许多领域中被广泛应用,尤其在医疗行业中越来越受欢迎。机器......
  • R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归|附代码数据
    全文链接:http://tecdat.cn/?p=11617最近我们被客户要求撰写关于blockGibbs吉布斯采样的研究报告,包括一些图形和统计输出。在这篇文章中,我将对多元线性回归使用block的Gibbs采样,得出block的Gibbs采样所需的条件后验分布。然后,对采样器进行编码,并使用模拟数据对其进行测试 ( 点......
  • R语言Gibbs抽样的贝叶斯简单线性回归仿真分析|附代码数据
    全文下载链接:http://tecdat.cn/?p=4612最近我们被客户要求撰写关于贝叶斯简单线性回归的研究报告,包括一些图形和统计输出。贝叶斯分析的许多介绍都使用了相对简单的教学实例(例如,根据伯努利数据给出成功概率的推理)。虽然这很好地介绍了贝叶斯原理,但是这些原则的扩展并不是直截了......
  • 【监督学习:线性回归和分类】3.分类
    逻辑回归分类问题假设预测的变量y是离散的值,需要使用逻辑回归(LogisticRegression,LR)的算法,实际上它是一种分类算法。二元分类二元分类问题是指y只有两个离散值的情况,例如:垃圾邮件分类:y=1表示是垃圾邮件,y=0表示不是垃圾邮件癌症检测:y=1表示患有癌症,y=0表示没有癌症假说表......
  • 二项概率公式的泊松逼近证明
    泊松定理内容设实验\(E\)是由实验\(E_0\)形成的n重伯努利概型,\(A\)和\(\overline{A}\)是\(E_0\)的事件,\(P(A)=p_n\),\(P(\overline{A})=1-p_n=q_n(0<p_n<1)\)则当\(n\rightarrow+\infty且\lambda_n=np_n\rightarrow\lambda(\lambda>0为常数)\)时,事件A发生k(k为非负整数)次的......