首页 > 其他分享 >matlab用Logistic逻辑回归建模和马尔可夫链蒙特卡罗MCMC方法分析汽车实验数据

matlab用Logistic逻辑回归建模和马尔可夫链蒙特卡罗MCMC方法分析汽车实验数据

时间:2023-11-06 16:47:44浏览次数:48  
标签:后验 模型 样本 贝叶斯 html 参数 matlab Logistic MCMC

原文链接:http://tecdat.cn/?p=24103

原文出处:拓端数据部落公众号

 

此示例说明如何使用逻辑回归模型进行贝叶斯推断。

统计推断通常基于最大似然估计 (MLE)。MLE 选择能够使数据似然最大化的参数,是一种较为自然的方法。在 MLE 中,假定参数是未知但固定的数值,并在一定的置信度下进行计算。在贝叶斯统计中,使用概率来量化未知参数的不确定性,因而未知参数被视为随机变量。

贝叶斯推断

贝叶斯推断是结合有关模型或模型参数的先验知识来分析统计模型的过程。这种推断的根基是贝叶斯定理:

例如,假设我们有正态观测值

其中 sigma 是已知的,theta 的先验分布为

在此公式中,mu 和 tau(有时也称为超参数)也是已知的。如果观察 X 的 n 个样本,我们可以获得 theta 的后验分布

下图显示 theta 的先验、似然和后验。

  html

y = norpdf(thta, posMan,psSD);
plot(theta'-', theta,'--', theta,'-.')

 

汽车实验数据

在一些简单的问题中,例如前面的正态均值推断示例,很容易计算出封闭形式的后验分布。但是,在涉及非共轭先验的一般问题中,后验分布很难或不可能通过分析来进行计算。我们将以逻辑回归作为示例。此示例包含一个实验,以帮助建模不同重量的汽车在里程测试中的未通过比例。数据包括被测汽车的重量、汽车数量以及失败次数等观测值。我们采用一组经过变换的重量,以减少回归参数估值的相关性。

  html
% 一组汽车的重量
% 每个重量下测试的汽车数量
[48 42 31 34 31 21 23 23 21 16 17 21]';
% 在每个重量上有不良mpg表现的汽车数量
[1 2 0 3 8 8 14 17 19 15 17 21]';

逻辑回归模型

逻辑回归(广义线性模型的一种特例)适合这些数据,因为因变量呈二项分布。逻辑回归模型可以写作:

$$P(\mathrm{failure}) = \frac{e^{Xb}}{1+e^{Xb}}$$

其中 X 是设计矩阵,b 是包含模型参数的向量。我们可以将此方程写作:

  html
 @(b,x) exp(b(1)+b(2).*x)./(1+exp(b(1)+b(2).*x));

如果您有一些先验知识或者已经具备某些非信息性先验,则可以指定模型参数的先验概率分布。例如,在此示例中,我们使用正态先验值表示截距 b1 和斜率 b2,即

  html
@(b1) normpdf(b1,0,20); % 截距的先验。
@(b2) normpdf(b2,0,20); % 斜率的先验。

根据贝叶斯定理,模型参数的联合后验分布与似然和先验的乘积成正比。

请注意,此模型中后验的归一化常数很难进行分析。但是,即使不知道归一化常数,如果您知道模型参数的大致范围,也可以可视化后验分布。

  html

msh(b2,b1,sipot)
view(-10,30)

此后验沿参数空间的对角线伸长,表明(在我们观察数据后)我们认为参数是相关的。这很有意思,因为在我们收集任何数据之前,我们假设它们是独立的。相关性来自我们的先验分布与似然函数的组合。

切片采样

蒙特卡罗方法常用于在贝叶斯数据分析中汇总后验分布。其想法是,即使您不能通过分析的方式计算后验分布,也可以从分布中生成随机样本,并使用这些随机值来估计后验分布或推断的统计量,如后验均值、中位数、标准差等。切片采样是一种算法,用于从具有任意密度函数的分布中进行抽样,已知项最多只有一个比例常数 - 而这正是从归一化常数未知的复杂后验分布中抽样所需要的。此算法不生成独立样本,而是生成马尔可夫序列,其平稳分布就是目标分布。因此,切片抽样器是一种马尔可夫链蒙特卡罗 (MCMC) 算法。但是,它与其他众所周知的 MCMC 算法不同,因为只需要指定缩放的后验,不需要建议分布或边缘分布。

此示例说明如何使用切片抽样器作为里程测试逻辑回归模型的贝叶斯分析的一部分,包括从模型参数的后验分布生成随机样本、分析抽样器的输出,以及对模型参数进行推断。第一步是生成随机样本。

  html
 sliesmle(inial,nsapes,'pdf');

采样器输出分析

从切片采样获取随机样本后,很重要的一点是研究诸如收敛和混合之类的问题,以确定将样本视为是来自目标后验分布的一组随机实现是否合理。观察边缘轨迹图是检查输出的最简单方法。

  html

plot(trace(:,1))

从这些图中可以明显看出,在处理过程趋于平稳之前,参数起始值的影响会维持一段时间(大约 50 个样本)才会消失。

检查收敛以使用移动窗口计算统计量(例如样本的均值、中位数或标准差)也很有帮助。这样可以产生比原始样本轨迹更平滑的图,并且更容易识别和理解任何非平稳性。

  html
mvag = fier( (1/50)*os(50,1), 1, tace);
plot(moav(:,1))

由于这些是基于包含 50 次迭代的窗口计算的移动平均值,因此前 50 个值无法与图中的其他值进行比较。然而,每个图的其他值似乎证实参数后验均值在 100 次左右迭代后收敛至平稳分布。同样显而易见的是,这两个参数彼此相关,与之前的后验密度图一致。

由于磨合期代表目标分布中不能合理视为随机实现的样本,因此不建议使用切片采样器一开始输出的前 50 个左右的值。您可以简单地删除这些输出行,但也可以指定一个“预热”期。在已知合适的预热长度(可能来自先前的运行)时,这种方式很简便。

  html
slcsapl(inial,nsmes,'pf',pot, ..'brin',50);
plot(trace(:,1))

这些跟踪图没有显示出任何不平稳,表明预热期已完成。

但是,还需要了解跟踪图的另一方面。虽然截距的轨迹看起来像高频噪声,但斜率的轨迹好像具有低频分量,表明相邻迭代的值之间存在自相关。虽然也可以从这个自相关样本计算均值,但我们通常会通过删除样本中的冗余数据这一简便的操作来降低存储要求。如果它同时消除了自相关,我们还可以将这些数据视为独立值样本。例如,您可以通过只保留第 10 个、第 20 个、第 30 个等值来稀释样本。

  html
sceampe(...
                                                'brin'50,'tin',10);

要检查这种稀释的效果,可以根据轨迹估计样本自相关函数,并使用它们来检查样本是否快速混合。

  html
 fftetendtrce,'cnsant');
 F .* coj(F);


for i = 1:2
   lineles =  stem(:20, F(:i)  'filled' , 'o');

第一个滞后的自相关值对于截距参数很明显,对于斜率参数更是如此。我们可以使用更大的稀释参数重复抽样,以进一步降低相关性。但为了完成本示例的目的,我们将继续使用当前样本。

推断模型参数

与预期相符,样本直方图模拟了后验密度图。

  html
hist(rce,[25,25]);

view(-10,30)

您可以使用直方图或核平滑密度估计值来总结后验样本的边缘分布属性。

  html

kdeiy(rae(:2))

您还可以计算描述性统计量,例如随机样本的后验均值或百分位数。为了确定样本大小是否足以实现所需的精度,将所需的轨迹统计量作为样本数的函数来进行查看会很有帮助。

  html
csu= csm(rae);

plot(csm(:,1)'./(1:sals))

在这种情况下,样本大小 1000 似乎足以为后验均值估计值提供良好的精度。

  html
mean(te)

总结

您能够轻松地指定似然和先验。您也可以将它们结合起来用于推断后验分布。您可以通过马尔可夫链蒙特卡罗仿真在 MATLAB 中执行贝叶斯分析。


最受欢迎的见解

1.matlab使用贝叶斯优化的深度学习

2.matlab贝叶斯隐马尔可夫hmm模型实现

3.R语言Gibbs抽样的贝叶斯简单线性回归仿真

4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

5.R语言中的Stan概率编程MCMC采样的贝叶斯模型

6.Python用PyMC3实现贝叶斯线性回归模型

7.R语言使用贝叶斯 层次模型进行空间数据分析

8.R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型

9.matlab贝叶斯隐马尔可夫hmm模型实现

标签:后验,模型,样本,贝叶斯,html,参数,matlab,Logistic,MCMC
From: https://www.cnblogs.com/tecdat/p/17813084.html

相关文章

  • Matlab 2023a图文安装教程及下载
    MATLAB是由美国MathWorks公司出品的专业数学软件,用于算法开发,数据可视化,数据分析以及数值计算的高级技术计算语言和交互式环境,MATLAB是矩阵和实验室两个词的组合,意为矩阵工厂(矩阵实验室),主要包括MATLAB和Simulink两大部分。它将数值分析,矩阵计算,科学数据可视化以及非线性动态系统的......
  • 基于FPGA的Lorenz混沌系统verilog开发,含testbench和matlab辅助测试程序
    1.算法运行效果图预览   将vivado的仿真结果导入到matlab显示三维混沌效果:    2.算法运行软件版本vivado2019.2 matlab2022a 3.算法理论概述      洛伦兹混沌系统是一种非线性动力系统,最初由爱德华·洛伦兹(EdwardLorenz)于1963年引入,它的简单方......
  • m基于5G通信的超密集网络多连接负载均衡和资源分配算法matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要5G模型的基本结构如下所示:超密集网络是5G通信系统中的重要技术,是现在通信界的研究热点。系统中的每个小小区都是正交频分多址系统,共有TV个小小区,每个小小区使用个OFDMA子载波,信道增益为G。根据其结构图可知,当......
  • m基于5G通信的超密集网络多连接负载均衡和资源分配算法matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:    2.算法涉及理论知识概要        5G模型的基本结构如下所示:          超密集网络是5G通信系统中的重要技术,是现在通信界的研究热点。系统中的每个小小区都是正交频分多址系统,共有TV个小小区,每个小......
  • 线性代数 · 矩阵 · Matlab | 满秩分解代码实现
    背景-矩阵的满秩分解:若A为m×n矩阵,rank(A)=r,则存在Fm×r、Gr×n,使得A=FG。其中,F列满秩,G行满秩。求满秩分解的方法:得到A的行最简形式B;对于B里某列为1该列中其他元素为零的列,取A的对应列,组成F;取B的前r行组成G。function[F,G]=fullra......
  • MATLAB-字符串处理
    ✅作者简介:热爱科研的算法开发者,Python、Matlab项目可交流、沟通、学习。......
  • 基于MATLAB的单级倒立摆仿真(转)
    有关代码及word文档请关注公众号“挽风笔谈”,后台回复A010.02即可获取一、单级倒立摆概述倒立摆是处于倒置不稳定状态,人为控制使其处于动态平衡的一种摆,是一类典型的快速、多变量、非线性、强耦合、自然不稳定系统。由于在实际中存在很多类似的系统,因此对它的研究在理论上和......
  • 基于MATLAB的单级倒立摆仿真
    有关代码及word文档请关注公众号“挽风笔谈”,后台回复A010.02即可获取一、单级倒立摆概述倒立摆是处于倒置不稳定状态,人为控制使其处于动态平衡的一种摆,是一类典型的快速、多变量、非线性、强耦合、自然不稳定系统。由于在实际中存在很多类似的系统,因此对它的研究在理论上和......
  • 基于matlab的lorenz混沌系统仿真与分析
    1.算法运行效果图预览  2.算法运行软件版本matlab2022a 3.算法理论概述      洛伦兹混沌系统是一种非线性动力系统,最初由爱德华·洛伦兹(EdwardLorenz)于1963年引入,它的简单方程组引发了混沌理论的开创性研究。该系统是混沌现象的典型范例,展示了复杂、不可预......
  • HPO-ELM猎食者算法优化极限学习机的数据回归预测 可直接运行 预测效果好 Matlab~
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,代码获取、论文复现及科研仿真合作可私信。......