首页 > 编程语言 >Python贝叶斯回归分析住房负担能力数据集|附代码数据

Python贝叶斯回归分析住房负担能力数据集|附代码数据

时间:2024-03-01 21:38:05浏览次数:29  
标签:采样 Metropolis 语言 Python 回归 贝叶斯 数据 模型

原文链接:http://tecdat.cn/?p=11664

最近我们被客户要求撰写关于贝叶斯回归的研究报告,包括一些图形和统计输出。

我想研究如何使用pymc3在贝叶斯框架内进行线性回归。根据从数据中学到的知识进行推断

图片

 贝叶斯规则是什么? 

本质上,我们必须将已经知道的知识与世界上的事实相结合。

这里有一个例子。

假设存在这种罕见疾病,每10,000人中就有1人随机感染这种疾病。换句话说,有0.01%的机会患上这种疾病。幸运的是,有一项测试可以99%的正确识别出患有这种疾病的人,如果没有这种疾病,它也可以正确地说出您99%没有患这种疾病。您参加了测试,结果为阳性。您有多少几率实际患上该病?

好吧,让我们从逻辑上考虑一下。我们知道,每10,000人中就有1人患此病。假设有10,000人。他们中的9,999人没有疾病,但其中1%的人会得到阳性结果。因此,即使只有1人实际患有这种疾病,也有约101人获得了阳性结果。这意味着即使结果为阳性,您也只有101分之一的几率实际患上该病(或大约1%的几率)。

数学描述  :

图片

看起来很简单。实际上,这很简单。该公式仅需要一些概率分布的知识。但是实际上,右边的分母通常意味着我们将要计算很多真正的计算重积分。因此,贝叶斯统计被放弃了很多年。从某种意义上讲,它自然而然地脱离了概率论。如果我们只有擅长计算大量数字的东西,那么这类问题就可以解决。

计算机确实非常快地进行计算贝叶斯回归。

代码

这是进行贝叶斯回归所需的知识。通常,我们想到这样的回归:

图片

e是正态分布的误差。 

因此,我们假设:

图片

与先验:

图片

因此,如果我们拥有X和Y的数据,则可以进行贝叶斯线性回归。

 代码 

我们要使用的数据集是《  住房调查:2013年住房负担能力数据 》数据集。 

我们感兴趣的是住房负担如何随着年龄而变化。AGE1包含户主的年龄。BURDEN是一个变量,它告诉我们住房费用相对于收入有多大。为简单起见,我们仅关注这两个变量。我们想知道的是,随着年龄的增长,住房负担会变得更容易吗?特别是,我们想知道斜率系数是否为负,并且由于我们处于贝叶斯框架中,因此该概率为负的概率是多少?

因此,我们将导入所需的库和数据。进行一些数据清理。

   
df=pd.read_csv('2013n.txt',sep=',')
df=df[df['BURDEN']>0]
df=df[df['AGE1']>0]

现在,让我们构建上面讨论的模型。让我们做一个散点图,看看数据是什么样子。

   
plt.scatter(df['AGE1'],df['BURDEN'])
plt.show()

结果如下:

图片


点击标题查阅往期内容

图片

R语言用贝叶斯层次模型进行空间数据分析

图片

左右滑动查看更多

图片

01

图片

02

图片

03

图片

04

图片

住房负担很容易超过收入的10倍。

这是构建和运行模型的代码:

   
pm.traceplot(trace)
plt.show()

**看起来与我们上面的模型完全一样,不同之处在于我们还有一个正态分布的截距beta。现在我们的模型已经训练好了,我们可以继续做一些推论工作。
**

完成运行后,会看到类似以下内容:

图片

可以看到,我们有斜率和截距的后验分布以及回归的标准偏差。

**住房负担会随着年龄的增长而减少吗?
**

是的。随着人们的建立,他们的住房成本将相对于收入下降。这将等于年龄变量的负斜率系数。运行以下代码,则可以找出斜率系数为负的确切概率。

   
print(np.mean([1 if obj<0 else 0 for obj in trace['x']]))

该系数为负的概率约为13.8%。

图片

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《Python贝叶斯回归分析住房负担能力数据集》。

点击标题查阅往期内容

课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例
R语言Gibbs抽样的贝叶斯简单线性回归仿真分析
python贝叶斯随机过程:马尔可夫链Markov-Chain,MC和Metropolis-Hastings,MH采样算法可视化
Python贝叶斯推断Metropolis-Hastings(M-H)MCMC采样算法的实现
Metropolis Hastings采样和贝叶斯泊松回归Poisson模型
Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析
R语言Metropolis Hastings采样和贝叶斯泊松回归Poisson模型
R语言贝叶斯MCMC:用rstan建立线性回归模型分析汽车数据和可视化诊断
R语言贝叶斯MCMC:GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例
R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数
R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归
Python贝叶斯回归分析住房负担能力数据集
R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析
Python用PyMC3实现贝叶斯线性回归模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言Gibbs抽样的贝叶斯简单线性回归仿真分析
R语言和STAN,JAGS:用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言贝叶斯线性回归和多元线性回归构建工资预测模型
R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例
R语言stan进行基于贝叶斯推断的回归模型
R语言中RStan贝叶斯层次模型分析示例
R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化
R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较
R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样
R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例
R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化
视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型
R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计

标签:采样,Metropolis,语言,Python,回归,贝叶斯,数据,模型
From: https://www.cnblogs.com/tecdat/p/18047980

相关文章

  • 【专题】中国智能汽车产业发展与展望报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=34111随着新一轮技术革命和产业变革的推动,以及国家政策的大力扶持,电动化、智能化、网联化已经成为汽车行业发展的新趋势。在这种背景下,各大企业纷纷争夺数字化人才,以推动产品的规模化落地和商业化创新应用。阅读原文,获取专题报告合集全文,解锁文末53......
  • 用SPSS估计HLM多层(层次)线性模型模型|附代码数据
    原文链接:http://tecdat.cn/?p=3230作为第一步,从一个不包含协变量的空模型开始 ( 点击文末“阅读原文”获取完整代码数据******** )。每所学校的截距,β0J,然后设置为平均,γ00,和随机误差ü0J。将(2)代入(1)产生要在SPSS中进行估算,请转至分析→混合模型→线性...相关视频**......
  • R语言建立和可视化混合效应模型mixed effect model|附代码数据
    全文下载链接:http://tecdat.cn/?p=20631最近我们被客户要求撰写关于混合效应模型的研究报告,包括一些图形和统计输出我们已经学习了如何处理混合效应模型。本文的重点是如何建立和_可视化_ 混合效应模型的结果设置本文使用数据集,用于探索草食动物种群对珊瑚覆盖的影响。 ......
  • 【专题】2024中国ESG消费报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=35253原文出处:拓端数据部落公众号消费者展现出了既有不变的坚持也有变化的需求。他们一直期望企业或品牌能够通过可持续产品与他们进行价值对话,例如产品配方的环境友好性、包装更新对生态利益的照顾以及循环再造的可能性等。这些具有可持续价值的......
  • Spectrum Digitizer NETBOX|LXI数据采集|瞬态记录仪
    产品简介:♦DigitizerNETBOX配有4/8通道♦512MSamples(1GB)采集内存♦或16通道2×512MSamples采集内存Ethernet/LXI接口,16位数字化仪,单端/真正差分输入更多信息请加weixin-pt890111获取数字化仪硬件在DigitizerNETBOX内部安装已经被成功证明了的Spectrum数字化仪的硬件部......
  • 数据集格式汇总
    2Luo'sdatasetLuo'sdataset数据集是在DTINet模型论文中提出并构建出来的,下载地址从公共数据集中收集了代表不同药物相关信息的四种类型的节点和六种类型的边,并用于构建DTI预测任务的异构网络。构建的异构网络中,共包括12015个节点和1895445条边。具体该数据集内文件目录如下......
  • Spectrum PXIe高速数据采集卡M4x.22xx-x4
    产品简介:♦PXIe×4Gen2接口♦独立ADC的双通道或者四通道♦4通道,1.25GS/s;1通道,5GS/s♦8bit数字化仪更多信息请加weixin-pt890111获取技术指标: 超高速PXIex4Gen2接口1通道,5GSS/s采样率;2通道,2.5GSS/s采样率;4通道,1.25GSS/s采样率;每通道独立ADC和放大器4个输......
  • Spectrum 模拟数据采集卡--M2p.59xx-x4 多达8通道同步采集,5M~125MSPS 采样率,16bit
    M2p.59xx-x4-高达125MS/s的16位数字转换器 该卡512MSample板载内存,并支持standard采集、FIFO采集、门采样,ABA等多种采集模式和时间戳。支持Windows/Linux32位和64位的操作系统驱动程序,支持C/C++,LabVIEW(Windows),MATLAB(Windows和Linux),LabWindows/CVI,IVI,.NET,Delphi,VisualBasic,Ja......
  • Spectrum PCIe高速数据采集卡M4i.44xx -1~4通道 130M~500M 16bit采集PCIe
    产品简介:♦PCIe×8Gen2接口♦独立ADC的双通道或者四通道♦4通道,130MS/S~500MS/s♦14/16bit数字化仪更多信息请加weixin-pt890111获取技术指标: 4通道500MS/s采样率(分别有130MS/s和250MS/s)超高速PCIe×8Gen2接口所有通道同步采样每通道独立ADC和放大器6......
  • 前端 xlsx js javascript 处理excel 数据展示 日期格式处理
     1、参考https://blog.csdn.net/Seven71111/article/details/107375712https://blog.csdn.net/weixin_44987713/article/details/130129282 https://blog.csdn.net/qq_57952018/article/details/134812452 2、存在的问题a、千年虫b、定义一个转换日期格式的方法(转成......