首页 > 其他分享 >【scikit-learn基础】--『回归模型评估』之偏差分析

【scikit-learn基础】--『回归模型评估』之偏差分析

时间:2024-01-24 11:26:17浏览次数:33  
标签:偏差 frac -- 模型 scikit score learn hat Tweedie

模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。

本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种偏差的分析。

1. **R² ** 分数

R² 分数(也叫决定系数),用于衡量模型预测的拟合优度,它表示模型中因变量的变异中,可由自变量解释的部分所占的比例。
接近1的话,表示模型能够很好地解释因变量的变异,接近0的话,则表示模型解释能力较差。

需要注意的是,虽然R² 分数是一个很有用的指标,但它也有一些局限性。
例如,当模型中自变量数量增加时,R² 分数可能会增加,即使这些自变量对因变量没有真正的解释力。
因此,在使用R² 分数评估模型时,还需要结合其他诊断指标和领域知识进行综合判断。

1.1. 计算公式

\(R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\) 且 \(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

1.2. 使用示例

from sklearn.metrics import r2_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
r2_score(y_true, y_pred)
# 结果: 0.4

y_pred = [0, 2, 3, 4]
r2_score(y_true, y_pred)
# 结果: 0.8

r2_score就是scikit-learn中用来计算 **R² 分数 **的函数。

2. 解释方差分数

解释方差分数Explained Variance Score,简称EVS),它用于量化模型对目标变量的解释程度。
解释方差分数比较高则表示模型能够较好地解释数据中的方差,即模型的预测与实际观测值较为接近。

需要注意的是,解释方差分数仅关注模型对方差的解释程度,并不直接反映预测的准确度。

2.1. 计算公式

\(explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}\)
其中,\(y\)是真实值,\(\hat{y}\)是预测值。
\(Var\)表示计算方差,比如:\(Var{\{y\}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2\)

2.2. 使用示例

from sklearn.metrics import explained_variance_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
explained_variance_score(y_true, y_pred)
# 结果: 0.45

y_pred = [0, 2, 3, 4]
explained_variance_score(y_true, y_pred)
# 结果: 0.85

explained_variance_score就是scikit-learn中用来计算 **解释方差分数 **的函数。

3. Tweedie 偏差

Tweedie 偏差是一种用于评估广义线性模型的指标,它衡量了预测值与实际观测值之间的差异,并考虑了模型的方差结构和分布假设。

Tweedie 偏差根据Tweedie分布的定义而来,参数不同,表示不同的分布。
Tweedie 偏差较小,表示模型的预测与实际观测值之间的差异较小,即模型能够更好地拟合数据。

需要注意的是,在使用 Tweedie 偏差时,需要确保所选的 Tweedie 分布适合数据的特性,否则可能会导致不准确的评估结果。

3.1. 计算公式

\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}- \frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right)\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

上面的公式中,\(p=0\)时,Tweedie 偏差相当于均方误差
\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2\)

当 \(p=1\)时,Tweedie 偏差相当于平均泊松偏差
\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i)\)

当 \(p=2\)时,Tweedie 偏差相当于平均Gamma偏差
\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1)\)

3.2. 使用示例

from sklearn.metrics import mean_tweedie_deviance

mean_tweedie_deviance([1], [2], power=0)
# 运行结果: 1.0
mean_tweedie_deviance([100], [200], power=0)
# 运行结果: 10000.0

mean_tweedie_deviance([1], [2], power=1)
# 运行结果: 0.6137056388801092
mean_tweedie_deviance([100], [200], power=1)
# 运行结果: 61.370563888010906

mean_tweedie_deviance([1], [2], power=2)
# 运行结果: 0.3862943611198908
mean_tweedie_deviance([100], [200], power=2)
# 运行结果: 0.3862943611198908

power参数不同,同样是预测值和实际值差两倍的情况下,不同分布,Tweedie 偏差的结果差别很大。

4. 总结

总之,scikit-learn中提供的回归模型偏差的计算方式,能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。
对于回归问题的建模和预测具有重要的实际意义。

标签:偏差,frac,--,模型,scikit,score,learn,hat,Tweedie
From: https://www.cnblogs.com/wang_yb/p/17984190

相关文章

  • Xmas Contest 2021 D Determinant?
    由Amitsur-Levitzki定理,当\(n\ge2k\)时,答案为\(0\)矩阵。否则我们考虑答案矩阵的某一位\(b_{i,j}\),其必然由某些路径\(i=p_0\top_1\to\\cdots\top_n=j\)贡献而来,一条路径的贡献为\(\text{sgn}(\sigma)\cdot\prod\limits_{i=1}^nA_{\sigma(i),p_{i-1},p_{i}}\)。......
  • 【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件
    平凯星辰和白鲸开源宣布成功完成产品兼容认证北京,2023年12月27日-平凯星辰(北京)科技有限公司(以下简称平凯星辰)旗下的TiDB产品与白鲸开源的WhaleStudio已成功完成产品兼容性认证。这一重要合作旨在为全球客户提供更大的价值。关于WhaleStudioWhaleStudio是一款由Apache......
  • HTML代码加固:保障网站安全
    引言HTML是网站开发的基础语言,它的安全性直接关系到网站的安全性。为了保障网站的安全性,我们需要加固HTML代码。本文将介绍一些具体方法,帮助你加固HTML代码,提高网站的安全性。摘要本文将介绍以下几种方法来加固HTML代码以保障网站的安全性:移除不必要的注释、过滤输入内容、使用......
  • 奇迹MU:探索私人服务器的魅力
    奇迹MU一直是玩家们喜爱的经典游戏,它以其丰富的剧情、无与伦比的操作感和超高的自由度受到玩家们的热爱。然而,在经历了多年的发展和更新后,游戏的官方服务器可能已经让玩家们感到厌倦,那么为什么不考虑试试玩私人服务器呢?私人服务器在奇迹MU社区中已经广泛流行,通过加入其中,玩家们......
  • 鼠标事件
    鼠标键盘如何触发路由事件自定义的路由事件可以简单的分为两类:在依赖属性的PropertyChangedCallback中被调用,当属性值被更改后,发布属性变化路由事件。依赖属性可以响应鼠标键盘被修改,从而发布自定义路由事件。Mouse.MouseLeftButtonDown附件事件,可以被任何继承自UIElement的元......
  • 浅谈差分约束系统
    差分约束系统前言真的好久好久都没打过这个算法了。当时学的时候学得不明不白,又不写总结、又不刷题(我都不知道自己咋想的),所以今天刷图论题的时候,发现一车子的差分约束都没打过。所以,重学,开写!差分约束系统是什么不要被他名字的学术性吓到了,这个“系统”字面意思理解就行,不是......
  • (保姆级)服务器-Zabbix6.0使用Python脚本实现带图片的邮箱的报警
    前言近期在琢磨Zabbix邮箱报警的功能,但是网上的教程通常是4.0或5.0版本Zabbix,并使用Python2.7环境,运行在新版本Zabbix6.0上有颇多问题,为此我基于原先教程修改基于Zabbix6.0并使用Python3+的解决方案。期间遇到不少坑,特此分享。Zabbix自带报警Zabbix是自带的邮箱的报警功能有限......
  • 企业生产不同业务文件系统选型_
    1.文件系统选型简单介绍:1.1SAS/SATA硬盘系统选择a.reiserfs大量小文件业务首选reiserfsb.xfs数据库MySQL业务,门户案例c.ext4视频下载,流媒体,数据库,小文件业务也可以,可以用默认的。d.ext2蓝汛的cache业务,CDN网站加速服务的......
  • VMware虚拟机部署Linux Ubuntu系统的方法
      本文介绍基于VMwareWorkstationPro虚拟机软件,配置LinuxUbuntu操作系统环境的方法。  首先,我们需要进行VMwareWorkstationPro虚拟机软件的下载与安装。需要注意的是,VMwareWorkstationPro软件是一个收费软件,而互联网中有很多可以下载后直接免费激活、使用这一软件的方......
  • 有状态转化操作WindowOperations
    WindowOperations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长。➢窗口时长:计算内容的时间范围;➢滑动步长:隔多久触发一次计算。注意:这两者都必须为采集周期大小的整数倍。obje......