首页 > 其他分享 >【scikit-learn基础】--『回归模型评估』之损失分析

【scikit-learn基础】--『回归模型评估』之损失分析

时间:2024-01-30 16:26:13浏览次数:24  
标签:loss random -- 模型 scikit 损失 learn np import

分类模型评估中,通过各类损失(loss)函数的分析,可以衡量模型预测结果与真实值之间的差异。
不同的损失函数可用于不同类型的分类问题,以便更好地评估模型的性能。

本篇将介绍分类模型评估中常用的几种损失计算方法。

1. 汉明损失

Hamming loss汉明损失)是一种衡量分类模型预测错误率的指标。
它直接衡量了模型预测错误的样本比例,因此更直观地反映出模型的预测精度,
而且,它对不平衡数据比较敏感,也适用于多分类的问题,不仅限于二分类问题。

1.1. 计算公式

\(L(y, \hat{y}) = \frac{1}{n * m} \sum_{i=0}^{n-1} \sum_{j=0}^{m - 1} 1(\hat{y}_{i,j} \not= y_{i,j})\)
其中,\(n\)是样本数量,\(m\)是标签数量,\(y_{i,j}\)是样本\(i\)的第\(j\)个标签的真实值,\(\hat{y}_{i,j}\)是对应的预测值,
\(1(x)\) 是指示函数。

1.2. 使用示例

from sklearn.metrics import hamming_loss
import numpy as np

n = 100
y_true = np.random.randint(1, 10, n)
y_pred = np.random.randint(1, 10, n)

s = hamming_loss(y_true, y_pred)
print("hamming loss:{}".format(s))

# 运行结果
hamming loss:0.8

2. 铰链损失

Hinge loss铰链损失)常用于“最大间隔”分类,其最著名的应用是作为支持向量机(SVM)的目标函数。
Hinge loss主要用于二分类问题,并且通常与特定的算法(如SVM)结合使用。

2.1. 计算公式

\(L(y, w) = \frac{1}{n} \sum_{i=0}^{n-1} \max\left\{1 - w_i y_i, 0\right\}\)
其中,\(n\)是样本数量,\(y_i\)是真实值, \(w_i\)是相应的预测决策(由 decision_function 方法输出)。

2.2. 使用示例

from sklearn.metrics import hinge_loss
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
import numpy as np

n = 100
X = np.random.randint(0, 2, size=(n, 1))
y = np.random.randint(0, 2, n)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

reg = LinearSVC(dual="auto")
reg.fit(X_train, y_train)

y_pred_decision = reg.decision_function(X_test)

s = hinge_loss(y_test, y_pred_decision)
print("hinge loss:{}".format(s))

# 运行结果
hinge loss:1.0136184446302712

上面的示例中,首先构建一个支持向量机的训练模型和随机的样本数据。
最后在测试集上计算hinge loss

3. 对数损失

对数损失log loss)通过考虑模型预测的概率与实际标签的对数误差来评估模型的性能。
它特别关注模型对于每个样本的预测概率的准确性,对于错误的分类,Log loss会给予较大的惩罚。

对数损失的值越小,表示模型的预测概率越接近实际标签,模型的性能越好。

3.1. 计算公式

\(LL = - \frac{1}{N} \sum_{i=0}^{N-1} \sum_{k=0}^{K-1} y_{i,k} \log p_{i,k}\)
其中,\(N\)是样本数量,\(K\)是分类标签的数量,
\(y_{i,k}\)是第\(i\)个样本在标签\(k\)上的真实值,\(p_{i,k}\)是对应的概率估计。

3.2. 使用示例

from sklearn.metrics import log_loss
import numpy as np

n = 100
k = 10
y_true = np.random.randint(0, k, n)
y_prob = np.random.rand(n, k)

# 这一步转换后,
# y_prob 每一行的和都为1
for i in range(len(y_prob)):
    y_prob[i, :] = y_prob[i, :] / np.sum(y_prob[i, :])


s = log_loss(y_true, y_prob)
print("log loss:{}".format(s))

# 运行结果
log loss:2.6982702715125466

上面的示例中,\(n\)是样本数量,\(k\)是标签数量。

4. 零一损失

零一损失zero-one loss)非常直观,直接对应着分类判断错误的个数,能很清晰地反映出模型预测错误的比例。
它计算简单,易于理解和实现,对于二分类问题特别直观,但是对于非凸性质不太适用。

4.1. 计算公式

\(L(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} 1(\hat{y}_i \not= y_i)\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值,
\(1(x)\) 是指示函数。

4.2. 使用示例

from sklearn.metrics import zero_one_loss
import numpy as np

n = 100
y_true = np.random.randint(1, 10, n)
y_pred = np.random.randint(1, 10, n)

s1 = zero_one_loss(y_true, y_pred)
s2 = zero_one_loss(y_true, y_pred, normalize=False)
print("zero-one loss比率:{}\nzero-one loss数量:{}".format(s1, s2))

# 运行结果
zero-one loss比率:0.89
zero-one loss数量:89

5. Brier 分数损失

Brier 分数损失Brier score loss)关注模型预测的概率与实际结果之间的差异。
与只关注预测类别的其他指标不同,它衡量了预测概率的可靠性;
与一些仅适用于二分类问题的评估指标相比,Brier score loss可以应用于多类别分类问题。

它的数值越小,表示模型的概率预测越准确,具有很好的解释性。

5.1. 计算公式

\(BS = \frac{1}{n} \sum_{i=0}^{n - 1}(y_i - p_i)^2\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(p_i\)是预测概率估计的均方误差。

5.2. 使用示例

from sklearn.metrics import brier_score_loss
import numpy as np

n = 100
y_true = np.random.randint(0, 2, n)
y_prob = np.random.rand(n)

s = brier_score_loss(y_true, y_prob)
print("brier score loss:{}".format(s))

# 运行结果
brier score loss:0.3141953858083935

示例中计算损失用的模拟数据中,y_true表示真实值,y_prob表示预测概率的均方误差。

6. 总结

本篇归纳总结了分类模型中关于损失函数的一些使用方式:

  • 汉明损失,Hamming loss
  • 铰链损失,Hinge loss
  • 对数损失,log loss
  • 零一损失,zero one loss
  • Brier 分数损失,Brier score loss

标签:loss,random,--,模型,scikit,损失,learn,np,import
From: https://www.cnblogs.com/wang_yb/p/17997343

相关文章

  • 151. 反转字符串中的单词(中)
    目录题目法一、双指针法二、字符串常用操作题目给你一个字符串s,请你反转字符串中单词的顺序。单词是由非空格字符组成的字符串。s中使用至少一个空格将字符串中的单词分隔开。返回单词顺序颠倒且单词之间用单个空格连接的结果字符串。注意:输入字符串s中可能会......
  • The XOR-longest Path 题解
    我们观察题干知道此题为单调递增(节点),这样我们就不用跑dfs了很显然的一件事是两点间的权值只与子节点有关所以我们用w1[v]=w1[u]*w就能更新v到根节点的权值然后我们循环放入字典树,再取最大的(由于这题数据特别水,所以没算v-u的w1)#include<bits/stdc++.h>usingnamespacestd;in......
  • 寒假集训Day10
    前缀和https://www.luogu.com.cn/problem/P2280一维前缀和维护一个前缀和数组,使得每一个元素num[i]等于从a[1]到a[i]所有元素之和,一位前缀和非常好写。这个时候如果我们要求某一区间[l,r]中所有元素的和,只需要用num[r]-num[l-1]即可二维前缀和我们用num[i][j]表示从(1,1)到(......
  • [USACO10FEB] Chocolate Eating
    原题链接很典型的二分答案题目。但是新颖点是他要输出每块巧克力在哪一天吃,很多人(包括我自己)就可能想当然的直接在累加的时候处理,如下:for(inti=1;i<=d;i++){sum/=2;while(sum<m){if(cnt>n)returnfalse;sum+=a[cnt];......
  • windows上使用python2.7获取svn info,中文路径乱码问题
    #-*-coding:utf-8-*-from__future__importunicode_literalsimportsubprocessimportcmdimportosos.environ['LANG']='en_US.UTF-8'classSVNCommand(cmd.Cmd):defdo_svninfo(self,folder_path):#构建svninfo命令......
  • .Net Core3.1 升级到8.0(3.1升级到更高版本)
    NETCore3.1已经用了很长一段时间,其实在2022年的年底微软已经不提供支持了,后面的一个 LTS 版本.NET6也会在2024年11月终止支持,所以直接升级到.NET8是最好的选择。微软官方推出了升级工具:UpgradeAssistant,链接地址如下:https://dotnet.microsoft.com/zh-cn/plat......
  • P2870 [USACO07DEC] Best Cow Line G
    https://www.luogu.com.cn/problem/P2870字典序最小显然贪心,若当前串首比串尾小,则取串首;若当前串首比串尾大,则取串尾。那串首串尾一样呢?这个顺序显然会影响到后续操作。考虑继续往内递归,如果碰到一样的,那么当前取什么都无所谓;若碰到不一样的,我们肯定是要取更小的那一边,因为这样......
  • openssh 9.6交叉编译ls1043
    准备工作zlib:官网下载:https://www.zlib.net版本:zlib-1.2.2.tar.gzopenssl:官网下载:https://www.openssl.org/source版本:openssl-1.1.1k.tar.gzopenssh:官网下载:http://www.openssh.com/portable.html阿里云镜像:https://mirrors.aliyun.com/pub/OpenBSD/OpenSSH/portable......
  • 【开源操作系统】上海道宁为您带来稳定、安全、开源和易用的操作系统——Ubuntu,为您的
    ​Ubuntu是源于非洲的一种传统价值观意为“人性、关爱和共享”这种价值观在开源、稳定、安全、易用的Ubuntu操作系统中得到了完美的体现  除此之外,Ubuntu还具有强大的安全性它自带了诸多安全功能如防火墙、加密文件系统等可以有效地保护用户的隐私和数据安全......
  • 题解 P7309 [COCI2018-2019#2] Kocka
    传送门。题意一个$N\timesN$的矩形,有从四周往内望去的第一个位置的距离,问是否存在一个矩形满足我们的观察。分析先说说我这个蒟蒻想出来的巨麻烦的方法。首先先判断最简单的矛盾,就是左右穿插,上下穿插,这是第一步。//-1变成nfor(inti=1;i<=n;++i)if(L[i]+R[i]>=n)......