首页 > 其他分享 >机器学习笔记——损失函数、代价函数和KL散度

机器学习笔记——损失函数、代价函数和KL散度

时间:2024-11-18 10:43:22浏览次数:3  
标签:误差 函数 分类 散度 损失 KL

本笔记介绍机器学习中常见的损失函数和代价函数,各函数的使用场景。

损失函数

一、回归问题中的损失函数

1. 均方误差(Mean Squared Error, MSE)

定义
在这里插入图片描述

  • 描述:MSE 衡量的是预测值和真实值之间的平方误差的平均值。对较大的误差会进行更大的惩罚,因此它对异常值(outliers)非常敏感。
  • 应用场景:线性回归、岭回归等模型的损失函数。
  • 优点:简单易于理解,容易求导和计算。
  • 缺点对异常值敏感,可能导致模型被少数异常样本主导。

2. 平均绝对误差(Mean Absolute Error, MAE)

定义
在这里插入图片描述

  • 描述:MAE 衡量的是预测值和真实值之间的绝对误差的平均值。它对每个误差的惩罚是线性的,因此对异常值的惩罚不如 MSE 严重。
  • 应用场景:在对异常值不敏感的回归任务中使用。
  • 优点对异常值不敏感,能够更加稳定地反映模型性能。
  • 缺点:在优化过程中,绝对值函数不可导,求解困难。

3. 对数余弦损失(Log-Cosh Loss)

定义
在这里插入图片描述

  • 描述:对数余弦损失是Huber 损失的变体,它的行为类似于 MAE,同时对大误差有更小的增长率。
  • 应用场景:适用于异常值影响较大的回归任务。
  • 优点:具有平滑性,易于求导对小误差敏感对大误差鲁棒
  • 缺点:相比其他损失函数计算复杂度较高。

4. Huber 损失(Huber Loss)

定义
在这里插入图片描述

  • 描述:Huber 损失是MSE 和 MAE 的折中。对于小误差,使用 MSE;对于大误差,使用 MAE,从而对异常值有一定的鲁棒性。
  • 应用场景:回归问题中存在异常值,但又不希望过于忽略异常值的场景。
  • 优点对小误差敏感,同时对大误差具有一定的抗干扰性
  • 缺点:参数 ( δ \delta δ) 需要手动调节,不同数据集效果不同。

5. 平均平方对数误差(Mean Squared Logarithmic Error, MSLE)

定义
在这里插入图片描述

  • 描述:MSLE 用于处理目标值差异较大有显著指数增长趋势的情况。它更关注相对误差,而非绝对误差。
  • 应用场景:如人口增长预测、市场销量预测等场景。
  • 优点:对大数值的预测更稳定,对目标值的比例关系有更好的衡量。
  • 缺点:当目标值非常小时,惩罚效果不明显。

总结

损失函数描述应用场景优点缺点
均方误差 (MSE)衡量预测值和真实值之间平方误差的平均值,对较大误差进行更大惩罚。线性回归、岭回归等简单易于理解,容易求导。对异常值敏感
平均绝对误差 (MAE)衡量预测值和真实值之间绝对误差的平均值对异常值不敏感的回归任务对异常值不敏感,反映模型性能更稳定。优化困难,绝对值函数不可导
对数余弦损失 (Log-Cosh)Huber 损失的变体,既能捕捉小误差,也对大误差有更小的增长率异常值影响较大的回归任务平滑性好,易于求导,适应大误差和小误差。计算复杂度高。
Huber 损失 (Huber Loss)结合MSE和MAE,小误差时使用 MSE,大误差时使用 MAE,平衡异常值的影响。存在异常值但不希望完全忽略的场景对小误差敏感,对大误差有抗干扰性。需调节参数 (delta)。
平均平方对数误差 (MSLE)衡量目标值差异大且有指数增长趋势的情况,关注相对误差而非绝对误差。人口增长预测、市场销量预测等对大数值预测更稳定,适应有比例关系的数据对极小值目标效果不佳。

二、分类问题中的损失函数

1. 0-1 损失(0-1 Loss)

定义
在这里插入图片描述

  • 描述:0-1 损失表示分类是否正确0 为正确分类,1 为错误分类。它无法直接用于模型优化,只能用于评价模型性能。
  • 应用场景:模型性能的评估,如准确率(Accuracy)的计算。
  • 优点:简单直观,能够清晰判断分类是否正确。
  • 缺点不可导,无法用于梯度优化

2. 对数损失(Log Loss)或交叉熵损失(Cross-Entropy Loss)

在这里插入图片描述

  • 描述:交叉熵损失衡量的是预测分布和真实分布之间的距离。在二分类与 Sigmoid 函数结合;在多分类与 Softmax 函数结合
  • 应用场景:广泛用于逻辑回归、神经网络等分类任务。
  • 优点:能够很好地度量概率分布之间的差异,梯度计算简单。
  • 缺点对数据不平衡较为敏感

在这里插入图片描述
在这里插入图片描述

3. Focal 损失(Focal Loss)

定义
在这里插入图片描述

注:t 是该样本的真实类别标签
在这里插入图片描述

  • 描述:Focal 损失是对交叉熵损失的改进,用于解决类别不平衡问题。通过调节参数 ( γ \gamma γ ) 和 ( α \alpha α ),它增加了对困难样本的关注,降低了对易分类样本的影响。
  • 应用场景:目标检测中的单阶段检测器(如 RetinaNet),以及其他类别不平衡的分类问题。
  • 优点:有效解决类别不平衡问题,增强模型对困难样本的关注。
  • 缺点:参数选择复杂,训练时间较长。

4. Hinge 损失(合页损失)

在这里插入图片描述

  • 描述:Hinge 损失用于支持向量机(SVM)中。它在样本被正确分类且间隔大于 1 时,损失为 0;否则损失为 1。旨在最大化样本的分类间隔。
  • 应用场景:线性支持向量机、核支持向量机等。
  • 优点:有助于最大化分类间隔,提高模型的泛化能力。
  • 缺点:对于误差大的样本损失增长过快。

5. Kullback-Leibler 散度(KL Divergence)

定义
在这里插入图片描述

  • 描述:KL 散度衡量两个概率分布之间的差异,常用于无监督学习中的聚类分析
  • 应用场景:概率模型的优化,如变分自编码器(VAE)、生成对抗网络(GAN)中的判别模型。
  • 优点:对概率分布之间的微小差异非常敏感
  • 缺点:对稀疏分布的概率模型不稳定

总结

损失函数描述应用场景优点缺点
0-1 损失 (0-1 Loss)分类正确为 0,错误为 1,用于衡量分类是否正确。准确率等分类性能评估简单直观。不可导,无法用于优化
交叉熵损失 (Cross-Entropy)衡量预测分布和真实分布之间的距离,二分类结合 Sigmoid,多分类结合 Softmax。逻辑回归、神经网络等分类任务很好地衡量概率分布差异,梯度计算简单。对数据不平衡敏感
Focal 损失 (Focal Loss)交叉熵的改进,通过调节 ( gamma ) 和 ( alpha ),增加对困难样本的关注,减少易分类样本影响,解决类别不平衡问题。类别不平衡问题,如目标检测 (RetinaNet)增强对困难样本的关注,解决类别不平衡参数选择复杂,训练时间较长。
Hinge 损失 (合页损失)用于 SVM,正确分类且间隔大于 1 时损失为 0,旨在最大化分类间隔。线性 SVM、核 SVM提高泛化能力,有助于最大化分类间隔对误差大的样本损失增长快。
KL 散度 (KL Divergence)衡量两个概率分布的差异,常用于无监督学习中的聚类分析。概率模型优化,如 VAE、GAN概率分布的差异敏感稀疏分布不稳定

代价函数

代价函数是损失函数在整个训练集上的平均或总和,用于衡量模型在整个数据集上的表现

代价函数 = 所有样本的损失函数的平均值或总和。因此,代价函数通常是通过对每个样本的损失函数进行求和或求平均得到的。

1. 回归问题中的代价函数

均方误差代价函数(Cost Function for MSE)
在这里插入图片描述

  • 描述:均方误差代价函数用于衡量模型预测值与真实值之间的总体误差。
  • 应用场景:线性回归、岭回归等回归任务。

2. 分类问题中的代价函数

对数损失代价函数(Cost Function for Log Loss)
在这里插入图片描述

  • 描述:对数损失代价函数用于二分类任务,衡量模型预测概率与真实分布之间的差异。
  • 应用场景:逻辑回归、神经网络的二分类问题。

损失函数和代价函数的选择

1. 如何选择适当的损失函数?

  • 回归问题
    • 数据中存在异常值时,可以选择 MAEHuber 损失
    • 如果异常值较少误差分布相对均匀,【对大误差容忍度低时】可以选择 MSE
    • 数据有显著的指数增长趋势时,选择 MSLE

MAE 和 Huber 损失减少异常值对损失和模型的过度影响,所以适合存在较多异常值的情况。它们的目标是在存在异常值的情况下,保持模型对大多数数据的稳定性和准确性。

  • 分类问题
    • 二分类问题:常用 交叉熵损失
    • 多分类问题:使用 Softmax + 交叉熵损失
    • 类别不平衡时:选择 Focal 损失

2. 损失函数和代价函数的优化

  • 梯度下降法:用于最小化代价函数,找到模型参数的最优解。
  • 正则化:在代价函数中加入正则化项(L1 或 L2)防止模型过拟合。

总结来说,损失函数和代价函数是机器学习模型优化的核心工具,选择合适的损失函数能够帮助模型更好地学习数据的特性,并提高模型的性能和鲁棒性。

KL散度

描述

KL散度是一种用于衡量两个概率分布之间差异的度量。在信息论中,它也称为相对熵,用于表达当我们用分布 ( Q Q Q ) 来近似真实分布 ( P P P ) 时,所损失的信息量。
在这里插入图片描述

KL散度的特点

KL 散度的三个性质:非负性、非对称性和无界性。

  1. 非负性
    KL 散度始终非负,( D K L ( P ∥ Q ) ≥ 0 D_{KL}(P \parallel Q) \geq 0 DKL​(P∥Q)≥0 ),并且仅当 ( P = Q P = Q P=Q ) 时,KL 散度为 0。这意味着两个分布越相似,KL 散度越小。当两个分布完全相同时,KL 散度为零,即没有信息损失。

  2. 非对称性
    KL 散度不是对称的,( D K L ( P ∥ Q ) ≠ D K L ( Q ∥ P D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P DKL​(P∥Q)=DKL​(Q∥P) ),因此它并不是一个真正的距离度量。KL 散度衡量的是使用分布 ( Q Q Q ) 来近似分布 ( P P P ) 的信息损失,因此方向性很重要,交换两个分布后,信息损失会不同。

  3. 无界性
    KL 散度可以趋向无穷大,特别是在 ( Q ( i ) = 0 Q(i) = 0 Q(i)=0 ) 且 ( P ( i ) > 0 P(i) > 0 P(i)>0 ) 的情况下。因为 ( log ⁡ ( 0 ) \log(0) log(0) ) 趋于负无穷,这意味着如果 ( Q Q Q ) 对某个事件的概率估计为零,而 ( P P P ) 认为这个事件是可能的,那么使用 ( Q Q Q ) 来近似 ( P P P ) 的信息损失会非常大,导致 KL 散度无限大。


KL散度的常见应用场景

KL散度常在处理概率分布的模型中作为损失函数的一部分。通过在损失函数中加入KL散度,模型可以在多个任务中有效地优化预测分布与真实分布之间的差异。以下是KL散度作为损失函数一部分的几种常见应用:

1. 变分自编码器(Variational Autoencoder, VAE)中的损失函数

在VAE中,损失函数包含两部分:

  • 重构误差:衡量重建的输出和输入数据的差异(通常是均方误差或二元交叉熵)。
  • KL散度:衡量潜在变量的后验分布先验分布(通常是标准正态分布) 之间的差异
    在这里插入图片描述
    KL散度项确保潜在空间的分布接近于标准正态分布,从而提高生成数据的连续性和多样性。

2. 分类问题中的交叉熵损失

分类问题中的交叉熵损失实际上可以看作是KL散度的一种形式。在分类问题中,真实标签通常表示为one-hot向量,模型输出的则是一个预测概率分布。最小化交叉熵损失就是最小化真实分布和预测分布之间的KL散度。
在这里插入图片描述

由于真实分布 ( P ) 是one-hot形式,所以 H( P ) 是常数,最小化交叉熵损失等价于最小化KL散度。

3. 强化学习中的策略优化

在强化学习中,KL散度可以作为策略更新中的约束确保新策略 ( π’ ) 和旧策略 ( π ) 不偏离太远。这种方法通过将KL散度作为损失函数的一部分进行优化,以确保策略的平稳更新。

在这种情况下,目标是通过最小化以下损失函数进行策略更新:
在这里插入图片描述

4. 生成模型中的正则化项

KL散度也常用于生成对抗网络(GAN)和其他生成模型中的正则化项。通过引入KL散度,模型可以保持生成分布与某个目标分布的接近度。这通常用于引导生成样本的多样性和稳定性。

5. 多任务学习中的权衡损失

在某些多任务学习场景中,KL散度可以用来衡量某一任务的输出分布与其他任务输出分布的差异,从而引入额外的正则化约束,以便各任务在共享网络中的学习互不冲突。

6. T-SNE

总结

KL散度是一种广泛应用于机器学习和深度学习中的度量工具,尤其是在涉及概率分布的场景中。其主要用于衡量模型预测的分布与真实分布的差异,并通过最小化KL散度来优化模型表现。具体应用场景包括:

  • 变分自编码器中的潜在分布优化
  • 分类任务中的交叉熵损失
  • 强化学习中的策略更新约束
  • 生成模型中的分布正则化

通过将KL散度引入损失函数,模型可以在复杂任务中更好地平衡生成质量、分布匹配以及策略优化的需求。

标签:误差,函数,分类,散度,损失,KL
From: https://blog.csdn.net/haopinglianlian/article/details/143831958

相关文章

  • 【开窗函数】三个SQL题
             本文主要练习一下lag开窗函数的使用!!!一、第一题 建表语句:createtablem1(dtstring,namestring,deptstring,scoreint);insertintom1values('202101','张三','销售',90),('202101','李四......
  • STM32微控制器GPIO库函数
    STM32微控制器GPIO库函数目录概述GPIO库函数基础HAL库与标准外设库GPIO库函数分类GPIO数学基础电阻分压公式输入电流计算输出驱动能力功率计算RC时间常数GPIO应用实例LED控制按钮输入与中断串行通信PWM信号生成常见问题与解决方法GPIO引脚无法正确读取输入状......
  • Microsoft Visual Studio VS dumpbin使用查看.obj、.lib、.dll、.exe文件头、段函数
    前言全局说明dumpbin是VS自带的MicrosoftCOFF二进制文件转换器,它显示有关通用对象文件格式(COFF)二进制文件的信息。可以使用dumpbin检查COFF对象文件、标准COFF对象库、可执行文件和动态链接库等。被查看的文件名后缀可以为:.obj、.lib、.dll、.exe一、说明正确情况下,安......
  • Windows查看zipfldr.dll动态库中的段函数
    前言全局说明dll是Win中的动态库,开发时想要调用其中的段函数,就要指定,但怎么知道dll中有哪些段函数呢?就需要用工具查看了。一、说明环境:Windows7旗舰版VisualStudio2013二、2.1文件名:2.2文件名:三、3.1文件名:3.2文件名:四、4.1文件名:......
  • ThinkPHP自动完成中使用函数与回调方法
    在ThinkPHP框架中,自动完成(autocompletion)是一种在模型对象赋值时自动执行一些操作的功能。这些操作可以是字段的格式化、验证、转换等。在自动完成中,你可以使用函数和回调方法来实现各种自定义功能。使用函数你可以直接在自动完成配置中使用PHP内置函数或自定义函数。示例:......
  • C++ lambda 表达式与「函数对象」(functor)
    C++lambda表达式与「函数对象」(functor)Created:2024-06-27T16:29+08:00Published:2024-11-17T17:01+08:00Categories:C-CPPfunctor(FunctionObject)首先要介绍的是functor——一个重载了operator()的类,该类的实例可以使用operator()。WhatareC++functorsand......
  • C++仍要用的scanf函数介绍
    很多C++初学者刚学便是使用cin和cout,这无可厚非;但C语言中的scanf函数在一些特定情况下仍必不可少,故写给C++初学=者scanf函数的部分介绍以及具体使用情景。scanf输入数字的用法头文件:#include<cstdio> 调用格式:scanf(格式控制字符串,变量地址列表);注:格式说明和各输入......
  • python岭迹图绘制函数
    一.岭迹图是什么?    岭迹图(RidgeTracePlot)是一种可视化工具,用于展示岭回归中正则化参数($\alpha$)对回归系数的影响。它能帮助我们理解特征的稳定性和正则化在控制模型复杂度中的作用。二.什么时候需要看岭迹图?存在共线性特征时当特征间高度相关,普通最小二乘法(OLS)......
  • @Transactional事务注解与函数内多线程并发编程出现的问题
    @Transactional当@Transactional注解写在函数上之后,就表示这个函数开启了事务。事务是基于数据库连接的connect。parallelStream这是针对List进行多线程Stream的操作。//对list集合开启多线程操作list.parallelStream().forEach(item->{//业务代码})@Transactional和pa......
  • HarmonyOS4+NEXT星河版入门与项目实战--------TypeScript语法(循环控制与函数方法)
    文章目录1、循环控制1、for循环与while循环2、数组快捷迭代方法2、函数1、function关键字2、可选参数3、默认参数4、匿名函数5、函数表达式6、结合使用7、函数声明案例1、循环控制1、for循环与while循环2、数组快捷迭代方法数组除了使用常规的for循环......