机器学习模型中的损失函数loss function

标签：function loss plt 函数损失 Hinge xx Log

1. 概述

在机器学习算法中，有一个重要的概念就是损失函数（Loss Function）。损失函数的作用就是度量模型的预测值 $机器学习模型中的损失函数loss function_Log损失$ 与真实值 $机器学习模型中的损失函数loss function_指数损失_02$ 之间的差异程度的函数，且是一个非负实值函数。

对于分类问题损失函数通常可以表示成损失项和正则项的和，即有如下的形式：

$机器学习模型中的损失函数loss function_指数损失_03$

其中， $机器学习模型中的损失函数loss function_Hinge损失_04$ 为损失项， $机器学习模型中的损失函数loss function_Log损失_05$ 为正则项。 $机器学习模型中的损失函数loss function_Log损失_06$ 的具体形式如下：

$机器学习模型中的损失函数loss function_损失函数_07$

$机器学习模型中的损失函数loss function_指数损失_08$

$机器学习模型中的损失函数loss function_损失函数_09$

对于损失项，主要的形式有：

0-1损失
Log损失
Hinge损失
指数损失
感知损失

2. 0-1损失函数

在分类问题中，可以使用函数的正负号来进行模式判断，函数值本身的大小并不是很重要，0-1损失函数比较的是预测值 $机器学习模型中的损失函数loss function_Hinge损失_10$ 与真实值 $机器学习模型中的损失函数loss function_Hinge损失_11$ 的符号是否相同，0-1损失的具体形式如下：

$机器学习模型中的损失函数loss function_损失函数_12$

以上的函数等价于下述的函数：

$机器学习模型中的损失函数loss function_Log损失_13$

0-1损失并不依赖 $机器学习模型中的损失函数loss function_0-1损失_14$ 值的大小，只取决于 $机器学习模型中的损失函数loss function_0-1损失_14$ 的正负号。0-1损失是一个非凸的函数，在求解的过程中，存在很多的不足，通常在实际的使用中将0-1损失函数作为一个标准，选择0-1损失函数的代理函数作为损失函数。

3. Log损失函数

3.1. Log损失

Log损失是0-1损失函数的一种代理函数，Log损失的具体形式如下：

$机器学习模型中的损失函数loss function_Log损失_16$

运用Log损失的典型分类器是Logistic回归算法。

3.2. Logistic回归算法的损失函数

对于Logistic回归算法，分类器可以表示为：

$机器学习模型中的损失函数loss function_损失函数_17$

其中， $机器学习模型中的损失函数loss function_Log损失_18$ 。为了求解其中的参数$ \mathbf{w}$，通常使用极大似然估计的方法，具体的过程如下：

1、似然函数

$机器学习模型中的损失函数loss function_0-1损失_19$

其中，

$机器学习模型中的损失函数loss function_Hinge损失_20$

2、log似然

$机器学习模型中的损失函数loss function_损失函数_21$

3、需要求解的是使得log似然取得最大值的$ \mathbf{w}$，可以转换为求最小值：

$机器学习模型中的损失函数loss function_Hinge损失_22$

这便是交叉熵的具体形式。

3.3. 两者的等价

由于Log损失的具体形式为：

$机器学习模型中的损失函数loss function_Log损失_16$

其中， $机器学习模型中的损失函数loss function_0-1损失_24$ ， $机器学习模型中的损失函数loss function_Log损失_25$ ，Log损失函数的具体形式为：

$机器学习模型中的损失函数loss function_Log损失_26$

Logistic回归与Log损失具有相同的形式，故两者是等价的。Log损失与0-1损失的关系可见下图。

4. Hinge损失函数

4.1. Hinge损失

Hinge损失是0-1损失函数的一种代理函数，Hinge损失的具体形式如下：

$机器学习模型中的损失函数loss function_0-1损失_27$

运用Hinge损失的典型分类器是SVM算法。

4.2. SVM的损失函数

对于软间隔支持向量机，允许在间隔的计算中出现少许的误差 $机器学习模型中的损失函数loss function_Hinge损失_28$ ，其优化的目标为：

$机器学习模型中的损失函数loss function_损失函数_29$

约束条件为：

$机器学习模型中的损失函数loss function_Log损失_30$

4.3. 两者的等价

对于Hinge损失：

$机器学习模型中的损失函数loss function_0-1损失_27$

优化的目标是要求：

$机器学习模型中的损失函数loss function_指数损失_32$

在上述的函数 $机器学习模型中的损失函数loss function_Hinge损失_10$ 中引入截距$\gamma $，即：

$机器学习模型中的损失函数loss function_0-1损失_34$

并在上述的最优化问题中增加 $机器学习模型中的损失函数loss function_Hinge损失_35$ 正则，即变成：

$机器学习模型中的损失函数loss function_损失函数_36$

至此，令下面的不等式成立：

$机器学习模型中的损失函数loss function_指数损失_37$

约束条件为：

$机器学习模型中的损失函数loss function_损失函数_38$

则Hinge最小化问题变成：

$机器学习模型中的损失函数loss function_Hinge损失_39$

约束条件为：

$机器学习模型中的损失函数loss function_指数损失_40$

这与软间隔的SVM是一致的，说明软间隔SVM是在Hinge损失的基础上增加了 $机器学习模型中的损失函数loss function_Hinge损失_35$ 正则。

5. 指数损失

5.1. 指数损失

指数损失是0-1损失函数的一种代理函数，指数损失的具体形式如下：

$机器学习模型中的损失函数loss function_Log损失_42$

运用指数损失的典型分类器是AdaBoost算法。

5.2. AdaBoost基本原理

AdaBoost算法是对每一个弱分类器以及每一个样本都分配了权重，对于弱分类器 $机器学习模型中的损失函数loss function_Log损失_43$ 的权重为：

$机器学习模型中的损失函数loss function_损失函数_44$

其中， $机器学习模型中的损失函数loss function_损失函数_45$ 表示的是误分类率。对于每一个样本的权重为：

$机器学习模型中的损失函数loss function_指数损失_46$

最终通过对所有分类器加权得到最终的输出。

5.3. 两者的等价

对于指数损失函数：

$机器学习模型中的损失函数loss function_Log损失_42$

可以得到需要优化的损失函数：

$机器学习模型中的损失函数loss function_Hinge损失_48$

假设 $机器学习模型中的损失函数loss function_Log损失_49$ 表示已经学习好的函数，则有：

$机器学习模型中的损失函数loss function_Hinge损失_50$

$机器学习模型中的损失函数loss function_Log损失_51$

而：

$机器学习模型中的损失函数loss function_损失函数_52$

通过最小化$\varphi $，可以得到：

$机器学习模型中的损失函数loss function_Log损失_53$

将其代入上式，进而对$\theta $求最优解，得：

$机器学习模型中的损失函数loss function_0-1损失_54$

其中，

$机器学习模型中的损失函数loss function_0-1损失_55$

可以发现，其与AdaBoost是等价的。

6. 感知损失

6.1. 感知损失

感知损失是Hinge损失的一个变种，感知损失的具体形式如下：

$机器学习模型中的损失函数loss function_0-1损失_56$

运用感知损失的典型分类器是感知机算法。

6.2. 感知机算法的损失函数

感知机算法只需要对每个样本判断其是否分类正确，只记录分类错误的样本，其损失函数为：

$机器学习模型中的损失函数loss function_Hinge损失_57$

5.3. 两者的等价

对于感知损失：

$机器学习模型中的损失函数loss function_0-1损失_56$

优化的目标为：

$机器学习模型中的损失函数loss function_指数损失_59$

在上述的函数 $机器学习模型中的损失函数loss function_Hinge损失_10$ 中引入截距 $机器学习模型中的损失函数loss function_指数损失_61$ ，即：

$机器学习模型中的损失函数loss function_0-1损失_62$

上述的形式转变为：

$机器学习模型中的损失函数loss function_指数损失_63$

对于max函数中的内容，可知：

$机器学习模型中的损失函数loss function_指数损失_64$

对于错误的样本，有：

$机器学习模型中的损失函数loss function_0-1损失_65$

类似于Hinge损失，令下式成立：

$机器学习模型中的损失函数loss function_指数损失_66$

约束条件为：

$机器学习模型中的损失函数loss function_Log损失_67$

则感知损失变成：

$机器学习模型中的损失函数loss function_指数损失_68$

即为：

$机器学习模型中的损失函数loss function_Hinge损失_57$

Hinge损失对于判定边界附近的点的惩罚力度较高，而感知损失只要样本的类别判定正确即可，而不需要其离判定边界的距离，这样的变化使得其比Hinge损失简单，但是泛化能力没有Hinge损失强。

机器学习模型中的损失函数loss function_Log损失_70

import matplotlib.pyplot as plt
import numpy as np

xmin, xmax = -4, 4
xx = np.linspace(xmin, xmax, 100)
plt.plot([xmin, 0, 0, xmax], [1, 1, 0, 0], 'k-', label="Zero-one loss")
plt.plot(xx, np.where(xx < 1, 1 - xx, 0), 'g-', label="Hinge loss")
plt.plot(xx, np.log2(1 + np.exp(-xx)), 'r-', label="Log loss")
plt.plot(xx, np.exp(-xx), 'c-', label="Exponential loss")
plt.plot(xx, -np.minimum(xx, 0), 'm-', label="Perceptron loss")

plt.ylim((0, 8))
plt.legend(loc="upper right")
plt.xlabel(r"Decision function $f(x)$")
plt.ylabel("$L(y, f(x))$")
plt.show()

参考文章

[1] Advice for applying Machine Learning

[2] 损失函数（Loss Function）

[3] Schroff F , Kalenichenko D , Philbin J . FaceNet: A Unified Embedding for Face Recognition and Clustering[J]. IEEE, 2015.

标签：function,loss,plt,函数,损失,Hinge,xx,Log
From： https://blog.51cto.com/u_16161414/6480434

机器学习模型中的损失函数loss function

1. 概述

2. 0-1损失函数

3. Log损失函数

3.1. Log损失

3.2. Logistic回归算法的损失函数

3.3. 两者的等价

4. Hinge损失函数

4.1. Hinge损失

4.2. SVM的损失函数

4.3. 两者的等价

5. 指数损失

5.1. 指数损失

5.2. AdaBoost基本原理

5.3. 两者的等价

6. 感知损失

6.1. 感知损失

6.2. 感知机算法的损失函数

5.3. 两者的等价

参考文章

相关文章

赞助商

阅读排行