逻辑回归的代价函数(Logistic Regression Cost Function)
为什么需要代价函数:
为了训练逻辑回归模型的参数参数\(w\)和参数\(b\),需要一个代价函数,通过训练代价函数来得到参数\(w\)和参数\(b\)。先看一下逻辑回归的输出函数:
为了让模型通过学习调整参数, 需要给予一个\(m\)样本的训练集,这会让 在训练集上找到参数\(w\)和参数\(b\),,来得到 的输出。
对训练集的预测值,将它写成\(\hat{y}\),更希望它会接近于训练集中的\(y\)值,为了对上面的公式更详细的介绍, 需要说明上面的定义是对一个训练样本来说的,这种形式也使用于每个训练样本, 使用这些带有圆括号的上标来区分索引和样本,训练样本\(i\)所对应的预测值是\({{y}^{(i)}}\),是用训练样本的\({{w}^{T}}{{x}^{(i)}}+b\)然后通过sigmoid函数来得到,也可以把\(z\)定义为\({{z}^{(i)}}={{w}^{T}}{{x}^{(i)}}+b\), 将使用这个符号\((i)\)注解,上标\((i)\)来指明数据表示\(x\)或者\(y\)或者\(z\)或者其他数据的第\(i\)个训练样本,这就是上标\((i)\)的含义。
损失函数:
损失函数又叫做误差函数,用来衡量算法的运行情况,Loss function:\(L\left( \hat{y},y \right)\).
通过这个\(L\)称为的损失函数,来衡量预测输出值和实际值有多接近。一般 用预测值和实际值的平方差或者它们平方差的一半,但是通常在逻辑回归中 不这么做,因为当 在学习逻辑回归参数的时候,会发现 的优化目标不是凸优化,只能找到多个局部最优值,梯度下降法很可能找不到全局最优值,虽然平方差是一个不错的损失函数,但是 在逻辑回归模型中会定义另外一个损失函数。
在逻辑回归中用到的损失函数是:\(L\left( \hat{y},y \right)=-y\log(\hat{y})-(1-y)\log (1-\hat{y})\)
为什么要用这个函数作为逻辑损失函数?当 使用平方误差作为损失函数的时候, 会想要让这个误差尽可能地小,对于这个逻辑回归损失函数, 也想让它尽可能地小,为了更好地理解这个损失函数怎么起作用, 举两个例子:
当\(y=1\)时损失函数\(L=-\log (\hat{y})\),如果想要损失函数\(L\)尽可能得小,那么\(\hat{y}\)就要尽可能大,因为sigmoid函数取值\([0,1]\),所以\(\hat{y}\)会无限接近于1。
当\(y=0\)时损失函数\(L=-\log (1-\hat{y})\),如果想要损失函数\(L\)尽可能得小,那么\(\hat{y}\)就要尽可能小,因为sigmoid函数取值\([0,1]\),所以\(\hat{y}\)会无限接近于0。
有很多的函数效果和现在这个类似,就是如果\(y\)等于1, 就尽可能让\(\hat{y}\)变大,如果\(y\)等于0, 就尽可能让 \(\hat{y}\) 变小。
损失函数是在单个训练样本中定义的,它衡量的是算法在单个训练样本中表现如何,为了衡量算法在全部训练样本上的表现如何, 需要定义一个算法的代价函数,算法的代价函数是对\(m\)个样本的损失函数求和然后除以\(m\):
\(J\left( w,b \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{L\left( {{{\hat{y}}}^{(i)}},{{y}^{(i)}} \right)}=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( -{{y}^{(i)}}\log {{{\hat{y}}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{{\hat{y}}}^{(i)}}) \right)}\)
损失函数只适用于像这样的单个训练样本,而代价函数是参数的总代价,所以在训练逻辑回归模型时候, 需要找到合适的\(w\)和\(b\),来让代价函数 \(J\) 的总代价降到最低。
根据 对逻辑回归算法的推导及对单个样本的损失函数的推导和针对算法所选用参数的总代价函数的推导,结果表明逻辑回归可以看做是一个非常小的神经网络。