证明逻辑回归的目标函数是凸函数
假设有训练数据, 其中为每一个样本,而且是样本的特征并且, 代表样本数据的标签(label), 取值为或者. 在逻辑回归中,模型的参数为。对于向量,我们一般用粗体来表达。 为了后续推导的方便,可以把b融入到参数w中。 这是参数就变成 ,也就是前面多出了一个项, 可以看作是b,这时候每一个也需要稍作改变可以写成 。
那么逻辑回归的目标函数(objective function),把目标函数表示成最小化的形态。
求解对w的一阶导数
(参考matrix cookbook)
为了做梯度下降法,首先要对参数求导,对的梯度计算如下:求解对w的二阶导数
(参考matrix cookbook)
然后,我们再在上面结果的基础上对求解二阶导数,也就是再求一次导数。证明逻辑回归目标函数是凸函数
(参考matrix cookbook)
由上可知,我们获得了Hessian Matrix
hessian矩阵{j,k}元素为:
令:
则: 显然对任意i有
所以
假设有任意D+1维向量:
则 =
=
令
所以有
根据正定矩阵的充要条件对角矩阵
所以所以是正定矩阵。所以逻辑回归的目标函数是凸函数,证明完毕。
参考:假设一个函数是凸函数,我们则可以得出局部最优解即为全局最优解,所以假设我们通过随机梯度下降法等手段找到最优解时我们就可以确认这个解就是全局最优解。证明凸函数的方法有很多种,在这里我们介绍一种方法,就是基于二次求导大于等于0。比如给定一个函数,做两次
求导之后即可以得出,所以这个函数就是凸函数。类似的,这种理论也应用于多元变量中的函数上。在多元函数上,只要证明二阶导数是posititive semidefinite即可以。 问题(c)的结果是一个矩阵。 为了证明这个矩阵(假设为H)为Positive Semidefinite,需要证明对于任意一个非零向量, 需要得出
参考: matrix cookbook: https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf, 还有 Hessian Matrix。