吴恩达机器学习复习3：分类、假设的表示方法、决策边界、损失函数、简化的损失函数和梯度下降、梯度下降、高等优化、多级分类

标签：函数梯度回归分类正则拟合 theta

【分类】

①两类或二分类问题：输出值为0或1

②多分类问题：比如y可能有4个值，0、1、2、3

有关肿瘤的分类问题

如果使用线性回归处理分类问题？

为了尝试分类，方法是使用线性回归并且把大于0.5的映射为1，小于0.5的映射为0

然而这种方法并不能正常工作，因为分类不是一个线性函数

【假设的表示方法】

Sigmoid函数又叫Logistic函数

为了解决这个问题，我们将改变假设的形式以满足

从而实现把放进逻辑斯蒂函数

对假设输出的解释

概率上P(y=0|x;θ)+P(y=1|x;θ)=1

【决策边界】

逻辑回归

决策边界

非线性决策边界

总结

【损失函数】

逻辑回归中，最小化损失函数这样子是有用的。但结果是，如果使用这个特殊的损失函数，将会有一个非凸优化函数的参数数据。

它正式的术语是非凸优化函数。

你应该能分辨，如果你在这种函数上使用梯度下降，将不能保证这会拟合到全局最小值。

然而相比之下，我们应该做的是有一个凸的损失函数的θ值，看起来像下面这样

所以如果θ可以得到保证，它就会收敛到全局最优解。

画一个J和h的对比图

注意到以这种方式写函数功能可以保证J对于逻辑回归是凸的

【简化的损失函数和梯度下降】

逻辑回归的代价函数如下

梯度下降

把我们的损失函数的两种情况压缩至一种情况

我们可以像下面一样写整个损失函数

向量化的执行像下面这样

【梯度下降】

记住梯度下降的一般形式如下

用微积分计算出导数部分得到

这算法和我们在前面的线性回归里用到的是一样的，我们仍然必须同时更新theta里的所有值

执行向量化就像下面这个样子

【高等优化】

优化算法

例子

共轭梯度法（Conjugate Gradient）(介于最速下降法与牛顿法之间的一个方法)，BFGS法(BFGS method)（一种拟牛顿法，用BFGS矩阵作为拟牛顿法中的对称正定迭代矩阵的方法），和L-BFGS（由牛顿法发展而来,为了提高计算效率而提出的近似计算方法）是用于最小化theta的更复杂、更快的方法。

建议你自己不要写更复杂的算法（除非你是数值计算方面的专家！），而是使用现有的库，因为它们已经被测试和优化得很好了。

function [jVal, gradient] = costFunction(theta)
  jVal = [...code to compute J(theta)...];
  gradient = [...code to compute derivative of J(theta)...];
end

options = optimset('GradObj', 'on', 'MaxIter', 100);
initialTheta = zeros(2,1);
   [optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);

把我们的损失函数放进fminunc()，我们最初的向量和theta值以及选择我们之前创建的目标