九、应用机器学习的建议(Advice for Applying Machine Learning)

9.1 决定下一步做什么

确保你在设计机器学习的系统时，你能够明白怎样选择一条最合适、最正确的道路。因此，在这节视频和之后的几段视频中，我将向你介绍一些实用的建议和指导，帮助你明白怎样进行选择。具体来讲，我将重点关注的问题是假如你在开发一个机器学习系统，或者想试着改进一个机器学习系统的性能，你应如何决定接下来应该选择哪条道路？
为了解释这一个问题,我们仍然用预测房价的例子:假如你已经完成了正则化线性回归,也就是最小化代价函数\(J\)的值.你要将你的假设函数放到一组新的房屋样本上进行测试,假如说你发现在预测房价时产生了巨大的误差,现在你的问题是要想改进这个算法,接下来应该怎么办?际上你可以想出很多种方法来改进这个算法的性能:
1.比如给出更多训练样本.具体来讲,也许你能想到通过电话调查或上门调查来获取更多的不同的房屋出售数据.遗憾的是,我看到好多人花费了好多时间想收集更多的训练样本。他们总认为,要是我有两倍甚至十倍数量的训练数据,那就一定会解决问题的是吧?但有时候获得更多的训练数据实际上并没有作用.
2.另一个方法,你也许能想到的是尝试选用更少的特征集.你可以花一点时间从这些特征中仔细挑选一小部分来防止过拟合.
3.或者选取更多的特征.你希望从获取更多特征的角度来收集更多的数据.
4.增加多项式特征.
5.增大或减小正则化参数\(\lambda\).
现实中,大多数人都是凭感觉选择这些优化方法,但我们不应该随机选择上面的某种方法来改进我们的算法,而是运用一些机器学习诊断法来帮助我们知道上面哪些方法对我们的算法是有效的.
在接下来的两节中,我首先介绍怎样评估机器学习算法的性能，然后在之后的几节中,我将开始讨论这些方法,它们也被称为"机器学习诊断法"。“诊断法”的意思是:这是一种测试法,你通过执行这种测试，能够深入了解某种算法到底是否有用.这通常也能够告诉你，要想改进一种算法的效果，什么样的尝试,才是有意义的.

9.2 评估假设

在本节中我想介绍一下怎样用你学过的算法来评估假设函数.在之后的课程中,我们将以此为基础来讨论如何避免过拟合和欠拟合的问题.
当我们确定学习算法的参数的时候，我们考虑的是选择参量来使训练误差最小化,有人认为得到一个非常小的训练误差一定是一件好事，但我们已经知道,仅仅是因为这个假设具有很小的训练误差，并不能说明它就一定是一个好的假设函数(过拟合).
那么,你该如何判断一个假设函数是过拟合的呢?对于这个简单的例子,我们可以对假设函数\(h_{\theta}(x)\)进行画图,然后观察图形趋势,但对于特征变量不止一个的这种一般情况,还有像有很多特征变量的问题.但对于特征变量不止一个的这种一般情况,还有像有很多特征变量的问题,想要通过画出假设函数来进行观察,就会变得很难甚至是不可能实现.

下面是一种评价算法的方法:
为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用70%的数据作为训练集,用剩下30%的数据作为测试集(最好是随机选择).很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行"洗牌",然后再分成训练集和测试集.
一般而言,我们用下标\(test\)表示测试集.\(m_{test}\)表示测试集总数,而\((x_{test}^{(1)},y_{test}^{(1)})\)表示测试样本的第一组数据.
结合上面我们评价算法的一种方法是:
(1) 根据训练集学习算法得到参数\(\theta\)
(2) 用训练集的参数\(\theta\)计算测试集的误差.