过度拟合
第一个拟合没有很好的拟合训练集,到后面,随着房子面积的增大,它的价格却逐渐趋于平缓,把这个问题称为欠拟合或者称为这个算法具有高偏差
第二个拟合二次函数拟合数据集
第三个拟合是一种极端情况,如果我们拟合一个四阶多项式,我们有五个参数,我们可以拟合这样的一条曲线,他每一个样本点都可以通过,但是一条扭曲的曲线,一直在上下不停的波动,不认为是一个很好的模型,这样的叫做过度拟合或者说这样的算法具有高方差,过度拟合的问题只会在变量过多的时候出现,训练出的假设可以很好地拟合训练集,代价函数可能很接近或者就是0,因为过度拟合而导致无法泛化到新的样本中
过拟合发生时问题的解决
如果有过多的变量,只有非常少的训练数据,就会出现过度拟合的问题,有两个办法解决问题,
第一个方法是减少选取变量的数量,
人工检查变量清单,决定保留的变量;
2是模型选择算法,可以自动选择哪些特征变量保留,哪些舍弃
第二个方法是进行正则化
保留所有的特征变量,但是减少量级或者减少参数的大小。如果我们的参数值较小,意味着一个更简单的假设模型,在具有大量特征向量的例子中,我们不知道该缩小哪些向量,也不知道哪些向量的关联性较大,我们做的就是对代价函数进行修改,来缩小所有的代价函数,在式子的最后加一个额外的正则化项,来缩小每个参数的值,而且这个额外的正则化项是从1开始不给参数0增加惩罚项
λ被称为正则化参数,控制两个不同目标之间的取舍,如果正则化参数设置的过大,对θ的惩罚程度太大,最后只会剩下一个θ0不会趋近于0,相当于用一条直线去拟合,这就是欠拟合。
将梯度下降法和基于正规方程的算法推广到正则化线性回归中去
之前在没有正则化的条件下去最小化最初的代价函数
对正则化的代价函数J(θ)进行梯度下降法的最小化(实际上是一个对增加了正则项的代价函数的一个偏导)
1-α*(λ/m)通常是一个比1略小的数,把θj变小了一点点,而第二项和之前没有加上正则项的梯度下降法是一样的
第二种方法时使用正规方程来解决
x的每一行都代表一个单独的训练样本,y包含了训练集里的所有标签
这个没有正则化项的θ的式子,算出来的θ可以使代价函数J最小化
θ=(X^TX)^(-1)X^Ty
使用正则化来得到加入正则项的最小值,如下图所示
样本总数小于特征的数量n,那么这个x的转置乘x的矩阵是不可逆的,但是只要这个λ>0,我们就可以确信这个X^TX+λ[ ]的矩阵是可逆的
改进两种算法,使其可以应用到正则化逻辑回归中切
与之前的正则化线性回归的梯度下降法是不一样的算法,因为这里的h(x)是不同的,假设模型是不一样的
这里是正则化逻辑回归的梯度下降法
标签:机器,函数,算法,学习,正则,拟合,代价,变量 From: https://www.cnblogs.com/xxsadd/p/16654252.html