线性回归算法
- 线性回归算法
- 线性回归分类
- 单变量回归
- 多变量回归
- 求拟合方程方法
- 最小二乘法
- 岭回归
- Lasso回归
线性回归算法
线性回归分类
单变量回归
单变量线性回归的模型:
我们需要使用到Cost Function(代价函数),代价函数越小,说明线性回归地越好(和训练集拟合地越好),当然最小就是0,即完全拟合。
多变量回归
多变量线性回归之前必须要Feature Scaling。思想:将各个feature的值标准化,使得取值范围大致都在-1<=x<=1之间。
定义出多变量线性回归的模型:
求拟合方程方法
最小二乘法
“最小二乘法”的核心就是保证所有数据偏差的平方和最小。(“平方”的在古时侯的称谓为“二乘”)。
岭回归
- 预测精度: 这里要处理好这样一对问题, 即样本的数量 和特征的数量
。 时, 最小二乘法回归会有较小的方差
。 时, 容易产生过拟合
。 时, 最小二乘回归得不到有意义的结果
岭回归(Ridge Regression)是在平方误差的基础上增加正则项。通过确定 lamda 的值 可以使得在方差和偏差之间达到平衡。效果如同添加L2正则化。 - 岭回归优于最小二乘回归的原因在于方差-偏倚选择。随着 lambda 的增大, 模型方差 减小而偏倚 (轻微的) 增加。
- 岭回归的一个缺点: 在建模时, 同时引入 个预测变量, 罚约束项可以收缩这些预测 变量的待估系数接近 0 ,但并非恰好是
- 惩罚项系数的选择一直都是一个头疼的问题。
Lasso回归
lasso 是在 RSS 最小化(Residual Sum of Squares)的计算中加入一个 11 范数作为罚约 束:
l1 范数的好处是当 lambda 充分大时可以把某些待估系数精确地收缩到 。
L1正则化的作用,对于权重低的特征,可以去除掉,这样可以做到优选特征的作用。