线性回归
线性模型利用特征的线性函数进行预测,这里的线性指的是参数是线性的。
一、普通最小二乘法
线性回归(OLS)是最简单&最经典的线性方法,模型寻找截距和系数,使得模型对训练集的预测值与真实值之间的均方误差(MSE)最小,但是线性回归没有办法控制模型的复杂度(模型有大量的非0参数)。
需要注意,当训练集中的特征(变量)很多的时候,在训练集上,模型越有可能过拟合,导致泛化能力变差(即样本外的预测能力很差)。
$$
y_{i,t} = \alpha_0+
\sum_{i=0}^n\beta_i.X_{i,t}+
\epsilon_{i,t}
\
min(y_{i,t}-\hat y_{i,t})^2
$$
二、岭回归
岭回归也是一种用于回归的线性模型,模型公式和OLS一样,但是目标函数不一样,OLS是最小化均方误差,岭回归是最小化系数平方和的情况下,最小化均方误差。在大量特征的模型中,OLS容易过拟合,这容易导致样本外预测能力的下降,而岭回归可以解决这一问题,将一些变量的系数接近于0(降低复杂度),从而提高泛化能力。这也容易理解,当模型对训练集的数据进行了过高的拟合,对训练集之外的样本,预测能力自然就下降了。
$$
y_{i,t} = \alpha_0+
\sum_{i=0}^n\beta_i.X_{i,t}+
\epsilon_{i,t}
\
min(y_{i,t}-\hat y_{i,t})^2
\
S.t. min(\sum_{i=0}n\beta_i2)
$$
Lasso 回归
除了岭回归之外,还有一种正则化线性回归是Lasso,与岭回归类似,也是约束系数使得系数接近于0,但是与岭回归不同的是,Lasso使用L1正则化,使得一些系数刚好等于0,从而筛选出模型中最重要的的特征。在实践中,Lasso可以给出更加容易理解的模型,因为大部分的变量系数都是0,模型非常简单。
$$
y_{i,t} = \alpha_0+
\sum_{i=0}^n\beta_i.X_{i,t}+
\epsilon_{i,t}
\
min(y_{i,t}-\hat y_{i,t})^2
\
S.t. min(\sum_{i=0}^n|\beta_i|)
$$