线性回归概述
线性回归是一种基本的监督学习算法,用于解决回归问题。它通过拟合数据点,找出特征与目标变量之间的线性关系。其目标是预测连续数值输出。
模型公式
线性回归模型的数学表达式为:
\[
y = \mathbf{w}^\top \mathbf{x} + b
\]
或展开为:
\[
y = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b
\]
其中:
- \( y \):预测值
- \( \mathbf{x} = [x_1, x_2, \ldots, x_n] \):输入特征向量
- \( \mathbf{w} = [w_1, w_2, \ldots, w_n] \):权重参数
- \( b \):偏置项
模型训练过程
目标函数
线性回归的目标是最小化预测值 \( \hat{y} \) 与真实值 \( y \) 的误差,采用均方误差(MSE)作为损失函数:
\[
\text{MSE} = \frac{1}{m} \sum_{i=1}^m (\hat{y}_i - y_i)^2
\]
其中:
- \( m \):样本总数
- \( \hat{y}_i = \mathbf{w}^\top \mathbf{x}_i + b \):预测值
- \( y_i \):真实值
梯度下降法
通过梯度下降法优化模型参数:
-
计算梯度
- 对权重 \( \mathbf{w} \) 的偏导数:
\[
\frac{\partial \text{MSE}}{\partial \mathbf{w}} = \frac{2}{m} \sum_{i=1}^m (\hat{y}_i - y_i) \mathbf{x}_i
\]
- 对偏置 \( b \) 的偏导数:
\[
\frac{\partial \text{MSE}}{\partial b} = \frac{2}{m} \sum_{i=1}^m (\hat{y}_i - y_i)
\]
2.更新参数
- 更新公式:
\[
\mathbf{w} := \mathbf{w} - \eta \frac{\partial \text{MSE}}{\partial \mathbf{w}}
\]
\[
b := b - \eta \frac{\partial \text{MSE}}{\partial b}
\]
- \( \eta \) 是学习率。
线性回归的假设
- 线性关系假设:特征与目标值之间存在线性关系。
- 独立性假设:残差互相独立。
- 正态性假设:残差服从正态分布。
- 方差齐性假设:残差的方差保持一致。
模型性能评价
- 使用 R^2 或均方误差(MSE)评价模型效果:
\[
R^2 = 1 - \frac{\sum_{i=1}^m (y_i - \hat{y}_i)^2}{\sum_{i=1}^m (y_i - \bar{y})^2}
\]
线性回归的优缺点
优点
- 简单、易理解,具有良好的可解释性。
- 计算效率高,适合大规模数据集。
- 易于扩展(通过多项式特征扩展线性模型)。
缺点
- 仅能拟合线性关系,无法解决非线性问题。
- 对异常值敏感,容易受噪声干扰。
- 当特征间存在多重共线性时,可能导致不稳定。
改进方法
-
岭回归(Ridge Regression)
在损失函数中加入 L2L_2L2 正则化项,减小模型对多重共线性的敏感度:
\[
\text{MSE} + \lambda \|\mathbf{w}\|_2^2
\]
2. Lasso 回归
引入 \( L_1 \) 正则化项,实现特征选择:
\[
\text{MSE} + \lambda \|\mathbf{w}\|_1
\]
3. 多项式回归
将原始特征扩展为多项式特征,利用线性回归拟合非线性关系。
应用场景
- 金融分析:预测股票价格或市场趋势。
- 房地产估价:基于房屋面积、位置等预测房价。
- 广告效果分析:根据广告投入金额预测销售额。