吴恩达机器学习课程笔记3 多元线性回归梯度下降

标签：吴恩达特征梯度模型笔记学习 theta 收敛

多维特征

多维特征指的是在机器学习和数据分析中，每个样本不仅由单一特征描述，而是由多个不同属性或维度组成的向量。这些特征可以是连续的也可以是离散的，它们共同构成了数据集的一个样本点。

多维特征的例子

房屋价格预测：
- 面积（平方米）
- 房间数量
- 建造年份
- 地理位置（经度、纬度）
客户购买行为预测：
- 年龄
- 收入水平
- 教育背景
- 购买历史记录
图像识别：
- 图像像素强度（红色、绿色、蓝色三个通道）
- 图像尺寸（宽度、高度）

多维特征的处理

处理多维特征时，通常需要进行以下几步：

数据预处理

缺失值处理：检查数据集中是否存在缺失值，并采取填充、删除或者插值等方法处理。
标准化/归一化：因为不同特征可能具有不同的量纲和尺度，所以需要将特征转换到相同的尺度上，常用的方法有 Min-Max Scaling、Z-Score Normalization 等。
特征选择：通过统计方法或者模型评估来选择对预测最有帮助的特征子集。
特征工程：根据领域知识创造新的特征或者对现有特征进行组合、转换等操作。

特征表示

向量化：将特征表示成向量形式，便于计算机处理。
稀疏表示：对于文本数据，常常使用词袋模型（Bag of Words）或者 TF-IDF 矩阵来表示文档。
嵌入表示：对于高维稀疏特征，可以使用嵌入技术将其映射到低维稠密空间。

模型训练

在使用多维特征训练模型时，需要注意以下几点：

维度灾难（Curse of Dimensionality）：随着特征维度的增加，数据变得越来越稀疏，这会导致模型难以训练。可以通过降维技术如 PCA（主成分分析）、t-SNE 等来降低维度。
特征权重：某些模型（如线性模型、决策树等）可以直接处理多维特征，并且可以给出各个特征的重要性或权重。
正则化：为了防止过拟合，可以在损失函数中加入正则化项来惩罚过大或过多的特征权重。

示例

假设我们有一个包含两个特征的简单数据集，我们可以这样表示：

样本编号	特征1（面积）	特征2（房间数）	房价（标签）
1	120	3	600000
2	80	2	400000
3	150	4	800000

在这个例子中，每个样本都有两个特征（面积和房间数），以及一个标签（房价）。在机器学习模型中，我们会把每个样本表示为一个特征向量 [面积, 房间数]，并通过模型学习这些特征与房价之间的关系。

Model

f（x）=w1x1+w2x2+w3x3+b

总结

多维特征是指在机器学习任务中，每个数据点由多个属性组成的向量。处理多维特征时需要进行预处理、特征选择和特征工程等步骤，以确保数据适合用于建模。多维特征的存在使机器学习模型能够捕捉更复杂的模式，但也带来了维度灾难等问题，需要通过合适的技术手段来应对。

向量化

在机器学习中，“向量化”指的是将非数值数据转换为数值向量的过程。这种转换对于机器学习算法至关重要，因为大多数算法需要数值输入才能进行处理和训练。以下是几种常见的向量化方法：

文本向量化

词袋模型（Bag of Words, BoW）
- 在这个模型中，文档中的每个词都被看作独立的特征。每个文档都表示为一个向量，其中每个元素对应文本中某个词的出现频率或存在与否（二进制形式）。
TF-IDF（Term Frequency-Inverse Document Frequency）
- 这是词袋模型的一个改进版本，它不仅考虑了词在文档中的出现频率，还考虑了该词在整个文档集合中的重要性。一个词如果在所有文档中频繁出现，则其TF-IDF值会较低；而在少数文档中出现，则其TF-IDF值较高。
Word Embedding
- 这是一种更高级的方法，如Word2Vec和GloVe，它们将词汇映射到多维空间中的向量，这样可以捕捉到词与词之间的语义关系。
BERT（Bidirectional Encoder Representations from Transformers）
- BERT是一种基于Transformer架构的深度学习模型，它可以生成上下文敏感的词嵌入。通过预训练和微调的方式，BERT能够提供非常强大的文本特征表示。

非文本数据向量化

对于非文本数据，如图像、音频等，也有相应的向量化方法：

图像向量化
- 图像可以被转换成像素强度的向量。另外，也可以使用预训练的深度学习模型（如VGG、ResNet等），提取图像的特征向量。
音频向量化
- 音频信号可以通过提取其特征，如梅尔频率倒谱系数（MFCCs）、谱图等，然后将其转换成向量形式。

向量化工具

一些常用的工具和库可以帮助完成向量化过程，例如：

Scikit-learn 提供了多种文本向量化器，如CountVectorizer、TfidfVectorizer等。
TensorFlow 和 PyTorch 可以用于构建复杂的神经网络模型来提取特征。
gensim 库支持Word2Vec、Doc2Vec等词嵌入方法。

向量化是机器学习中一个关键步骤，选择合适的向量化方法取决于具体的应用场景和数据类型。正确地向量化数据能够显著提高模型的表现。

用于多元线性回归的梯度下降法

梯度下降法是一种优化算法，常用于求解最小化问题，比如最小化损失函数来找到最佳拟合参数。在多元线性回归中，目标是最小化预测值与实际值之间的差异，通常采用均方误差（Mean Squared Error, MSE）作为损失函数。

假设我们有一个多元线性回归模型：
$y = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{n} x_{n} + ϵ$
这里 ( y ) 是因变量，( x_1, x_2, ..., x_n ) 是自变量，( \theta_0, \theta_1, ..., \theta_n ) 是待估计的参数，( \epsilon ) 表示误差项。

损失函数定义为：
$J (θ) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}$
这里 ( h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_n x_n )，( m ) 是样本数量，( (x^{(i)}, y^{(i)}) ) 是第 ( i ) 个训练样本。

梯度下降的目标是最小化 ( J(\theta) )，即找到一组 ( \theta ) 值使得 ( J(\theta) ) 最小。梯度下降更新参数的规则如下：

初始化参数 ( \theta )，通常初始化为零或者随机值。
对于每一个参数 ( \theta_j )，执行下面的更新规则直到收敛：
[ \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta) ]

这里的 ( \alpha ) 称为学习率，是一个正数，决定了每一步更新的幅度大小。如果 ( \alpha ) 太大，可能会导致算法不收敛；如果太小，算法收敛速度会很慢。

偏导数计算如下：
$\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

对于 ( \theta_0 )，由于 ( x_0 ) 总是设为 1 （代表截距项），所以偏导数简化为：
$\frac{\partial}{\partial θ_{0}} J (θ) = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})$

重复上述过程，直到 ( J(\theta) ) 收敛或者达到最大迭代次数。

注意，在实际应用中，可能还需要对数据进行标准化（Normalization）或归一化（Scaling），以确保不同尺度的特征不会影响到梯度下降的效率。此外，还可以使用批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）或小批量梯度下降（Mini-batch Gradient Descent）等变种来改进基本梯度下降法。

特征缩放

在使用梯度下降法解决多元线性回归问题时，特征缩放（Feature Scaling）是非常重要的一步，因为它能帮助加速梯度下降的收敛速度，并且可以使每次迭代时的步长更加均匀。当特征尺度差异较大时，梯度下降的路径可能会呈现锯齿形，这会导致算法收敛较慢。

特征缩放的重要性

加速收敛：特征缩放后，各特征在同一数量级上，梯度下降的方向更加平滑，更容易快速收敛。
避免局部最优：对于一些非凸函数，良好的缩放有助于避免陷入局部最优。
均匀步长：特征缩放后的梯度下降在每次迭代时，步长更加均匀，不容易出现“跳跃”的现象。

如何进行特征缩放

最常见的特征缩放方法包括标准化（Standardization）和归一化（Normalization）。

标准化（Standardization）

也称为Z-score规范化，它将特征转换为均值为0、标准差为1的标准正态分布。计算公式如下：
$z = \frac{x - μ}{σ}$
这里 ( x ) 是特征值，( \mu ) 是该特征的平均值，( \sigma ) 是该特征的标准差。

归一化（Normalization）

也称为最小最大缩放（Min-Max Scaling），它将特征缩放到一个固定范围，通常是 [0, 1] 或者 [-1, 1]。计算公式如下：
$x^{'} = \frac{x - min (x)}{max (x) - min (x)}$
或者对于 [-1, 1] 范围：
$x^{'} = 2 \cdot \frac{x - min (x)}{max (x) - min (x)} - 1$

实现梯度下降算法时的步骤

初始化参数：设置初始参数 ( \theta )，通常是全部设置为零或其他较小的随机值。
特征缩放：对每个特征进行标准化或归一化处理。
计算损失：使用当前参数计算预测值与实际值之间的均方误差。
更新参数：根据计算出的梯度（偏导数）来更新参数 ( \theta )。
重复步骤3和4：直到达到预定的停止条件，如达到最大迭代次数或梯度变化小于某一阈值。

Python 示例代码

以下是一个简单的Python示例，展示如何使用scikit-learn中的StandardScaler进行特征缩放，并实现梯度下降法进行多元线性回归：

import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

# 假设 X 是特征矩阵，y 是目标变量
X = np.random.rand(100, 3)  # 生成100行3列的特征数据
y = np.random.rand(100)     # 生成100个目标值

# 特征缩放
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 使用SGD回归器实现梯度下降
regressor = SGDRegressor(max_iter=1000, tol=1e-3)
regressor.fit(X_scaled, y)

# 预测
predictions = regressor.predict(X_scaled)

# 计算MSE
mse = mean_squared_error(y, predictions)
print("Mean Squared Error:", mse)

在这个例子中，我们使用了StandardScaler来对特征进行标准化，并使用SGDRegressor来实现梯度下降。SGDRegressor是一个实现了随机梯度下降法的线性模型，适合处理大规模数据集。

判断梯度下降是否收敛

判断梯度下降是否收敛通常涉及监控损失函数（Loss Function）的变化趋势以及参数更新的幅度。以下是几种常用的方法来判断梯度下降是否已经收敛：

监控损失函数的变化趋势

损失函数的绝对变化：
- 如果连续几次迭代中损失函数的变化小于一个很小的阈值（例如，( \epsilon = 10^{-4} ) 或更小），那么可以认为算法已经收敛。具体公式可以表示为：
  $| J (θ^{(t + 1)}) - J (θ^{(t)}) | < ϵ$
  其中 ( t ) 表示迭代次数，( J(\theta) ) 是损失函数。
损失函数的相对变化：
- 类似于绝对变化，但是考虑的是相对变化率，这有助于处理不同尺度的问题。具体公式如下：
  $| \frac{J (θ^{(t + 1)}) - J (θ^{(t)})}{J (θ^{(t)})} | < ϵ$

监控参数更新的幅度

参数更新的幅度：
- 如果参数更新的幅度非常小，表明梯度接近于零，此时可以认为算法已经收敛。具体来说，如果对于所有的参数 ( \theta_i )，有：
  $| θ_{i}^{(t + 1)} - θ_{i}^{(t)} | < ϵ^{'}$
  其中 ( \epsilon' ) 是另一个小的阈值。

监控梯度的大小

梯度的大小：
- 如果梯度的模（即梯度向量的长度）小于一个特定的阈值，可以认为梯度接近于零，因此算法已经收敛。具体来说：
  $∥ \nabla J (θ) ∥ < ϵ^{″}$
  这里 ( \epsilon'' ) 是梯度大小的阈值。

使用验证集评估性能

验证集上的性能：
- 在某些情况下，除了监控训练集上的损失外，还可以在验证集上评估模型性能。如果验证集上的损失不再显著下降或开始上升，这可能是过拟合的迹象，可以提前终止训练。

达到最大迭代次数

最大迭代次数：
- 设置一个最大迭代次数，如果达到了这个次数，即使损失函数没有完全收敛，也停止迭代。这种方法简单但不精确。

实际应用建议

在实际应用中，通常会结合以上几种方法来判断是否收敛。例如，可以设定一个条件，当连续N次迭代中损失函数的变化小于某个阈值时，认为算法已经收敛。同时，设置一个最大迭代次数作为安全网，防止无限循环。

实现示例

以下是一个简单的Python示例，展示了如何在梯度下降过程中监控损失函数的变化来判断是否收敛：

def gradient_descent(X, y, theta, alpha, num_iters, epsilon):
    m = len(y)
    J_history = []
    
    for _ in range(num_iters):
        # 计算梯度
        gradients = (1 / m) * X.T @ (X @ theta - y)
        
        # 更新参数
        theta -= alpha * gradients
        
        # 计算损失
        J = (1 / (2 * m)) * np.sum((X @ theta - y) ** 2)
        J_history.append(J)
        
        # 检查是否收敛
        if len(J_history) > 1:
            if abs(J_history[-1] - J_history[-2]) < epsilon:
                print("Converged.")
                break
    
    return theta, J_history

# 假定 X, y 已经定义好，并且进行了特征缩放
theta = np.zeros(X.shape[1])
alpha = 0.01
num_iters = 1500
epsilon = 1e-6

theta_opt, loss_history = gradient_descent(X, y, theta, alpha, num_iters, epsilon)
print("Optimized theta:", theta_opt)

这段代码演示了如何在每次迭代后检查损失函数的变化，以确定是否达到收敛条件。在实际应用中，可以根据具体情况调整这些条件。

如何设置学习率

设置学习率（Learning Rate）是梯度下降算法中一个非常重要的步骤，因为学习率的选择直接影响到算法的收敛速度和最终的性能。学习率太大可能导致算法不收敛，甚至发散；学习率太小则可能导致收敛速度非常慢。以下是几种常用的方法来设置和调整学习率：

1. 试错法（Trial and Error）

这是最直接的方法，通常涉及以下几个步骤：

选择一系列候选的学习率值（例如，0.001, 0.01, 0.1, 1 等）。
对于每个候选值，运行梯度下降算法并监控损失函数的变化。
选择使得损失函数快速下降并且最终收敛的学习率。

2. 学习率衰减（Learning Rate Decay）

随着迭代次数增加，逐步降低学习率可以帮助算法更精细地调整参数，避免在靠近最优解时跳过它。常见的学习率衰减策略包括：

指数衰减：
$α (t) = α_{0} e^{- γ t}$
其中 ( \alpha_0 ) 是初始学习率，( \gamma ) 是衰减速率。
逆时间衰减：
$α (t) = \frac{α_{0}}{1 + γ t}$
这种方法随着迭代次数增加，学习率逐渐减小。
阶梯式衰减：
$α (t) = α_{0} \times {decay_rate}^{⌊ \frac{t}{d e c a y_s t e p s} ⌋}$
即每隔一定步数，学习率按一定比例减少。

3. 自适应学习率方法

这些方法自动调整学习率，使得不需要手动调节：

AdaGrad：
- 通过累积历史梯度的平方来动态调整每个参数的学习率。
- 适用于稀疏数据的情况。
RMSProp：
- 修正了AdaGrad学习率递减过快的问题，使用滑动窗口的平方梯度均值。
Adam（Adaptive Moment Estimation）：
- 结合了AdaGrad和RMSProp的优点，并增加了动量机制，使得收敛速度更快。

4. 网格搜索（Grid Search）

这种方法涉及到在一个预先定义好的网格上测试多个学习率和其他超参数的组合，以找到最佳配置。通常配合交叉验证（Cross Validation）一起使用。

5. 学习率调度（Learning Rate Scheduling）

在训练过程中，根据一定的规则或条件调整学习率。例如，当验证集上的性能不再改善时，减小学习率（Reduce on Plateau）。

实践建议

在实践中，通常会先尝试一个合理的学习率范围内的几个值，然后根据损失函数的变化趋势来调整。如果发现损失函数长时间不变或者增加，说明学习率可能过大；如果下降非常缓慢，则学习率可能过小。

示例代码

以下是一个使用学习率衰减的简单示例：

import numpy as np

def gradient_descent(X, y, theta, alpha, decay_rate, num_iters):
    m = len(y)
    J_history = []
    alpha_t = alpha
    
    for t in range(num_iters):
        # 学习率衰减
        alpha_t = alpha / (1 + decay_rate * t)
        
        # 计算梯度
        gradients = (1 / m) * X.T @ (X @ theta - y)
        
        # 更新参数
        theta -= alpha_t * gradients
        
        # 计算损失
        J = (1 / (2 * m)) * np.sum((X @ theta - y) ** 2)
        J_history.append(J)
        
        # 输出当前迭代的信息
        if t % 100 == 0:
            print(f"Iteration {t}: Loss = {J:.6f}")
    
    return theta, J_history

# 假定 X, y 已经定义好，并且进行了特征缩放
theta = np.zeros(X.shape[1])
alpha = 0.1
decay_rate = 0.01
num_iters = 1500

theta_opt, loss_history = gradient_descent(X, y, theta, alpha, decay_rate, num_iters)
print("Optimized theta:", theta_opt)

在这个例子中，学习率随着迭代次数的增加而衰减，以帮助算法更好地收敛。实际应用中，可能还需要结合其他技术和方法来进一步优化学习率的选择。

多项式回归

多项式回归（Polynomial Regression）是一种扩展线性回归模型的方法，通过引入高阶项来捕捉变量间的非线性关系。多项式回归可以在一定程度上克服线性回归模型的局限性，特别是在数据呈现非线性关系的情况下。

基本概念

在标准的一元线性回归模型中，模型的形式为：
$y = θ_{0} + θ_{1} x + ϵ$

在多项式回归中，我们引入更高阶的项，模型变为：
$y = θ_{0} + θ_{1} x + θ_{2} x^{2} + θ_{3} x^{3} + \dots + θ_{n} x^{n} + ϵ$
这里 ( n ) 是多项式的阶数，( \theta_i ) 是模型参数，( \epsilon ) 是误差项。

多项式回归的特点

灵活性：通过调整多项式的阶数，可以更好地拟合数据中的非线性模式。
过度拟合的风险：如果多项式的阶数过高，可能会导致模型过于复杂，从而出现过度拟合的问题。
解释性：相比于高维的特征空间，多项式回归仍然保持较高的可解释性。

实现多项式回归

在Python中，可以使用sklearn库来实现多项式回归。以下是一个简单的示例：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 生成模拟数据
np.random.seed(0)
X = 2 - 3 * np.random.normal(0, 1, 20)
y = X - 2 * (X ** 2) + 0.5 * (X ** 3) + np.random.normal(-3, 3, 20)

# 重塑数据以便绘图
X = X[:, np.newaxis]
y = y[:, np.newaxis]

# 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建多项式特征
degree = 3  # 多项式的阶数
polynomial_features = PolynomialFeatures(degree=degree)

# 创建线性回归模型
model = make_pipeline(PolynomialFeatures(degree), LinearRegression())

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# 计算MSE
mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)

print(f"Training MSE: {mse_train:.2f}")
print(f"Testing MSE: {mse_test:.2f}")

# 绘制结果
plt.scatter(X_train, y_train, label="Training Data")
plt.scatter(X_test, y_test, color='red', label="Testing Data")
plt.plot(X_train, y_pred_train, color='blue', linewidth=3, label="Polynomial Fit")

plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

选择多项式的阶数

选择合适的多项式阶数是一个重要的问题。通常，可以通过交叉验证（Cross Validation）来选择最优的多项式阶数。如果阶数太低，模型可能欠拟合；如果阶数太高，模型可能过度拟合。一种常用的方法是使用k折交叉验证（k-fold CV）来评估不同阶数下的模型性能，并选择性能最好的阶数。

多项式回归的注意事项

特征缩放：在使用多项式回归之前，通常需要对特征进行缩放（如标准化或归一化），以避免由于特征尺度不同而导致的收敛问题。
正则化：为了防止过拟合，可以使用正则化技术（如岭回归、Lasso回归等）来限制模型的复杂度。
特征选择：在高维特征空间中，可以使用特征选择技术来减少特征的数量，从而简化模型。

通过适当的特征工程和模型选择，多项式回归可以有效地捕捉数据中的非线性关系，提高预测的准确性和模型的泛化能力。

标签：吴恩达,特征,梯度,模型,笔记,学习,theta,收敛
From： https://www.cnblogs.com/jhhhred/p/18425325

吴恩达机器学习课程 笔记3 多元线性回归梯度下降