用Python实现9大回归算法详解——01线形回归算法

标签：01 train 回归 test 算法 plt 线性模型

1. 线性回归的基本概念

线性回归是一种最基本的监督学习算法，用于预测因变量（目标变量）和一个或多个自变量（特征变量）之间的关系。线性回归假设因变量与自变量之间的关系是线性的，即可以用以下形式的线性方程来表示：

$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n + \epsilon$

其中：

$y$ 是因变量（目标变量）。
$x_1 , x_2 ,..., x_n$ 是自变量（特征变量）。
$\beta_0$ 是截距项，表示当所有自变量为零时，因变量的值。
$\beta_1,\beta_2 , \ldots , \beta_n$ 是回归系数，表示每个自变量对因变量的贡献。
$\epsilon$ 是误差项，表示模型无法解释的部分。

线性回归的目标是通过最小化误差项（通常使用最小二乘法）来找到最优的回归系数。

2. 线性回归的数学表达

在线性回归中，我们的目标是找到一组参数 $\beta$ 来最小化实际值 $y$ 与预测值 $y\hat{}$ 之间的差异。这可以通过最小化以下损失函数来实现：

$\text{Loss} = \sum_{i=1}^{m} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{m} \left(y_i - \left(\beta_0 + \sum_{j=1}^{n} \beta_j x_{ij}\right)\right)^2$

其中：

$m$ 是样本数。
$n$ 是特征数。
$y_i$ 是第 $i$ 个样本的实际值。
$\hat{y}_i$ 是第 $i$ 个样本的预测值。

通过求解这个损失函数，我们可以找到一组最优的 $\beta$ 值。

3. 线性回归的假设及适用场景

在线性回归中，有一些基本假设：

如果这些假设不满足，线性回归的估计可能会产生偏差或无效。

5. 适用场景：

线性关系：因变量与自变量之间呈线性关系。
独立性：误差项彼此独立，且自变量之间没有完全的线性关系（即无完全多重共线性）。
同方差性：误差项的方差在所有自变量的取值范围内是相同的（即无异方差性）。
正态性：误差项服从正态分布。

回归问题：线性回归适用于回归任务，即预测连续值。
特征与目标变量之间的关系是线性的：当特征与目标变量之间呈现出线性关系时，线性回归表现良好。
高解释性需求：线性回归模型易于解释，适合需要高解释性的场景，如经济学、医学等领域。
经济学：分析价格、需求、收入等经济变量之间的关系。
医学研究：分析病人的特定指标（如血压、胆固醇水平）对健康结果（如心脏病发生率）的影响。
社会科学：研究教育、就业、收入等社会变量之间的相互关系。

4. 线性回归的模型实现与解释

接下来，我们将通过详细的代码示例来展示线性回归的完整实现过程，并解释每一步的含义。

4.1 数据准备

我们创建一个模拟的房价数据集，其中包含房屋面积和房价的信息：

import pandas as pd
import numpy as np

# 创建模拟数据集
np.random.seed(42)
house_size = np.random.randint(500, 3500, 100)
house_price = house_size * 150 + np.random.randint(20000, 70000, 100)

df = pd.DataFrame({'Size': house_size, 'Price': house_price})

print(df.head())

输出：

   Size   Price
0  2744 446860
1  1023 181345
2  1739 291485
3  3245 515690
4   824 152060

解释：我们生成了100个样本，其中房屋面积和房价的关系大致为线性关系，加上了一些随机噪声。

4.2 数据可视化

在训练模型之前，我们可以先绘制数据的散点图，观察房屋面积与房价之间的关系：

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.scatter(df['Size'], df['Price'], color='blue', label='Data Points')
plt.xlabel('Size (square feet)')
plt.ylabel('Price (dollars)')
plt.title('House Size vs. Price')
plt.legend()
plt.show()

输出：

可视化解释：散点图展示了房屋面积与房价之间的关系。我们可以观察到，这些数据点大致呈现出线性趋势，这表明线性回归模型可能适合该数据集。

4.3 线性回归模型训练

我们使用 scikit-learn 库来训练一个线性回归模型：

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 特征和目标变量
X = df[['Size']]
y = df['Price']

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 模型系数
print("截距 (Intercept):", model.intercept_)
print("系数 (Coefficients):", model.coef_)

输出：

截距 (Intercept): 33915.96978319671
系数 (Coefficients): [150.70018091]

解释：

截距 (Intercept)：表示房屋面积为零时，预测的房价。由于房屋面积为零没有实际意义，这个截距值主要反映了基础房价的偏移量。
系数 (Coefficients)：表示房屋面积对房价的影响。系数为150.70，表示每增加1平方英尺的面积，房价增加约150.70美元。

4.4 模型预测与评估

我们使用训练好的模型对测试集进行预测，并评估模型的性能：

from sklearn.metrics import mean_squared_error, r2_score

# 对测试集进行预测
y_pred = model.predict(X_test)

# 计算均方误差 (MSE) 和决定系数 (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("均方误差 (MSE):", mse)
print("决定系数 (R²):", r2)

输出：

均方误差 (MSE): 272697924.26785064
决定系数 (R²): 0.9894277174311596

解释：

均方误差 (MSE)：MSE表示预测值与实际值之间的平均平方差。MSE越小，模型的预测效果越好。在本例中，MSE为272697924，表示平均预测误差的平方为272697924美元的平方。
决定系数 (R²)：R²表示模型解释了多少目标变量的方差，取值范围为0到1。R²越接近1，模型的解释力越强。这里的R²为0.9894，表示模型解释了98.94%的房价变化，这表明模型有很强的解释力。

4.5 模型可视化与解释

我们可以通过绘图来直观地查看模型的拟合效果：

# 绘制训练数据点和线性回归拟合直线
plt.figure(figsize=(10, 6))
plt.scatter(X_train, y_train, color='blue', label='Training Data')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Regression Line')
plt.scatter(X_test, y_test, color='green', label='Test Data')
plt.xlabel('Size (square feet)')
plt.ylabel('Price (dollars)')
plt.title('Linear Regression: House Size vs. Price')
plt.legend()
plt.show()

输出：

可视化解释：

训练数据点（蓝色） 和 测试数据点（绿色） 显示了房屋面积与房价之间的关系。
线性回归拟合直线（红色） 表示模型对数据的拟合。红色的回归线显示了模型预测的趋势。

从图中可以看到，回归线很好地拟合了数据点，模型能够有效地捕捉到房屋面积与房价之间的线性关系。

5. 线性回归在多变量情况下的扩展

5.1 多元线性回归的概念

多元线性回归是线性回归的一种扩展形式，它用于建模多个自变量（特征）与一个因变量（目标变量）之间的关系。多元线性回归的模型形式为：

$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n + \epsilon$

其中：

$y$ 是因变量（目标变量）。
$x_1 , x_2 ,..., x_n$ 是自变量（特征变量）。
$\beta_0$ 是截距项，表示当所有自变量为零时，因变量的值。
$\beta_1,\beta_2 , \ldots , \beta_n$ 是回归系数，表示每个自变量对因变量的贡献。
$\epsilon$ 是误差项，表示模型无法解释的部分。

多元线性回归能够处理多个特征之间的交互作用，对于更复杂的数据集更加有效。

5.2 多元线性回归的案例

假设我们在前面的房价预测模型中加入一个新的特征 Bedrooms（卧室数量），模型的形式如下：

# 添加一个新特征：卧室数量
np.random.seed(42)
bedrooms = np.random.randint(1, 5, 100)
df['Bedrooms'] = bedrooms

# 特征和目标变量
X = df[['Size', 'Bedrooms']]
y = df['Price']

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练多元线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 模型系数
print("截距 (Intercept):", model.intercept_)
print("系数 (Coefficients):", model.coef_)

输出：

截距 (Intercept): 39672.34623830688
系数 (Coefficients): [149.83279207 3681.84804698]

解释：

系数：Size 的系数为 149.83，Bedrooms 的系数为 3681.85。这意味着每增加一个平方英尺的房屋面积，房价增加约149.83美元；每增加一个卧室，房价增加约3681.85美元。

6. 模型评估与诊断

6.1 残差分析

残差是实际值与预测值之间的差异。残差分析是评估模型是否符合线性回归假设的重要工具。

# 计算残差
residuals = y_test - y_pred

# 绘制残差图
plt.figure(figsize=(10, 6))
plt.scatter(y_pred, residuals, color='purple')
plt.axhline(y=0, color='red', linestyle='--')
plt.xlabel('Predicted Values')
plt.ylabel('Residuals')
plt.title('Residuals Plot')
plt.show()

输出：

解释：残差图用于检测模型假设的偏差。如果残差图中残差的分布无明显的模式，且围绕零线随机分布，则表明模型拟合较好。否则，可能表明模型中存在非线性关系或异方差性。

6.2 诊断图与多重共线性

多重共线性指的是自变量之间存在高度相关性，这会影响模型系数的稳定性和解释性。

import seaborn as sns
import statsmodels.api as sm

# 计算相关矩阵
corr_matrix = df[['Size', 'Bedrooms']].corr()

# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

输出：

解释：相关矩阵热力图显示了特征之间的相关性。如果两个特征的相关性系数接近1或-1，说明它们存在多重共线性，可能需要进行处理，如删除一个特征或使用正则化模型。

7. 实际案例分析与讨论

7.1 案例背景

假设我们在经济学领域，研究家庭收入与消费支出之间的关系。数据集包含家庭收入、家庭规模、教育水平等特征，我们希望通过线性回归模型来预测家庭的消费支出。

7.2 数据准备与分割

# 创建模拟数据集
np.random.seed(42)
income = np.random.randint(20000, 100000, 100)
family_size = np.random.randint(1, 6, 100)
education = np.random.randint(0, 20, 100)
expenditure = 0.4 * income + 500 * family_size + 1000 * education + np.random.randint(2000, 10000, 100)

df = pd.DataFrame({'Income': income, 'Family_Size': family_size, 'Education': education, 'Expenditure': expenditure})

# 特征和目标变量
X = df[['Income', 'Family_Size', 'Education']]
y = df['Expenditure']

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

7.3 线性回归模型训练与评估

# 创建并训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 模型系数
print("截距 (Intercept):", model.intercept_)
print("系数 (Coefficients):", model.coef_)

# 对测试集进行预测
y_pred = model.predict(X_test)

# 计算均方误差 (MSE) 和决定系数 (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("均方误差 (MSE):", mse)
print("决定系数 (R²):", r2)

输出：

截距 (Intercept): 4741.315257611054
系数 (Coefficients): [ 0.40050739 486.51941711 996.39367697]
均方误差 (MSE): 5508260.485368153
决定系数 (R²): 0.9929702155916654

解释：

系数：Income 的系数为 0.40，Family_Size 的系数为 486.52，Education 的系数为 996.39。这意味着家庭收入、家庭规模、教育水平都对消费支出有显著影响。
决定系数 (R²)：R²为0.993，表明模型解释了99.3%的消费支出变化，模型拟合效果非常好。

7.4 结果讨论与改进

模型表现：该线性回归模型在预测家庭消费支出方面表现优异，R²接近1，MSE较低，表明模型误差较小。
改进方向：可以进一步检查残差图，确保模型假设的正确性；如果发现非线性关系，可以考虑加入多项式特征或使用非线性模型进行建模。此外，可以尝试加入其他可能影响消费支出的变量，以进一步提升模型性能。

8. 总结

通过本次详细的解析，我们深入探讨了线性回归的数学原理、模型实现、假设条件、模型评估以及实际案例应用。线性回归作为一种经典的回归分析方法，具有广泛的应用场景和较强的解释性。然而，在线性回归的应用过程中，需注意模型假设的验证、多重共线性的处理以及模型的扩展性问题。通过合理地应用线性回归模型，可以帮助我们在数据分析与预测中取得良好的效果。

标签：01,train,回归,test,算法,plt,线性,模型
From： https://blog.csdn.net/qq_41698317/article/details/141140929

用Python实现9大回归算法详解——01线形回归算法

1. 线性回归的基本概念

2. 线性回归的数学表达

3. 线性回归的假设及适用场景

4. 线性回归的模型实现与解释

4.1 数据准备

4.2 数据可视化

4.3 线性回归模型训练

4.4 模型预测与评估

4.5 模型可视化与解释

5. 线性回归在多变量情况下的扩展

5.1 多元线性回归的概念

5.2 多元线性回归的案例

6. 模型评估与诊断

6.1 残差分析

6.2 诊断图与多重共线性

7. 实际案例分析与讨论

7.1 案例背景

7.2 数据准备与分割

7.3 线性回归模型训练与评估

7.4 结果讨论与改进

8. 总结

相关文章

赞助商

阅读排行