机器学习_回归算法详解

标签：机器 train 回归 print 算法详解 pred test model

机器学习中的回归算法用于预测连续数值输出（目标变量），通过学习输入特征（自变量）与目标变量之间的关系。以下详细介绍几种常见的回归算法及其工作原理，并提供相应的代码示例。

1. 线性回归（Linear Regression）

1.1 简介

线性回归是最简单、最常用的回归算法之一，假设目标变量 ( y ) 与输入特征 ( X ) 之间存在线性关系。

y = w T X + b y = \mathbf{w}^T \mathbf{X} + b y=wTX+b

其中，w 是权重向量，( b ) 是偏置项。

1.2 工作原理

线性回归通过最小化均方误差（MSE）来找到最佳拟合线。
MSE = 1 n ∑ i = 1 n ( y i − ( w T X i + b ) ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - (\mathbf{w}^T \mathbf{X}_i + b))^2 MSE=n1i=1∑n(yi−(wTXi+b))2

1.3 代码示例

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# 生成数据
X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Coefficients: {model.coef_}")
print(f"Intercept: {model.intercept_}")
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

2. 多项式回归（Polynomial Regression）

2.1 简介

多项式回归扩展了线性回归，通过引入多项式特征来拟合非线性关系。
y = w 0 + w 1 x + w 2 x 2 + … + w d x d y = w_0 + w_1 x + w_2 x^2 + \ldots + w_d x^d y=w0+w1x+w2x2+…+wdxd

2.2 工作原理

通过将输入特征扩展到多项式特征空间，然后应用线性回归来找到最佳拟合曲线。

2.3 代码示例

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# 生成数据
X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练多项式回归模型
poly = PolynomialFeatures(degree=2)
model = make_pipeline(poly, LinearRegression())
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

3. 岭回归（Ridge Regression）

3.1 简介

岭回归是线性回归的扩展，加入了L2正则化项来防止过拟合。
J ( w ) = 1 n ∑ i = 1 n ( y i − ( w T X i + b ) ) 2 + λ ∑ j = 1 p w j 2 J(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - (\mathbf{w}^T \mathbf{X}_i + b))^2 + \lambda \sum_{j=1}^{p} w_j^2 J(w)=n1i=1∑n(yi−(wTXi+b))2+λj=1∑pwj2

3.2 工作原理

通过引入L2正则化项，惩罚大权重，从而防止模型对训练数据过度拟合。

3.3 代码示例

from sklearn.linear_model import Ridge

# 创建并训练岭回归模型
model = Ridge(alpha=1.0)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Coefficients: {model.coef_}")
print(f"Intercept: {model.intercept_}")
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

4. 套索回归（Lasso Regression）

4.1 简介

套索回归（Lasso）是线性回归的另一扩展，加入了L1正则化项，能够产生稀疏模型（即部分系数为零）。
J ( w ) = 1 n ∑ i = 1 n ( y i − ( w T X i + b ) ) 2 + λ ∑ j = 1 p ∣ w j ∣ J(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - (\mathbf{w}^T \mathbf{X}_i + b))^2 + \lambda \sum_{j=1}^{p} |w_j| J(w)=n1i=1∑n(yi−(wTXi+b))2+λj=1∑p∣wj∣

4.2 工作原理

通过引入L1正则化项，惩罚系数的绝对值，从而推动部分系数变为零，简化模型。

4.3 代码示例

from sklearn.linear_model import Lasso

# 创建并训练套索回归模型
model = Lasso(alpha=0.1)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Coefficients: {model.coef_}")
print(f"Intercept: {model.intercept_}")
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

5. 弹性网络回归（Elastic Net Regression）

5.1 简介

弹性网络回归结合了L1和L2正则化项，具有岭回归和套索回归的优点。
J ( w ) = 1 n ∑ i = 1 n ( y i − ( w T X i + b ) ) 2 + λ 1 ∑ j = 1 p ∣ w j ∣ + λ 2 ∑ j = 1 p w j 2 J(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - (\mathbf{w}^T \mathbf{X}_i + b))^2 + \lambda_1 \sum_{j=1}^{p} |w_j| + \lambda_2 \sum_{j=1}^{p} w_j^2 J(w)=n1i=1∑n(yi−(wTXi+b))2+λ1j=1∑p∣wj∣+λ2j=1∑pwj2

5.2 工作原理

通过同时使用L1和L2正则化项，既能产生稀疏模型，又能稳定模型参数。

5.3 代码示例

from sklearn.linear_model import ElasticNet

# 创建并训练弹性网络回归模型
model = ElasticNet(alpha=0.1, l1_ratio=0.5)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Coefficients: {model.coef_}")
print(f"Intercept: {model.intercept_}")
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

6. 决策树回归（Decision Tree Regression）

6.1 简介

决策树回归使用树结构对数据进行划分，每个叶子节点表示目标变量的预测值。

6.2 工作原理

通过递归地将数据集分成更小的子集，决策树找到能够最小化均方误差的分裂点。

6.3 代码示例

from sklearn.tree import DecisionTreeRegressor

# 创建并训练决策树回归模型
model = DecisionTreeRegressor(max_depth=5)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

7. 随机森林回归（Random Forest Regression）

7.1 简介

随机森林回归使用多个决策树的集合进行预测，通过平均所有树的预测结果提高模型的稳定性和准确性。

7.2 工作原理

通过引入随机性，生成多个不同的决策树，减少单一决策树的过拟合风险。

7.3 代码示例

from sklearn.ensemble import RandomForestRegressor

# 创建并训练随机森林回归模型
model = RandomForestRegressor(n_estimators=100, max_depth=5, random_state=42)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

当然，继续介绍支持向量回归（Support Vector Regression, SVR）的详细内容及其代码示例。

8. 支持向量回归（Support Vector Regression, SVR）

8.1 简介

支持向量回归（SVR）是支持向量机（SVM）的回归版本。它通过寻找一个最优的回归超平面，使得大多数数据点在超平面上的偏差不超过某个阈值 ε，同时尽量保持模型的平滑性。

8.2 工作原理

SVR通过引入ε-不敏感损失函数，将偏差在 ε 范围内的数据点的损失视为0。其目标是找到一个平衡的模型，使得：

数据点离超平面距离小于 ε 的部分不产生损失。
数据点离超平面距离大于 ε 的部分产生线性损失。

SVR的优化目标可以表示为：
min ⁡ w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 n ( ξ i + ξ i ∗ ) \min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^{n} (\xi_i + \xi_i^*) w,bmin21∥w∥2+Ci=1∑n(ξi+ξi∗)
其中：

w2是正则化项，用于平滑模型。
xi_i 和 xi_i^* 是松弛变量，用于处理误差超过 ε 的数据点。
( C ) 是惩罚参数，控制误差和模型复杂度之间的权衡。

8.3 代码示例

以下示例展示如何使用支持向量回归模型进行训练和预测。

import numpy as np
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
import matplotlib.pyplot as plt

# 生成数据
X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练支持向量回归模型
model = SVR(kernel='rbf', C=1.0, epsilon=0.1)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)

# 打印结果
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='True Values')
plt.scatter(X_test, y_pred, color='red', label='Predicted Values')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Support Vector Regression')
plt.legend()
plt.show()

8.4 参数说明

kernel: 核函数类型，常用的有 ‘linear’、‘poly’、‘rbf’（径向基函数）和 ‘sigmoid’。
C: 惩罚参数，控制模型对误差的容忍度。较大的 C 值会导致模型对训练数据更严格拟合。
epsilon: ε-不敏感损失函数的宽度，控制对误差的容忍范围。

9. K近邻回归（K-Nearest Neighbors Regression）

9.1 简介

K近邻回归基于K个最近邻样本的平均值或加权平均值进行预测。

9.2 工作原理

KNN回归通过计算样本点与训练集所有样本点的距离，选择距离最近的K个样本进行预测。

9.3 代码示例

from sklearn.neighbors import KNeighborsRegressor

# 创建并训练K近邻回归模型
model = KNeighborsRegressor(n_neighbors=5)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

10. 贝叶斯回归（Bayesian Regression）

10.1 简介

贝叶斯回归通过引入先验分布对模型参数进行推断，使得模型具有更好的鲁棒性。

10.2 工作原理

贝叶斯回归通过计算后验分布，结合数据和先验信息，得到参数的最优估计。

10.3 代码示例

from sklearn.linear_model import BayesianRidge

# 创建并训练贝叶斯回归模型
model = BayesianRidge()
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

11. 提升回归（Boosting Regression）

11.1 简介

提升回归是一种集成方法，通过结合多个弱学习器（通常是决策树）提高预测性能。

11.2 工作原理

提升回归通过逐步训练弱学习器，每一步根据之前的错误进行调整，从而提高模型性能。

11.3 代码示例

from sklearn.ensemble import GradientBoostingRegressor

# 创建并训练提升回归模型
model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
model.fit(X_train, y_train)

# 预测与评估
y_pred = model.predict(X_test)
print(f"Mean Squared Error: {np.mean((y_pred - y_test)**2)}")

总结

回归算法在机器学习中有广泛的应用，选择合适的回归算法取决于具体的应用场景、数据特性和模型需求。常见的回归算法包括线性回归、多项式回归、岭回归、套索回归、弹性网络回归、决策树回归、随机森林回归、支持向量回归、K近邻回归、贝叶斯回归和提升回归等。通过结合具体问题选择适当的算法，可以提高模型的预测精度和泛化能力。

标签：机器,train,回归,print,算法,详解,pred,test,model
From： https://blog.csdn.net/a6181816/article/details/139313659