首页 > 编程语言 >基于Python的机器学习系列(17):梯度提升回归(Gradient Boosting Regression)

基于Python的机器学习系列(17):梯度提升回归(Gradient Boosting Regression)

时间:2024-08-31 11:57:54浏览次数:12  
标签:17 Python 梯度 模型 残差 Gradient train test 预测器

简介

        梯度提升(Gradient Boosting)是一种强大的集成学习方法,类似于AdaBoost,但与其不同的是,梯度提升通过在每一步添加新的预测器来减少前一步预测器的残差。这种方法通过逐步改进模型,能够有效提高预测准确性。

梯度提升回归的工作原理

        在梯度提升回归中,我们逐步添加预测器来修正模型的残差。以下是梯度提升的基本步骤:

  1. 初始化模型:选择一个初始预测器 h0(x),计算该预测器的预测值。
  2. 计算残差:计算每个样本的残差,残差是实际值与当前预测值之间的差异。
  3. 训练新预测器:用计算得到的残差作为目标,训练一个新的预测器 h1(x)。
  4. 更新模型:将新预测器的预测结果加到现有模型中。
  5. 重复步骤:重复上述步骤,逐步添加更多的预测器,以减少残差。

目标函数与残差

        在回归问题中,我们希望通过添加新的预测器来最小化残差。具体来说,对于每个样本 (x(i),y(i)),我们计算预测器的残差:

        我们希望新的预测器 h1(x)能够进一步减少这个残差:

        通过这样的方式,我们可以不断改进模型的预测能力。

梯度提升回归的损失函数

        在回归中,我们通常使用均方误差(MSE)作为损失函数:

        我们的目标是通过每一步最小化残差,从而最小化整体损失函数。

代码示例

        下面的代码示例展示了如何使用sklearn中的GradientBoostingRegressor实现梯度提升回归:        

from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error

# 生成数据集
X, y = make_regression(n_samples=500, noise=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建和训练模型
gbr = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gbr.fit(X_train, y_train)

# 进行预测和评估
y_pred = gbr.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差: {mse:.2f}")

结语

        与之前讨论的决策树、Bagging、随机森林相比,梯度提升回归通过逐步优化模型的残差来提升预测性能。决策树和Bagging方法通过集成多个模型来减少方差,而随机森林进一步通过随机特征选择来去相关性。梯度提升则通过序列化的方式不断改进模型,强调对残差的逐步修正。每种方法都有其独特的优势和适用场景,选择合适的模型可以显著提高预测的准确性。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

标签:17,Python,梯度,模型,残差,Gradient,train,test,预测器
From: https://blog.csdn.net/ljd939952281/article/details/141691322

相关文章

  • 基于Python的机器学习系列(16):扩展 - AdaBoost
    简介        在本篇中,我们将扩展之前的AdaBoost算法实现,深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题,并对AdaBoost的实现进行一些调整,以提高其准确性和可用性。1.修复Alpha计算中的问题        在AdaBoost中,如果分类器的错误率e为0,则......
  • Python库的位置
    1,操作系统命令行看系统python的库wherepythonC:\Users\augus\AppData\Local\Microsoft\WindowsApps\python.exe>>>foriteminsys.path:...print(item)...C:\ProgramFiles\WindowsApps\PythonSoftwareFoundation.Python.3.12_3.12.1520.0_x64__qbz5n2kfra......
  • (2024最新毕设合集)基于SpringBoot的校园设备维修管理系统-16364|可做计算机毕业设计JAV
    基于Springboot的校园设备维修管理系统的设计与实现摘 要基于Springboot的校园设备维修管理系统的设计与实现是一个结合了网络技术和信息管理的项目。该系统能满足校园报修管理的实际需求,通过网络进行信息管理,使得设备维修更加及时有效。本设计主要实现集人性化、高效率、......
  • [Python手撕]大数加法
    num1=input()num2=input()defcompare(num1,num2):foriinrange(len(num1)):ifnum1[i]>num2[i]:return0elifnum1[i]<num2[i]:return1return2#解析符号flag1=0flag2=0ifnum1[0]=="-......
  • [Python手撕]环的检测
    检测环快慢指针法是一种用于检测链表中是否存在环的有效方法,同时也可以找到环的起点。该方法的原理基于两个指针在链表上同时移动,其中一个移动得更快,而另一个移动得更慢。检测环的存在:使用两个指针,一个称为快指针(fast),一个称为慢指针(slow)。在每一步中,快指针向前移动两步,而慢......
  • [Python手撕]二分法
    二分法二分法的几个位置比如01234567891233333456有时候想要寻找小于3的最大数字有时候想要寻找第一个满足>=3的数字,有时候想要寻找最后一个满足>=3的数字,有时候想要寻找小于4的最大数字nums=[1,2,3,4,5,5,5,5,5,6,7,8,9]n=......
  • [Python手撕]TOPK
    TOPK问题描述:从arr[1,n]这n个数中,找出最大的k个数,这就是经典的TopK问题。栗子:从arr[1,12]={5,3,7,1,8,2,9,4,7,2,6,6}这n=12个数中,找出最大的k=5个。整体排序排序是最容易想到的方法,将n个数排序之后,取出最大的k个,即为所得。伪代码:sort(arr,1,n);returnarr[1,k];......
  • 豆包 API 调用示例代码详解-Python版
    文章目录豆包API调用示例代码详解-Python版一、事前准备二、所需Python包三、代码详解五、源码下载四、总结豆包官方API文档豆包API调用示例代码详解-Python版在本文中,我们将详细介绍如何使用Python调用豆包API,并提供相关的事前准备和代码执行步骤。一、......
  • 使用 Python 实现自动化办公
    使用Python实现自动化办公在现代办公环境中,自动化是提高工作效率和减少人为错误的重要手段之一。Python是一种功能强大且灵活的编程语言,可以轻松地实现自动化办公任务。下面是一个简单的示例,展示如何使用Python实现自动化办公:需求:假设我们有一个Excel文件,名为"报表.xls......
  • 前端必知必会-CSS 渐变Gradients(上)
    文章目录CSS渐变CSS线性渐变使用角度使用多个颜色停止点使用透明度重复线性渐变CSS径向渐变径向渐变-均匀分布的色标(这是默认设置)径向渐变-不同分布的色标设置形状使用不同的Size关键字重复径向渐变总结CSS渐变CSS渐变可让您在两种或多种指定颜色之间......