基于Python的机器学习系列（18）：梯度提升分类（Gradient Boosting Classification）

时间：2024-09-01 09:57:12浏览次数：13

标签：Classification Python 梯度 self 分类 models yhat Boosting 模型

简介

梯度提升（Gradient Boosting）是一种集成学习方法，通过逐步添加新的预测器来改进模型。在回归问题中，我们使用梯度来最小化残差。在分类问题中，我们可以利用梯度提升来进行二分类或多分类任务。与回归不同，分类问题需要使用如softmax这样的概率模型来处理类别标签。

梯度提升分类的工作原理

梯度提升分类的基本步骤与回归类似，但在分类任务中，我们使用概率模型来处理预测结果：

初始化模型：选择一个初始预测器，这里使用DummyClassifier来作为第一个模型。
计算梯度：计算每个样本的梯度，梯度是当前预测值与真实标签之间的差异。
训练新预测器：用计算得到的梯度作为目标，训练一个新的分类器。
更新模型：将新预测器的结果加到现有模型中。
重复步骤：重复上述步骤，逐步添加更多的预测器以改进模型的分类能力。

二分类示例

在二分类任务中，梯度提升分类器的工作流程如下：

预测概率：通过softmax将预测值转换为概率。
更新模型：利用当前的梯度来训练下一个分类器。

代码示例

下面的代码示例展示了如何实现一个梯度提升分类器，包括支持二分类和多分类任务：

from sklearn.tree import DecisionTreeRegressor
from sklearn.dummy import DummyRegressor, DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits, load_breast_cancer
import numpy as np

class GradientBoosting:
    def __init__(self, S=5, learning_rate=1, max_depth=1, 
                 min_samples_split=2, regression=True, tol=1e-4):
        self.S = S
        self.learning_rate = learning_rate
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.regression = regression

        # 初始化回归树
        tree_params = {'max_depth': self.max_depth, 'min_samples_split': self.min_samples_split}
        self.models = [DecisionTreeRegressor(**tree_params) for _ in range(S)]
        
        if regression:
            # 回归模型的初始模型
            self.models.insert(0, DummyRegressor(strategy='mean'))
        else:
            # 分类模型的初始模型
            self.models.insert(0, DummyClassifier(strategy='most_frequent'))

    def grad(self, y, h):
        return y - h

    def fit(self, X, y):
        # 训练第一个模型
        self.models[0].fit(X, y)
        
        for i in range(self.S):
            # 预测
            yhat = self.predict(X, self.models[:i+1], with_argmax=False)
            # 计算梯度
            gradient = self.grad(y, yhat)
            # 训练下一个模型
            self.models[i+1].fit(X, gradient)

    def predict(self, X, models=None, with_argmax=True):
        if models is None:
            models = self.models
        h0 = models[0].predict(X)
        boosting = sum(self.learning_rate * model.predict(X) for model in models[1:])
        yhat = h0 + boosting
        if not self.regression:
            # 使用softmax转换为概率
            yhat = np.exp(yhat) / np.sum(np.exp(yhat), axis=1, keepdims=True)
            if with_argmax:
                yhat = np.argmax(yhat, axis=1)
        return yhat

# 示例：使用乳腺癌数据集进行二分类
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建和训练梯度提升分类器
gb = GradientBoosting(S=50, learning_rate=0.1, regression=False)
gb.fit(X_train, y_train)

# 预测并计算准确率
y_pred = gb.predict(X_test)
from sklearn.metrics import accuracy_score
print(f'Accuracy: {accuracy_score(y_test, y_pred)}')

总结

梯度提升分类器通过逐步减少分类错误来提高模型的性能。这种方法在处理分类任务时，能够有效提高预测准确率。与回归任务类似，分类任务中的梯度提升也能通过逐步添加预测器来优化模型。通过调整学习率和模型参数，我们可以进一步提高模型的表现。

如果你觉得这篇博文对你有帮助，请点赞、收藏、关注我，并且可以打赏支持我！

欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持！

标签：Classification,Python,梯度,self,分类,models,yhat,Boosting,模型
From： https://blog.csdn.net/ljd939952281/article/details/141691344

基于Python的机器学习系列（19）：K均值聚类（K-Means Clustering）
简介 K均值聚类（K-MeansClustering）是一种常用的无监督学习算法，用于将数据样本划分为若干个“簇”，使得同一簇内的数据点彼此相似，而不同簇的数据点之间差异较大。由于K均值不依赖于标签，因此它是一种无监督学习方法。常见的应用包括客户细分、图像分割和数据可视......
基于Python的机器学习系列（14）：随机森林（Random Forests）
简介在上一节中，我们探讨了Bagging方法，并了解到通过构建多个树模型来减少方差是有效的。然而，Bagging方法中树与树之间仍然可能存在一定的相关性，降低了方差减少的效果。为了解决这个问题，我们引入了随机森林（RandomForests），这是一种基于Bagging的增强技术，通过在每......
网络自动化:利用Python和Ansible实现网络配置管理
利用Python和Ansible实现网络配置管理是现代网络自动化中的一个关键领域。这个组合使得可以更有效地管理网络设备、减少人为错误、提高网络的可扩展性和一致性。以下是如何利用Python和Ansible实现网络配置管理的详细指南：一、使用Python进行网络自动化Python提......
基于Python的医疗诊断系统基于Falsk的医院挂号系统（附源码 LW PPT 包调试）
博主介绍：✌专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期......
python学习之路 - PySpark快速入门
目录一、PySpark实战1、前言介绍2、基础准备a、pySpark库的安装b、构建pySpark执行环境入口对象c、pySpark编程模型3、数据输入a、python数据容器转RDD对象b、读取文件内容转RDD对象4、数据计算a、map算子b、flatMap算子c、reduceByKey算子d、综合案例e、filter算子f......
Python入门
#1.输出：Python是一种跨平台、开源、免费的高级编程语言。print("Python是一种跨平台、开源、免费的高级编程语言。")foriinrange(1,10):print(str(i)*i)foriinrange(1,10):j=1whilej<=i:print("*",end='')j+=1print()......
基于Python的顾客购物数据可视化分析
数据可视化分析实验数据集简介本文在实验中考虑到实验使用设备的性能和环境的局限性，采用了kaggle官网上的的消费者购物数据集，数据地址：https://www.kaggle.com/datasets/iamsouravbanerjee/customer-shopping-trends-dataset。此数据包含了3900条记录，每条......
# yyds干货盘点 # 盘点一个Python正则表达式问题
大家好，我是皮皮。一、前言前几天在Python最强王者交流群【大锤子】问了一个Python正则表达式处理的问题，这里拿出来给大家分享下。下图是代码：二、实现过程这个问题确看上去是正则表达式的问题，这里【杯酒】提出问题并给出建议：使用+号，就能匹配所有符合条件的文字，而不是第一段。不过后......
python和c语言有什么不同
1、语言类型Python是一种基于解释器的语言，解释器会逐行读取代码；首先将Python编译为字节码，然后由大型C程序解释。C是一种编译语言，完整的源代码将直接编译为机器代码，由CPU直接执行。2、内存管理Python使用自动垃圾收集器进行内存管理。在C语言中，程序员必须自己进行内存管......
python浮点数怎么写
python提供了三种浮点值：内置的float与complex类型，以及标准库的decimal.Decimal类型。float类型存放双精度的浮点数，具体取值范围依赖于构建python的c编译器，由于精度受限，进行相等性比较不可靠。如果需要高精度，可使用decimal模块的decimal.Decimal，这种类型可以准确的表示循环......

基于Python的机器学习系列（18）：梯度提升分类（Gradient Boosting Classification）

简介

梯度提升分类的工作原理

二分类示例

代码示例

总结

相关文章

赞助商

阅读排行