首页 > 编程语言 >基于Python的机器学习系列(16):扩展 - AdaBoost

基于Python的机器学习系列(16):扩展 - AdaBoost

时间:2024-08-31 11:57:26浏览次数:12  
标签:16 Python self predictions AdaBoost error np clf

简介

        在本篇中,我们将扩展之前的AdaBoost算法实现,深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题,并对AdaBoost的实现进行一些调整,以提高其准确性和可用性。

1. 修复Alpha计算中的问题

        在AdaBoost中,如果分类器的错误率 e 为0,则计算出的权重 α 将是未定义的。为了解决这个问题,我们可以在计算过程中向分母中添加一个非常小的值,以避免除零错误。

2. 调整学习率

    sklearn的AdaBoost实现中包含一个learning_rate参数,这实际上是1/2​在α计算中的一部分。我们将这个参数重命名为eta,并尝试不同的eta值,以观察其对模型准确性的影响。sklearn的默认值为1。

3. 自定义决策桩

    sklearn中的DecisionTreeClassifier使用加权基尼指数来评估分裂,而我们学到的是加权错误率。我们将实现一个自定义的DecisionStump类,它使用加权错误率来替代基尼指数。为了验证自定义桩的有效性,我们将检查其是否能够与sklearn的实现提供相似的准确性。需要注意的是,如果不将标签 y 更改为-1,准确性可能会非常差。

代码示例

        以下是扩展AdaBoost实现的代码示例:

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.metrics import classification_report

# 生成数据集
X, y = make_classification(n_samples=500, random_state=1)
y = np.where(y == 0, -1, 1)  # 将标签0转换为-1

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42)

# 自定义决策桩类
class DecisionStump():
    def __init__(self):
        self.polarity = 1
        self.feature_index = None
        self.threshold = None
        self.alpha = None

    def fit(self, X, y, weights):
        m, n = X.shape
        min_error = float('inf')
        
        for feature_index in range(n):
            feature_values = np.unique(X[:, feature_index])
            for threshold in feature_values:
                for polarity in [-1, 1]:
                    predictions = np.ones(m)
                    predictions[X[:, feature_index] < threshold] = -1
                    predictions *= polarity
                    error = np.dot(weights, predictions != y)
                    
                    if error < min_error:
                        min_error = error
                        self.polarity = polarity
                        self.threshold = threshold
                        self.feature_index = feature_index

    def predict(self, X):
        predictions = np.ones(X.shape[0])
        if self.polarity == -1:
            predictions[X[:, self.feature_index] < self.threshold] = -1
        else:
            predictions[X[:, self.feature_index] >= self.threshold] = -1
        return predictions

# 自定义AdaBoost类
class AdaBoost():
    def __init__(self, S=5, eta=0.5):
        self.S = S
        self.eta = eta

    def fit(self, X, y):
        m, n = X.shape
        W = np.full(m, 1/m)
        self.clfs = []

        for _ in range(self.S):
            clf = DecisionStump()
            clf.fit(X, y, W)
            predictions = clf.predict(X)
            error = np.dot(W, predictions != y)
            
            if error == 0:
                error = 1e-10  # 避免除零错误
            
            alpha = self.eta * 0.5 * np.log((1 - error) / error)
            clf.alpha = alpha
            W *= np.exp(alpha * (predictions != y))
            W /= np.sum(W)
            self.clfs.append(clf)

    def predict(self, X):
        clf_preds = np.zeros((X.shape[0], len(self.clfs)))
        for i, clf in enumerate(self.clfs):
            clf_preds[:, i] = clf.predict(X)
        return np.sign(np.dot(clf_preds, [clf.alpha for clf in self.clfs]))

# 训练和评估自定义AdaBoost模型
ada_clf = AdaBoost(S=50, eta=0.5)
ada_clf.fit(X_train, y_train)
y_pred = ada_clf.predict(X_test)

print("自定义AdaBoost模型的分类报告:")
print(classification_report(y_test, y_pred))

结语

        在本篇中,我们扩展了AdaBoost的实现,解决了计算中的潜在问题,并尝试了不同的学习率以优化模型性能。与决策树、Bagging和随机森林相比,AdaBoost通过加权组合多个弱分类器,能够进一步提高分类性能。决策树为基础分类器提供了简单有效的分裂方式,而AdaBoost则通过提升算法强化了模型的准确性。与Bagging和随机森林不同,AdaBoost侧重于通过关注分类错误的样本来提升弱分类器的性能,从而在许多复杂任务中表现出色。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

标签:16,Python,self,predictions,AdaBoost,error,np,clf
From: https://blog.csdn.net/ljd939952281/article/details/141691292

相关文章

  • Python库的位置
    1,操作系统命令行看系统python的库wherepythonC:\Users\augus\AppData\Local\Microsoft\WindowsApps\python.exe>>>foriteminsys.path:...print(item)...C:\ProgramFiles\WindowsApps\PythonSoftwareFoundation.Python.3.12_3.12.1520.0_x64__qbz5n2kfra......
  • (2024最新毕设合集)基于SpringBoot的校园设备维修管理系统-16364|可做计算机毕业设计JAV
    基于Springboot的校园设备维修管理系统的设计与实现摘 要基于Springboot的校园设备维修管理系统的设计与实现是一个结合了网络技术和信息管理的项目。该系统能满足校园报修管理的实际需求,通过网络进行信息管理,使得设备维修更加及时有效。本设计主要实现集人性化、高效率、......
  • [Python手撕]大数加法
    num1=input()num2=input()defcompare(num1,num2):foriinrange(len(num1)):ifnum1[i]>num2[i]:return0elifnum1[i]<num2[i]:return1return2#解析符号flag1=0flag2=0ifnum1[0]=="-......
  • [Python手撕]环的检测
    检测环快慢指针法是一种用于检测链表中是否存在环的有效方法,同时也可以找到环的起点。该方法的原理基于两个指针在链表上同时移动,其中一个移动得更快,而另一个移动得更慢。检测环的存在:使用两个指针,一个称为快指针(fast),一个称为慢指针(slow)。在每一步中,快指针向前移动两步,而慢......
  • [Python手撕]二分法
    二分法二分法的几个位置比如01234567891233333456有时候想要寻找小于3的最大数字有时候想要寻找第一个满足>=3的数字,有时候想要寻找最后一个满足>=3的数字,有时候想要寻找小于4的最大数字nums=[1,2,3,4,5,5,5,5,5,6,7,8,9]n=......
  • [Python手撕]TOPK
    TOPK问题描述:从arr[1,n]这n个数中,找出最大的k个数,这就是经典的TopK问题。栗子:从arr[1,12]={5,3,7,1,8,2,9,4,7,2,6,6}这n=12个数中,找出最大的k=5个。整体排序排序是最容易想到的方法,将n个数排序之后,取出最大的k个,即为所得。伪代码:sort(arr,1,n);returnarr[1,k];......
  • 亦菲喊你来学机器学习(16) --K-means聚类算法
    文章目录K-means基本步骤优缺点构建模型总结K-meansK-means算法是一种广泛使用的聚类算法,旨在将数据集划分为K个簇,使得每个簇内的数据点尽可能相似,而不同簇之间的数据点尽可能不同。这个算法通过迭代的方式实现,每次迭代都会更新簇的中心(即簇内所有点的均值),然后将......
  • 豆包 API 调用示例代码详解-Python版
    文章目录豆包API调用示例代码详解-Python版一、事前准备二、所需Python包三、代码详解五、源码下载四、总结豆包官方API文档豆包API调用示例代码详解-Python版在本文中,我们将详细介绍如何使用Python调用豆包API,并提供相关的事前准备和代码执行步骤。一、......
  • 代码随想录day46 || 647 回文子串, 516 最长回文子序列
    647回文字串funccountSubstrings(sstring)int{ //动规五部曲 //dp[i][j]表示s[i:j+1]区间是否是一个回文 //ifs[i]==s[j]{ifi-j<=1||dp[i+1][j-1]==true{dp[i][j]==true}} //初始化为false //从下往上,从左往右 //print varcountint var......
  • 使用 Python 实现自动化办公
    使用Python实现自动化办公在现代办公环境中,自动化是提高工作效率和减少人为错误的重要手段之一。Python是一种功能强大且灵活的编程语言,可以轻松地实现自动化办公任务。下面是一个简单的示例,展示如何使用Python实现自动化办公:需求:假设我们有一个Excel文件,名为"报表.xls......