首页 > 编程语言 >机器学习-决策树系列-Adaboost算法-集成学习-29

机器学习-决策树系列-Adaboost算法-集成学习-29

时间:2024-01-05 22:13:12浏览次数:34  
标签:训练 权重 错误率 模型 样本 29 分类器 Adaboost 决策树

目录

1. adaboost算法的基本思想

集成学习是将多个弱模型集成在一起 变成一个强模型 提高模型的准确率,一般有如下两种:
bagging: 不同的base model可以并行计算,输出预测结果少数服从多数,回归问题则对多个模型输出的结果求平均。
boosting:后一个模型的训练需要依赖前一个模型,所以模型的训练会特备耗时没法并行,Adaboost、GBDT、Xgboost主要有这三种。

对样本赋予权重,迭代的方式构造弱分类器,后一个分类器依赖前一个分类器 。
多个弱分类器的线性组合得到最终的强分类器。

例如:



对于前一个分类器分错的样本,后一个分类器会格外的注重,训练的时候增加该样本的权重,以便这次训练的时候要分对,训练模型的同时 计算出本次的弱模型输出结果的权重

算法的核心:通过调整输入数据的权重,让本来还不错的分类器的权重正确率达到1/2

什么是权重正确率?
数据预测的错误率 =(错误数据的个数)/(全部数据的个数)
数据预测的权重错误率 =(预测错误数据的权重和)/(全部数据的权重和)
举例:
有一个标签集实际是{+1,+1,+1,+1,-1}
训练出一个g1(x)的分类结果{+1,+1,+1,+1,+1}
最后一个分出错了,如果这5条样本的权重是一样的 错误率=1/5
如果最后那个样本的权重是1/2 其余的是1/8 那么权重错误率是多少? 1/2
1/2 / 1/2+1/8+1/8+1/8+1/8
也就是说做错的那道题分数分其他的题是不一样的 越难的题分数越高

2. 具体实现

通过权重不同来训练弱分类器模型gt(x),那么我们每次找到g(x)都应该使当前时刻权重正确率最大。


调整t+1次训练的样本的权重 使得: 正确率(带权重的) 等于 错误率(带权重)

如何调整?引入缩放因子

t+1 样本权重的计算:

Δt 一般是一个大于1的数
对于分类正确的样本 权重除以Δt
对于分类错误的样本 权重乘以Δt
本次的弱模型输出权重:
也就是:α=ln(Δt)


U1 到 U2 是如何计算的

过程:

标签:训练,权重,错误率,模型,样本,29,分类器,Adaboost,决策树
From: https://www.cnblogs.com/cavalier-chen/p/17948184

相关文章

  • 大二打卡(11.29)
    今天做了什么:清晨八点,我准时从睡梦中醒来。拉开窗帘,阳光透过窗户洒在我的床上,温暖而明亮。我迅速洗漱完毕,坐在书桌前,开始了今天的第一个任务——背诵英语听写的单词和短语。这已经是我连续第三天早起背单词了。每次大约半个小时,虽然时间不长,但效果还不错。今天的单词和短语不算......
  • Kubernetes v1.29 新特性一览
     Kubernetesv1.29新特性一览大纲 一、Core组件增强 调度器增强 在Kubernetesv1.29中,Core组件经历了一系列增强,其中一个重要的改进是调度器的增强。这些增强使得调度器能够更加智能和高效地管理容器的调度和分配。通过引入新的调度算法和策略,调度器能够更好地适应不同的资源......
  • 保障企业数据安全的29个最佳实践
    数字化时代,随着生成和收集的数据比以往任何时候都要多,数据安全的重要性日益突显。社交媒体、电子商务及其他在线服务广泛使用,许多人在无形之中分享着个人信息。本文将探讨数据安全的关键概念,并介绍保障数据安全方面的最佳实践。什么是数据安全?数据安全是指保护数字数据免遭未经授权......
  • Xcode 15 beta 7 (15A5229h) - Apple 平台 IDE
    Xcode15beta7(15A5229h)-Apple平台IDEIDEforiOS/iPadOS/macOS/watchOS/tvOS/visonOS作者主页:sysin.orgvisonOS支持已更新。Xcode15使您能够为所有Apple平台开发、测试和分发应用程序。通过增强的代码完成、交互式预览和实时动画,更快地编写和设计您的应用程序。使用......
  • 动态规划 多源路径 字典树 LeetCode2977:转换字符串的最小成本
    涉及知识点动态规划多源最短路径字典树题目给你两个下标从0开始的字符串source和target,它们的长度均为n并且由小写英文字母组成。另给你两个下标从0开始的字符串数组original和changed,以及一个整数数组cost,其中cost[i]代表将字符串original[i]更改为字符......
  • 12月29日正则对象
    目录正则对象第一个中使用ReExp(正则表达式),它可以定义字符串的搜索模式。第二个定义正则表达式的方法是使用//来定义关键字test基本格式全局匹配全局匹配中的特殊情况正则对象首先是如何定义正则表达式第一个中使用ReExp(正则表达式),它可以定义字符串的搜索模式。基本格式va......
  • AtCoder Beginner Contest 295
    B-Bombsd难度:⭐题目大意给定一个n*m的网格,其中'.'表示空白,'#'表示障碍物,数字x表示此处有一个炸弹,会将附近曼哈顿距离小于等于x的格子都变成空白;问所有炸弹爆炸后的网格;解题思路数据范围很小,暴力即可;神秘代码#include<bits/stdc++.h>#definei......
  • OI练习记录 - 29/12/2023
    zzz习题1917CWateringanArray题目传送门代码RatingTags1600bruteforce这题没什么好说的,难点只在于要发现进行一次operation2后最优情况是一直重复operation1,2,1,2...因为把边界误判为\(\min(d,n)\)而不是\(\min(d,2n)\)而耗了一些时间时间......
  • 12/29每日总结
    数据的最小单位是数据项归并排序落单丢掉substr(str,int,int)意思是str的第int开始的int个字符层次遍历初始堆无法保证得到一个有序的序列,因为堆的兄弟结点之间无序创建邻接表的时间复杂度无向图中有n个结点e条边,建立该图邻接表的平均时间复杂度为O(n+e)深度为k的完全二叉树中最少......
  • 12.29每日总结
    今天接着写了软件企业文化大作业沟通方式 4.1企业沟通的定义和目的企业沟通是对组织内部以及组织与其利益相关者之间的沟通进行深思熟虑和有计划的管理。该过程包括信息、消息和政策的创建和分发,旨在维护统一且有凝聚力的企业形象。企业沟通的主要目标是与内部和外部受众建......