XGBoost

提升集成学习模型的性能

从基学习器本身入手

从误差优化入手

集成回归树的误差定义
$arg minL=\sum_{i=1}^n l(y_i,y_i^\Lambda) +\sum_{k=1} ^K \Omega(f_k) $ $y_i$是实际值，$y_i^\Lambda $是误差

$sl\Omega(f_k)=\gamma T+\frac{1}{2}\lambda \parallel w\parallel^2$
T是树的深度，w是树f上不同结点的权重分数，$\gamma$ 和 $\lambda$ 是常数可以优化

找到最优结构解得函数最优解

贪心搜索

启发式搜索

原理:左子树梯度优化+右子树梯度优化-整体梯度优化=对某个节点分枝后的增益
精确搜索：这一步优化了就继续往下走，没有就回退。缺点是复杂度比较高
粗略搜索：对某个特征有个具体的分位值
需要对特征按照分数进行预排序

LightGBM

直方图算法

步骤：（1）对当前模型下的所有叶子结点处理
（2）对某个叶子进行分裂处理，这一步开始遍历所有的特征
（3）遍历所有的样本来构建直方图（装箱操作），计算每个箱中的样本的梯度和并记数

GOSS

训练算法更加关注没有充分训练的样本

EFB算法

合并互斥特征从而减少特征的数目

如何合并互斥特征

（1）以特征为节点，构造互斥关系图（类似图着色问题）
（2）特征偏移与替换法

一些参数的作用

（1）提高准确率
learn_rate
max_depth
num_leaves
（2）降低过拟合
max_bin
min_data_in_leaf
feature_fraction
bagging_fraction
bagging_freq
lambda_l2
min_split_gain
（3）并行化
device

标签：LightGBM,互斥,AI,梯度,特征,优化,夏令营,lambda
From： https://www.cnblogs.com/dk2154/p/17592309.html

基于AI的数据增广：生成数据作为训练样本
BenchmarkingandAnalyzingGenerativeDataforVisualRecognition大型预训练生成模型的进展，扩展了它们作为有效数据生成器在视觉识别中的潜力。本研究深入探讨了生成图像的影响，主要比较了使用外部数据（即生成vs.网络检索vs.原始）的范式。主要贡献是：1）GenBench构建：设计了GenBen......
赋能商业的AI之路：从趣味概述到核心技术
前言人工智能（AI）正成为当今社会的重要驱动力，对商业和科技产生了深远的影响。在这个快速发展的AI时代，我们有必要了解AI的基本概念和商业应用，以抢占人工智能带来的红利。本文将介绍一系列有趣且实用的AI相关图书，帮助读者入门机器学习、Python编程以及深度强化学习等核心技术，从而为商业......
IJCAI 2023 | 腾讯优图实验室入选论文解读，含小样本学习方法、玻璃物体分割、RSI变化检
前言近日，IJCAI2023（InternationalJointConferenceonArtificialIntelligence）国际人工智能联合大会公布了录用结果。本届会议共有4566篇投稿，接收率为15%。作为当前全球最负盛名的AI学术会议之一，IJCAI将于今年8月在澳门举行。本文转载自腾讯优图仅用于学术分享，若侵权请联......
mermaid学习笔记
mermaid功能(基础)关于设计各种图来梳理工程接口流程图定义graph[TB|BT|LR|RL]说明是流程图(参数代表从上往下还是从左往右)其他概念---:实线|-->:带箭头实线|==>:带箭头粗实线并且在也可以(==|--)text(--|==)(-|>)来实现线上有文本的格式定义对象:对象[xxx]代表......
为Win12做准备？微软Win11 23H2将集成AI助手：GPT4免费用
微软日前确认今年4季度推出Win1123H2，这是Win11第二个年度更新。Win1123H2具体有哪些功能升级，现在还不好说，但它会集成微软的Copilot，它很容易让人想到多年前的“曲别针”助手，但这次是AI技术加持的，Copilot就是BingAI聊天的Windows桌面版，基于GPT-4打造，它可以帮助你自动化各种任务，......
2023.30 AI生成视频
AI生成视频是一项复杂的任务，目前主要可以通过以下两类技术实现:1、基于GAN的视频生成GAN(生成对抗网络)可以用于生成静态图片,可以扩展到生成视频。主要思路是训练一个生成器网络,可以输出每一帧图像,然后组合成视频流。这需要大量视频数据进行训练。2、基于自动编码器的视频生成......
Mac部署AIGC图片生成服务——基于stable-diffusion
Mac部署AIGC图片生成服务——基于stable-diffusionAIGC即人工智能内容生成，是目前非常火的一个概念。随着各种大模型的问世，通过AI来生成内容的能已经越来越强大。本文将从应用实践方面进行介绍如何在自己的PC电脑上部署一个强大的AI图片生成服务。关于AI绘图，我相信你一定不太陌生，......
2023 年 7 月 23 日机器学习发生了什么：OpenAI 的突破性变化、更好的关注和……
保留网络：大型语言模型转换器的继承者他们引入了一种非常有前途的注意力变体。基本上，他们：抛弃软最大值让每个令牌只关注一个状态向量，而不是所有以前的令牌在每个头上分别做层规范相对于序列维度呈指数衰减注意力，每个头部具有不同的衰减系数这使他们能够有效地在......
AI语音克隆101
人工智能语音克隆（也称为语音合成或语音复制）允许计算机模仿人类语音模式并产生令人惊讶的合成声音。本文讨论了AI语音克隆的想法、用途、优点、缺点以及从娱乐到可访问性的潜在未来进展。了解AI语音克隆AI语音克隆，特别是语音合成，是机器学习和自然语言处理（NLP）的一个有趣领域。......
【题解】[ABC312G] Avoid Straight Line（容斥，树上统计，dfs）
【题解】[ABC312G]AvoidStraightLine题目链接[ABC312G]AvoidStraightLine题意概述给定一棵$n$个节点的树，第$i$条边连接节点$a_i$和$b_i$，要求找到满足以下条件的三元整数组$(i,j,k)$的数量：$1\lei<j<k\len$；对于树上任意一条简单路径，都不同时经......

AI夏令营-LightGBM的数学原理