首页 > 其他分享 >万字总结LightGBM原理、核心参数以及调优思路(上篇)

万字总结LightGBM原理、核心参数以及调优思路(上篇)

时间:2024-07-18 09:54:50浏览次数:11  
标签:万字 LightGBM 直方图 XGBoost 建模 算法 调优 优化

万字总结LightGBM原理、核心参数以及调优思路(上篇)

在机器学习领域,LightGBM凭借其卓越的速度和准确性,迅速成为众多数据科学家和算法工程师的首选算法之一。作为一款基于梯度提升框架的高效机器学习工具,LightGBM在处理大规模数据集时表现出色,尤其适用于需要快速模型训练和预测的场景。

文章目录


一、LightGBM提出背景

XGBoost作为一种先进的梯度提升算法,在高精度建模方面虽然表现出色,但在处理大规模数据时,其计算速度和资源消耗的不足成为了制约其应用的瓶颈。针对这些问题,LightGBM提出了创新的解决方案。通过采用高效的数据压缩技术,LightGBM显著提升了计算效率,其计算时间仅为XGBoost的二十分之一,内存占用量则降至五分之一,成为首个能够迅速处理海量数据的集成学习算法。与XGBoost相比,LightGBM不仅在计算效率和内存占用上具有明显优势,而且在面对高维数据时展现出更好的抗过拟合特性。在数据量不断增长的当下,LightGBM因其出色的性能和适应性,成为了探索性建模的理想选择(Baseline模型)。在实际建模效果上,LightGBM与XGBoost相比也毫不逊色,为数据分析和机器学习领域带来了新的选择和可能性。

LightGBM算法简介

LightGBM 是一种高效的 Gradient Boosting 算法,由 Microsoft Research Asia 团队开发,早期为Microsoft内部处理海量高维数据的专用算法,并于2017年由Guolin Ke, Qi Meng, Thomas Finley等人通过论文形式正式发布。如果说XGB为GBDT类算法在提升计算精度上做出了里程碑式的突破,那么LGBM则是在计算效率和内存优化上提出了开创性的解决方案,一举将GBDT类算法计算效率提高了近20倍、并且计算内存占用减少了80%,这也最终使得GBDT类算法、这一机器学习领域目前最高精度的预测类算法,能够真正应用于海量数据的建模预测。以下是官网给出的XGB、基于直方图优化的XGB和LGBM算法的在相同计算任务下计算时间的对比:
在这里插入图片描述

而在内存占用方面,LGBM算法的优势也同样非常明显,以下是相同计算任务下不同算法的内存占用对比:
在这里插入图片描述

XGBoost_hist 是在 LightGBM 提出之后,针对 XGBoost 的一种优化。XGBoost_hist 是 XGBoost 的一种变体,使用了直方图近似的技术。XGBoost_hist是受到了 LightGBM 的启发,LightGBM 则是第一个广泛使用直方图近似技术的梯度提升决策树算法。

LightGBM算法是目前进行集成学习建模过程中,速度最快,效率最高的算法。围绕海量数据集进行迅速的建模,一般都是先使用LightGBM进行建模的尝试,探索出一些经验后,再使用一些更加复杂的算法完成最终的建模。不仅计算速度快,LightGBM的计算精度同样很高,几乎能够保持和xgboost几乎一样的预测精度,相同计算任务,三种算法的计算准确率如下:
在这里插入图片描述
不难发现,预测精准而计算过程高效,这也是Light一词的核心精髓,并且经过这么多年的实践验证,可以说目前来看,LightGBM已然成为处理海量数据最高效、最通用的机器学习算法。

二、LightGBM基本原理与核心优化介绍

LightGBM基本原理与核心优化介绍(欢迎关注~)

三、LightGBM中的优化策略

1.连续变量分箱

LightGBM连续变量分箱(欢迎关注~)

2.互斥特征捆绑(Exclusive Feature Bundling,EFB)

LightGBM互斥特征捆绑(欢迎关注~)

3.基于梯度的单边采样(Gradient-based One-Side Sampling,GOSS)

LightGBM基于梯度的单边采样(欢迎关注~)

4.LGBM决策树生长过程与直方图优化算法(Histogram-based Algorithm)

LightGBM决策树生长过程与直方图优化算法(欢迎关注~)


总结

在这里插入图片描述

标签:万字,LightGBM,直方图,XGBoost,建模,算法,调优,优化
From: https://blog.csdn.net/LUyan10086/article/details/140513479

相关文章

  • Nginx、LNMP万字详解
    目录Nginx特点Nginx安装添加Nginx服务Nginx配置文件全局配置HTTP配置状态统计页面Nginx访问控制授权用户授权IP虚拟主机基于域名测试基于IP测试基于端口测试LNAMP解析方式LNMP转发php-fpm解析Nginx代理LAMP解析LNMP部署示例实验环境MariaDB修改密码......
  • HAL库源码移植与使用之FSMC (例子加思路与理解,万字良心保证你能听懂)
    FMC和FSMC是一样的东西,只是FMC更可控地址更多又可以驱动SDRAM,用法都一样!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!总结:其实fsmc更像是一个有着特定转换时序功能的寄存器,每个fsmc映射在芯片内存里的地址都有一个这样的寄存器,你往这个映射的地址里赋值,这个赋值信息先到达对应fsmc寄存器,他不会像普通寄存器一样直接控制......
  • 数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可
    原文链接:http://tecdat.cn/?p=26868最近我们被客户要求撰写关于电信公司用户流失的研究报告,包括一些图形和统计输出。在本教程中,我们将学习覆盖决策树和随机森林。这些是可用于分类或回归的监督学习算法下面的代码将加载本教程所需的包和数据集。  library(tidyverse)......
  • JVM调优参数和概念
    Java虚拟机(JVM)调优是一个复杂的过程,涉及到对JVM的内存管理、垃圾收集器选择、线程管理等多个方面的优化。以下是一些常见的JVM调优参数和概念:1.**堆内存设置**:  -`-Xms<size>`:设置JVM启动时的初始堆大小。  -`-Xmx<size>`:设置JVM最大堆大小。2.**新生代和老年代......
  • AI绘画Stable Diffusion 零基础入门 —AI 绘画原理与工具介绍,万字解析AI绘画的使用教
    大家好,我是设计师阿威想要入门AI绘画,首先需要了解它的原理是什么样的。其实很早就已经有人基于深度学习模型展开了对图像生成的研究了,但在那时,生成的图像分辨率和内容都非常抽象。直到近两年,AI产出的图像内容的质量变高、而且有一定的艺术价值,这时它才算正式拥有了理......
  • elasticsearch性能调优方法原理与实战
    ❃博主首页:「码到三十五」,同名公众号:「码到三十五」,wx号:「liwu0213」☠博主专栏:<mysql高手><elasticsearch高手><源码解读><java核心><面试攻关>♝博主的话:搬的每块砖,皆为峰峦之基;公众号搜索「码到三十五」关注这个爱发技术干货的coder,......
  • 万字长文:Go 语言流行 ORM 框架 GORM 使用详解
    万字长文:Go语言流行ORM框架GORM使用详解原创 江湖十年 Go编程世界 2024年05月18日08:41 浙江 4人听过GORM是Go语言中最受欢迎的ORM库之一,它提供了强大的功能和简洁的API,让数据库操作变得更加简单和易维护。本文将详细介绍GORM的常见用法,包括数据库连接......
  • 十万字梳理,带你拿下Java面试题(含答案解析)!
    马上金九银十很多同学/朋友都在忙着找工作,小五给大家整理了一份非常全面的Java面试题含答案总结!从java面试新手到java面试专家,你只差这一份面试题!还不赶紧拿下~内容涵盖:Java、MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、Redis、MySQL、Spring、SpringBoot、Spri......
  • C语言 底层逻辑详细阐述指针(一)万字讲解 #指针是什么? #指针和指针类型 #指针的解引用 #
    文章目录前言序1:什么是内存?序2:地址是怎么产生的?一、指针是什么1、指针变量的创建及其意义:2、指针变量的大小二、指针的解引用 三、指针类型存在的意义四、野指针1、什么是野指针2、野指针的成因a、指针未初始化b、指针越界访问c、指针指向的空间释放3、如何......
  • 万字总结XGBoost原理、核心参数以及调优思路(下篇)
    万字总结XGBoost原理、核心参数以及调优思路(下篇)在数据科学领域,XGBoost以其卓越的性能和灵活性,成为了众多机器学习算法中的佼佼者。作为一种梯度提升框架,XGBoost通过构建决策树的集合来最小化一个可微分的损失函数,广泛应用于分类、回归等任务。本文将万字总结XGBoost的深层......