首页 > 其他分享 >lightgbm筛选特征方法论

lightgbm筛选特征方法论

时间:2024-04-10 11:24:32浏览次数:27  
标签:结论 方法论 lightgbm 特征 lgb 相关性 x2 筛选 x6

 

特征相关性矩阵,实验的基础

结论1:对于lgb,特征相关性越高,损失肯定越低

 

结论2:对于lgb,特征相关性正负作用是相同的,相关性=+0.76和相关性= -0.76完全相同

 

结论三:看红色文字,lgb有能力发现非线性特征的作用

 

 

结论四:x6和y的相关性最高,x2最低。但x2和x6的相关性是最低的,起到一定互补作用。在添加了x6的同时,如果额外添加一个特征的话,选x2反而更佳

 

 

结论五:将相关性最高和最低的同类型特征加入后,是否加入中间特征几乎不影响结果,即使将中间特征全部加入后,也能达到最佳结果

 

 

筛选特征实操总结:

1 要交叉验证,结果才靠谱,才能说明结论正确

2 打印出corr矩阵

3 排序每个特征和y的相关性,给个阈值,低于阈值且和其它任何特征相关性都低的特征可视为噪音,可删除,其它全部保留

标签:结论,方法论,lightgbm,特征,lgb,相关性,x2,筛选,x6
From: https://www.cnblogs.com/chentianyu/p/18125648

相关文章

  • pandas 读取csv 数据,筛选数据
    前言Pandas是一个开源的数据分析和数据处理库,它是基于Python编程语言的。Pandas提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。Pandas主要引入了两种新的数据结构:DataFrame和Series。环境准备先pip安装pandas:pi......
  • MySQL分组查询以及having筛选
    DDLCREATETABLE`student`(`id`int(11)NOTNULLAUTO_INCREMENTCOMMENT'学号',`createDate`datetimeDEFAULTNULL,`userName`varchar(20)DEFAULTNULL,`pwd`varchar(36)DEFAULTNULL,`phone`varchar(11)DEFAULTNULL,`age`tinyint(......
  • MySQL分组查询以及having筛选
    DDLCREATETABLE`student`(`id`int(11)NOTNULLAUTO_INCREMENTCOMMENT'学号',`createDate`datetimeDEFAULTNULL,`userName`varchar(20)DEFAULTNULL,`pwd`varchar(36)DEFAULTNULL,`phone`varchar(11)DEFAULTNULL,`age`tinyint(......
  • My SQL分组查询以及having筛选
    DDLCREATETABLE`student`(`id`int(11)NOTNULLAUTO_INCREMENTCOMMENT'学号',`createDate`datetimeDEFAULTNULL,`userName`varchar(20)DEFAULTNULL,`pwd`varchar(36)DEFAULTNULL,`phone`varchar(11)DEFAULTNULL,`age`tinyint(......
  • MySql分组查询及having筛选
    DDLCREATETABLE`result`(`rid`int(11)NOTNULLAUTO_INCREMENTCOMMENT'成绩编号',`testName`varchar(255)DEFAULTNULLCOMMENT'测试名称',`score`double(4,2)DEFAULTNULLCOMMENT'成绩',`studentId`int(11)DEFAULTNULLCO......
  • 数仓建模—建模方法论之Data Vault 建模
    数仓建模方法论—DataVault建模除了Kimball的维度建模理论,DataVault也是数据仓库建模的一种方法,最早由DanLinstedt在20世纪90年代提出,主要应用于企业级数据仓库建模。不同于三范式数据仓库模型、维度模型,DataVault模型主要用于存储来自多个业务系统的完整的历史......
  • 成功实现FaceTime语音,FaceTime视频,FaceTime数据筛选,检测数据是否开通FaceTime的实
    FaceTime是苹果公司iOS和macOS(以前称MacOSX或OSX)内置的一款视频通话软件,通过Wi-Fi或者蜂窝数据接入互联网,在两个装有FaceTime的设备之间实现视频通话。其要求通话双方均具有装有FaceTime的苹果设备,苹果ID以及可接入互联网的3G/4G/5G或者Wi-Fi网络。 一、Windows电脑上部署苹......
  • P1776宝物筛选
    宝物筛选题目描述终于,破解了千年的难题。小FF找到了王室的宝物室,里面堆满了无数价值连城的宝物。这下小FF可发财了,嘎嘎。但是这里的宝物实在是太多了,小FF的采集车似乎装不下那么多宝物。看来小FF只能含泪舍弃其中的一部分宝物了。小FF对洞穴里的宝物进行了整......
  • 多表的联合查询以及分组排序与HAVING筛选
    DDL【创建数据库】——学生表——成绩表CREATETABLE`student`(`id`int(11)NOTNULLAUTO_INCREMENTCOMMENT'学号',`createDate`datetimeDEFAULTNULL,`userName`varchar(20)DEFAULTNULL,`pwd`varchar(36)DEFAULTNULL,`phone`varchar(11)DEFAU......
  • P1776 宝物筛选
    知识点:多重背包,也就是一个物品有多个,然后求总价值。算法竞赛上的板子题目:链接:https://www.luogu.com.cn/problem/P1776介绍二进制拆分优化就是把几个完全相同的拆成1+2+4+...+2^n+mod,然后再进行dp的办法代码:重点在new_n,new_w,new_m这几个#include<iostream>#include<vec......