首页 > 其他分享 >【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程

【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程

时间:2022-09-06 02:44:18浏览次数:52  
标签:分箱 编码 特征 基数 数据挖掘 人数

特征处理编码:
数据类型:数值 字符
是否有顺序
类别数量:高低基数
1、独热编码 针对无序低基数类离散特征,使之变为哑特征
不适合高基数的特征
2、标签编码:针对无序低基数类型的离散特征 形式简单且对于低基数特征有效
3、woe编码:代表特征对于y标签的预测能力,常用于描述区分好坏客户的衡量标准
4、平均数编码:用于高基数类特征的编码
5、模型编码:使用GS编码 将类别特征转为累积值 lightGBM Catboost


1、woe的计算过程

WOE = ln (第i个分箱的坏人数 / 总坏人数) - ln (第i个分箱的好人数 / 总好人数)

这个公式可以理解为每个箱体坏人分布相比于好人分布的差异性
处理非线性特征

2、

标签:分箱,编码,特征,基数,数据挖掘,人数
From: https://www.cnblogs.com/AKsnoopy/p/16660315.html

相关文章

  • 【Java基础】面向对象的特征:封装性和权限修饰符
    1.封装(1)什么是封装使用洗衣机时,只需要放入衣物,按下开关和洗涤模式,不需要了解洗衣机的内部结构。只需要知道这个程序怎么用,隐藏对象内部的复杂性,只对外公开简单的接口,便......
  • Vue学习之--------深入理解Vuex之模块化编码(2022/9/4)
    在以下文章的基础上1、深入理解Vuex、原理详解、实战应用:https://blog.csdn.net/weixin_43304253/article/details/1266513682、深入理解Vuex之getters、mapState、mapG......
  • 成功高级工程师的6个特征
    成功高级工程师的6个特征编码只是软件工程的一个方面。建立积极的例行公事可以帮助您塑造自己的身份。不良习惯会逐渐把你变成你不想成为的人。当我开始编程时,我非常幸......
  • 编码学习
    一、ASCII码我们知道,计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说......
  • 创意编码——120 天中的第 2 天
    创意编码——120天中的第2天嘿。今天,我更深入地研究动画并使用了一个名为GSAP.我不会说谎;我希望我早点发现它。掌握这些概念很容易,而且我喜欢动画的流畅性。我今......
  • 我是如何进入编码的……错误的
    我是如何进入编码的……错误的一次拒绝可以改变你的生活、事业或生意。这是我从未想过会发生在我身上的事情。直到我被10所工程学校拒绝,我失去了希望。我失去了一件......
  • 工业级推荐系统中的特征工程
    摘要:深度学习时期,与CV、语音、NLP领域不同,搜推广场景下特征工程仍然对业务效果具有很大的影响,并且占据了算法工程师的很多精力。数据决定了效果的上限,算法只能决定逼近上限......
  • 基于密度的聚类如何工作(数据挖掘)
    基于密度的聚类如何工作(数据挖掘)PhotobyGanapathyKumaron不飞溅SSDBCODI:集成了异常值检测的半监督密度聚类(arXiv)作者:JiahaoDeng,伊莱·T·布朗抽象......
  • 查询字节串编码类型的模块chardet
    这个模块需要安装wgethttps://files.pythonhosted.org/packages/fc/bb/a5768c230f9ddb03acc9ef3f0d4a3cf93462473795d18e9535498c8f929d/chardet-3.0.4.tar.gz解......
  • 22.9.3 美团机器学习/数据挖掘岗面试复盘
    昨天参加了美团的机器学习/数据挖掘岗位的面试,和快手的一样,大约持续了一个小时。整体表现很不好,也让我坚定地打消了想要投递大厂的念头。表现不好的原因有多方面的,有因为感......