首页 > 其他分享 >【Kaggle】AAAMLP读书笔记

【Kaggle】AAAMLP读书笔记

时间:2023-12-09 12:00:51浏览次数:29  
标签:编码 LabelEncoder 变量 读书笔记 模型 Kaggle Hot 使用 AAAMLP

本人希望从0开始,自己的Kaggle竞赛

  1. 12月拿到自己的第一块Kaggle奖牌
  2. 短期内读完Abhishek Thakur的Approaching (Almost) Any Machine Learning Problem并且发博客记录https://github.com/abhishekkrthakur/approachingalmost
  3. 12月至少发21篇博客
  4. 每天保持八小时的学习时间


Approaching categorical variables(理论部分)

首先文章中将变量分为:

【Kaggle】AAAMLP读书笔记_数据

无序和有序

【Kaggle】AAAMLP读书笔记_数据_02

又进一步添加了循环和二元变量

【Kaggle】AAAMLP读书笔记_onehot_03

又给出了当我们使用OneHotEncode进行变量编码时,可以使用sparse矩阵进行存储,以节省空间。


可以使用groupby来进行统计

【Kaggle】AAAMLP读书笔记_数据_04

进一步的可以使用transform来直接构造一个servic

【Kaggle】AAAMLP读书笔记_稀疏矩阵_05

对于模型预料之外的值的处理

None值,直接把空白值赋值为None,交给模型训练

Rare值,当部分值出现的次数过少,可以把这些值转换为Rare值,当模型后续使用过程中接受到未知的非None值的时候,可以直接归类为Rare。

★不同编码方式的影响

文中有提到:

This type of encoding (LabelEncoder) cannot be used in linear models, support vector machines or neural networks as they expect data to be normalized (or standardized).

本人理解为可能是因为此类线性模型对于变量的相对大小非常敏感,使用LabelEncoder编码后的变量直接存在相对大小。

LabelEncoder:

适用算法: 随机森林、XGBoost 等树模型。

原因: 树模型对于特征的顺序关系不敏感,只关心数据的分布,而不关心具体的数值。LabelEncoder将类别型变量映射为整数,不引入额外的维度,能够更好地适应树模型的特性。树模型能够根据特征的相对大小进行自动分裂,因此不需要进行 One-Hot 编码。

One-Hot 编码:

适用算法: 线性模型,如逻辑回归。

原因: 线性模型假设特征之间是线性相关的,因此特征的数值大小对模型的影响很大。使用 One-Hot 编码可以将类别型变量的每个类别都转换为一个新的二进制特征,避免了数值大小的影响,确保了每个类别在模型中的权重独立。逻辑回归等线性模型在处理独热编码后的数据时更容易学到类别之间的线性关系。

需要注意,使用了One-Hot之后要使用稀疏矩阵或者使用奇异值。



标签:编码,LabelEncoder,变量,读书笔记,模型,Kaggle,Hot,使用,AAAMLP
From: https://blog.51cto.com/u_15683639/8747243

相关文章

  • 如何做读书笔记
    主要记录如何读书1高效阅读我们在上学时听到比较多一句话就是“读书无用论”,但是相反的是很多大佬讲座时都会劝我们多读书,为什么会有这么大的反差?因为读书方式不同!“无用”是无效阅读,与之相反的就是高效阅读。高效阅读关键在于做,而不只是读。为什么会这样说?因为我们阅读目的......
  • 《需求分析与系统设计》读书笔记1
      第一章讲了软件过程,从总体生描述了软件开发过程中的策略问题,介绍了支撑现代软件开发的过程和方法,认到了软件工程的本质是软件固有的复杂性,一致性,可变性和不可见性的产物。软件工程的偶然因素分为3类,即投入者,过程和建模语言和工具;投入者指那些与软件项目之间存在着利害关系的人......
  • 《卓有成效的程序员》读书笔记1
    我觉得此书第一部分总结的一些法则非常好,我提取了一下:法则:1.加速法则  关注本质,而非形式  一个应用程序列表的有用程度与它的长度成反比  程序员的很多时间都浪费在找东西上  华而不实的东西中看不中用  键盘输入总比导航快  首选键盘而非鼠标  ......
  • <金融心理学>读书笔记一
    关于“市场走在前面”的一些想法1、股票市场经常提前反映经济的转折和好坏,债券市场也是,这其中的道理是股票市场其实也是人的市场,人们买卖股票造成了股市的涨跌,人对未来经济的预期,会提前反馈在股价上,这是导致股市走在经济前面的主要原因,所以人的预期非常重要但是并不是所有的人......
  • 梦断代码 读书笔记03
    第9章方法IBM执行强制进度纪律的成功基于两条原则:1)计划是强制性的2)计划必须符合现实情况----“从底向上”,依据那些负责按计划执行的程序员的经验和知识而来,而不是“从顶至下”,靠管理者拍脑袋或对市场的期望而来2001年17位领军人物,提出了敏捷软件开发宣言,向这种笨重的CMM宣战,从此......
  • 《深度学习入门——自制框架》读书笔记
    1.自动微分step2创建变量的函数#箱子类,存放一个变量数据classVariable: def__init__(self,data): self.data=data#函数类的基类classFunction:#__call__方法是一个特殊的Python方法。#定义了这个方法后,当f=Function()时,就可以通过编写f(...)来......
  • 11月30日加 卓有成效的程序员读书笔记三
    今天上课完成了王老师的考试系统的数据流程图的绘画讲道理看着很麻人不过还是让我磕出来了 “古代哲人”一章里的提到一些东东,可能是我们大家都知道的一些道理或法则。但“知道法则”是一会事儿,“理解法则”又是另一会事儿。里面的“事物的本质性质和附属性质”就是哲学中......
  • Springboot017学生读书笔记共享-计算机毕业设计源码+LW文档
    摘要本论文主要论述了如何使用JAVA语言开发一个读书笔记共享平台,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述读书笔记共享平台的当前背景以及系统开发的目的,后续章节将严格按照软件开发流程,对系统进行各个阶......
  • 《clean code》读书笔记二
    《代码整洁之道》主要讲述了一系列行之有效的整洁代码操作实践。软件质量,不但依赖于架构及项目管理,而且与代码质量紧密相关。这一点,无论是敏捷开发流派还是传统开发流派,都不得不承认。这本书的阅读对象为一切有志于改善代码质量的程序员,书中介绍的规则均来自作者Bob大叔多年的实践......
  • 《软件工程:一种实践方法》读书笔记三
    第五章:软件开发过程中的质量质量定义:在软件开发中,质量是指满足明确或隐含的需求的能力或特性。这包括产品的正确性、可靠性、可维护性、可重用性、可扩展性和易用性等。质量的重要性:如果一个软件产品在质量方面存在问题,可能会导致失败,给组织带来严重的影响。因此,在软件开发过程......