在对数据进行预处理时，怎样处理类别型特征？

时间：2023-02-21 17:08:08浏览次数：51

什么样的特征是类别型特征？

类别型特征主要是指性别（男/女），体型（胖/瘦/适中）等只有在选项内取值的特征，类别型特征的原始输入通常是字符串形式，除了决策树等少数模型能够直接处理字符串形式的输入，对于逻辑回归、支持向量机等模型来说，类别型特征必须经过处理转换成数值型特征才能正确工作。

序号编码

序号编码通常用于处理类别间具有大小关系的数据，例如考试的成绩可以由好到坏分为（A、B、C、D）四档，序号编码会把他们按照大小关系表示为（1、2、3、4），这样变换完了之后依然保持着大小的关系。

然而当一组数据之间不再具有大小关系的时候，如血型（A、B、AB、O）四个属性值之间是没有大小关系的（此时可以认为是几个平行关系的属性，甚至是几个完全抽象的无法理解的数据），这样的数据是不可以使用序号编码的，此时就产生了下面的方法——独热编码。

独热编码

还是以上面的血型（A、B、AB、O）为例，可以表示为：

A:[1,0,0,0]

B:[0,1,0,0]

AB:[0,0,1,0]

O:[0,0,0,1]

独热编码的两个问题：

独热编码使用稀疏矩阵来节省空间，独热编码下特征向量只有某一维取值为1，其他的位置均取0，因此可以利用稀疏矩阵有效地节省空间，并且目前大部分算法都接受稀疏向量形式的输入。
在KNN算法中，高维空间中的两点之间的距离很难衡量；在逻辑回归中参数的数量会随着维度的增高而增加，容易引起过拟合的问题；维度过大的时候我们可以通过特征选择来降低维度。

二进制编码

二进制编码先给每个类别赋予一个类别ID，然后再将ID对应的二进制编码作为结果。依然用血型的例子可以得到如下的结果：

血型	类别ID	二进制表示
A	1	001
B	2	010
AB	3	011
O	4	100

相对于独热编码，二进制编码更加紧凑，节省存储空间。（效果未必更好）

统计编码

统计各类别在训练集中出现的频率，并将频率作为新的特征。
在某些情况下，具有统计意义的统计编码也是一种值得尝试的技巧。

标签：编码,序号,特征,独热,二进制,类别,预处理,怎样
From： https://blog.51cto.com/u_15969421/6076772

完整的软件测试流程应该是怎样的
一、需求阶段在这个阶段中，由产品经理主导需求评审，测试跟开发积极参与。在需求评审的过程中，开发和测试需要了解需求的细节和设计逻辑，同时对于有疑问的地方要......
React-Hooks怎样封装防抖和节流-面试真题
Debouncedebounce原意消除抖动，对于事件触发频繁的场景，只有最后由程序控制的事件是有效的。防抖函数，我们需要做的是在一件事触发的时候设置一个定时器使事件延迟发生，在......
《程序是怎样跑起来的》·第十二章让计算机"思考"
阅读正文前，让我们先回答下面的问题来热热身吧。用计算机进行的模拟试验称为什么？伪随机数指的是什么？随机数的种子指的什么？计算机有思考功能吗？计算机有记忆功能吗？AI是......
如何阅读openfoam帮助文档不同类别框图
看完of的帮助文档，会非常怀念fluent的帮助文档或是matlab的帮助文档比如我要解决一个matlab问题，基本上看帮助文档一分钟就知道我要如何取用我想要的东西，of帮助文档不光做不......
来讲讲怎样获取到url上所有参数并以对象形式保存，再讲讲JSON解析与序列化
theme:juejinhighlight:gi前言大家好，我是梁木由，一个有想头的前端，最近呢也在为明年跳槽做复习准备。但我有个朋友呢，打算在年前跳槽，这不这几天正在疯狂面试中，前两天问......
面试官：你是怎样进行react组件代码复用的
mixinMixin设计模式Mixin（混入）是一种通过扩展收集功能的方式，它本质上是将一个对象的属性拷贝到另一个对象上面去，可以拷贝多个属性到一个对象上，为了解决代码复用问题。常......
《程序是怎样跑起来的》·第十一章硬件控制方法
阅读正文前，让我们先回答下面的问题来热热身吧。在汇编语言中，是用什么指令来同外围设备进行输入输出操作的？I/O是什么的缩写？用来识别外围设备的编号称为什么？IRQ是什么......
《程序是怎样跑起来的》第五章
这章讲了内存与磁盘的紧密关系，计算机采用存储程序方式，而计算机中的主要存储部件就是内存与磁盘。在磁盘中存储的程序必须要加载到内存中才能运行，在磁盘中的原始......
《程序是怎样跑起来的》·第十章通过汇编语言了解程序的实际构成
阅读正文前，让我们先回答下面的问题来热热身吧：本地代码的指令中，表示其功能的英语缩写称为什么汇编语言的源代码转换成本地代码的方式称为什么？本地代码转换成汇编语言的......
怎样才能给人工智能注入有趣的灵魂？
以ChatGPT为代表的人工智能，理论上无法像人类一样拥有灵魂，但可以通过以下方式赋予其一定的趣味性：个性化-为人工智能添加特定的个性和语言风格，使其在与人类交互时更加......