首页 > 其他分享 >机器学习特征--独热编码(One-Hot Encoding)

机器学习特征--独热编码(One-Hot Encoding)

时间:2023-03-08 20:44:18浏览次数:40  
标签:编码 Encoding -- 独热 特征 Hot 工程师

在机器学习算法中,常会遇到分类特征是离散的,无序的。例如:性别有男、女,城市有北京,上海,深圳等

 

性别特征:
["男","女"] => 0,1
地区特征:
["北京","上海,"深圳"] => 0,1,2
工作特征:
["演员","厨师","公务员","工程师","律师"] => 0,1,2,3,4
比如,样本(女,北京,工程师)=>(1,0,3),但是,这样的特征处理并不能直接放入机器学习算法中,因为,分类器通常数据是连续且有序。解决这类问题,一种解决方法是采用独热编码(One-Hot Encoding)。
一、什么是独热编码   独热编码(One-Hot Encoding),又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值。
例如,对六个状态进行编码:
自然顺序码为 000,001,010,011,100,101
独热编码则是 000001,000010,000100,001000,010000,100000

回到一开始的例子,性别特征:["男","女"],按照N位状态寄存器来对N个状态进行编码的原理:

性别特征:["男","女"](这里N=2)
男 => 10
女 => 01
地区特征:["北京","上海,"深圳"](这里N=3):
北京 => 100
上海 => 010
深圳 => 001
工作特征:["演员","厨师","公务员","工程师","律师"](这里N=5):
演员 => 10000
厨师 => 01000
公务员 => 00100
工程师 => 00010
律师 => 00001

所以,样本的特征是["女","北京","工程师"]的时候,独热编码(One-Hot Encoding)的结果为:

[0,1,1,0,0,0,0,0,1,0]

 

二、为什么要进行独热编码

在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的。而常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。
使用独热编码(One-Hot Encoding),将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用独热编码(One-Hot Encoding),会让特征之间的距离计算更加合理。
比如,上面的工作特征,该离散型特征,共有五个取值,不使用独热编码(One-Hot Encoding),其表示分别是:
演员 = (0)
厨师 = (1)
公务员 = (2)
工程师 = (3)
律师 = (4)

两个工作之间的距离是:

d(演员,厨师) = 1
d(厨师,公务员) = 1
d(公务员,工程师) = 1
d(工程师,律师) = 1
d(演员,公务员) = 2
d(演员,工程师) = 3
.....
显然这样的表示,计算出来的特征的距离是不合理。那如果使用独热编码(One-Hot Encoding),则得到d(演员,厨师) = 1与d(演员,公务员)都是1。那么,两个工作之间的距离就都是sqrt(2)。即每两个工作之间的距离是一样的,显得更合理。


三、什么情况下不需要独热编码   1、如果特征是离散的,并且不用独热编码就可以很合理的计算出距离,就没必要进行独热编码。(比如,离散特征共有1000个取值,分成两组是400和600,两个小组之间的距离有合适的定义,组内距离也有合适的定义,就没必要独热编码)
2、有些并不是基于向量空间度量的算法,数值只是个类别符号,没有偏序关系,就不用进行独热编码。
3、如果原本的标签编码是有序的,就不必独热编码了,因为会丢失顺序信息。

 

 

 

 

 

 

 

 

 

 

 

标签:编码,Encoding,--,独热,特征,Hot,工程师
From: https://www.cnblogs.com/xcyjblog/p/17196200.html

相关文章

  • 66.mysql的json语法
    Mysql的json语法:#创建json表createtablet_json(idintprimarykey,snamevarchar(20),infojson);#插入json数据insertintot_json(id,sname,info)values(1,'......
  • P4551 最长异或路径
    给定一棵nn个点的带权树,结点下标从11开始到nn。寻找树中找两个结点,求最长的异或路径。异或路径指的是指两个结点之间唯一路径上的所有边权的异或。 处理出每个点......
  • 包机制
    包机制为了更好地组织类,Java提供了包机制,用于区别类名的命名空间。包语句的语法格式为:packagepkg1[.pkg2[.pkg3...]];一般利用公司域名倒置作为包名;为了能够使......
  • AcWing 165. 小猫爬山(dfs)
    https://www.acwing.com/problem/content/167/一共N只小猫,每个缆车最大承重量为W。N只小猫的重量分别是C1、C2……CN。当然,每辆缆车上的小猫的重量之和不能超过W。......
  • JS系列---【转化时间格式moment】
    1.先安装momentnpminstallmoment--save2.在main.js进入并加到原型上供全局使用importmomentfrom'moment';//moment.locale('zh-cn');//根据情况需要Vue.prot......
  • JavaDoc生成文档
    JavaDocjavadoc命令是用来生成自己API文档的参数信息@author作者名@version版本号@since指明需要最早使用的jdk版本@param参数名@return参数名@throws异常......
  • THUPC2023 初赛
    A.大富翁诈骗题。你会发现这个东西和先后手无关,如果某个人的某个点上面有其它人的点那么减一,如果子树内有其它人的点那么加一。这个还是不好做。我们可以将一对属于同......
  • 网络编程学习笔记
    视频链接【C/C++网络编程,从socket到epoll】https://www.bilibili.com/video/BV11Z4y157RY?vd_source=8d1ec00b45049370fe349649f1886a9a总的来说是偏应用性的视频分享,原理......
  • 用户交互Scanner
    Scanner对象Java给我们提供了可以实现程序和人的交互的工具类,我们可以获取用户的输入。java.util.Scanner是Java5的新特性,我们可以通过Scanner类来获取用户的输入。基本......
  • 顺序结构
    顺序结构JAVA的基本结构就是顺序结构,除非特别指明,否则就按照顺序一句一句执行。顺序结构是最简单的算法结构。语句与语句之间,框与框之间是按从上到下的顺序进行的,它是......