首页 > 其他分享 >【scikit-learn基础】--『预处理』之 分类编码

【scikit-learn基础】--『预处理』之 分类编码

时间:2023-12-20 09:34:03浏览次数:24  
标签:编码 顺序 -- data scikit 三班 learn array 数据

数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的分类编码处理,主要用于将类别型数据转换为可以用于分析或机器学习的形式。
类别型数据是指具有离散、不连续取值的数据,例如性别(男/女)、等级(优/良/中/差)之类数据。
对这些数据进行适当的编码,可以提高数据处理效率和准确度。

1. 原理

分类编码的原理比较简单,常用的两种是顺序编码独热编码

1.1. 顺序编码

顺序编码很好理解,就是按照顺序给离散的数据编码,比如下面成绩和班级信息的数据:

data = np.array(
    [
        ["优", "三班"],
        ["及格", "二班"],
        ["良", "一班"],
        ["优", "五班"],
        ["中", "八班"],
        ["良", "六班"],
        ["不及格", "三班"],
        ["优", "十班"],
    ]
)

原始数据是用中文描述的,无法直接用于机器学习算法之中,所以要编码。
scikit-learn库的OrdinalEncoder就是用来顺序编码的。

from sklearn import preprocessing as pp

data = np.array(
    [
        ["优", "三班"],
        ["及格", "二班"],
        ["良", "一班"],
        ["优", "五班"],
        ["中", "八班"],
        ["良", "六班"],
        ["不及格", "三班"],
        ["优", "十班"],
    ]
)
oenc = pp.OrdinalEncoder()

# 顺序编码
oenc.fit_transform(data)

# 运行结果
array([[2., 1.],
       [3., 2.],
       [4., 0.],
       [2., 3.],
       [1., 4.],
       [4., 5.],
       [0., 1.],
       [2., 6.]])

从运行结果可以看出,虽然"优", "良", "中"等成绩等级,"一班", "二班", "三班"等班级信息都被编码成顺序的数字。
但是,并不是按照中文含义的顺序来编码的,比如优对应2及格对应3三班对应1二班却对应2等等。

为了让编码后的数字和原来的中文含义的顺序有对应,我们可以定义编码的顺序。

# 定义中文的顺序
catagories = [
    ["优", "良", "中", "及格", "不及格"],
    ["一班", "二班", "三班", "五班", "六班", "八班", "十班"],
]

oenc = pp.OrdinalEncoder(categories=catagories)
oenc.fit_transform(data)

# 运行结果
array([[0., 2.],
       [3., 1.],
       [1., 0.],
       [0., 3.],
       [2., 5.],
       [1., 4.],
       [4., 2.],
       [0., 6.]])

这样,编码后的数字的顺序就能和中文所代表的含义对应起来了。

1.2. 独热编码

上面示例中的成绩等级班级信息都有顺序,如果对没有顺序含义的信息进行顺序编码的话,
就会赋予给信息添加了顺序的含义,对于后续算法的应用可能会产生影响。

这时,就可以用独热编码的方式来处理,比如对于下面的科目信息:

data = np.array([["语文"], ["数学"], ["英语"], ["物理"], ["化学"]])

这些科目信息之间是没有顺序概念的,语文不一定排在数学前面,化学也不一定要排在英语后面。
这时,用独热编码就比较合适了。

data = np.array([["语文"], ["数学"], ["英语"], ["物理"], ["化学"]])

enc = pp.OneHotEncoder()
enc.fit_transform(data).toarray()

# 运行结果
array([[0., 0., 0., 0., 1.],
       [0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.],
       [1., 0., 0., 0., 0.]])

从中可以看出,语文编码成了数组[0., 0., 0., 0., 1.],数学编码成了[0., 1., 0., 0., 0.]数组等等。
科目信息之间不存在顺序。

2. 作用

分类编码是数据挖掘和机器学习领域中非常重要的一个环节,主要的作用有:

  1. 转换数据格式:将类别型数据转换为数值型数据,从而使其能够被计算机处理和建模。
  2. 提高处理效率:分类编码可以将多个类别型变量转换为多个数值型变量,从而简化了数据处理过程,提高了数据处理效率。
  3. 提高性能:分类编码可以通过独热编码等方式,将类别型变量转换为多个二元特征,从而增加了模型的非线性能力和表达能力,从而提高了模型的性能。
  4. 降低复杂度:分类编码可以将多个类别型变量转换为多个数值型变量,从而降低了模型的复杂度。这有利于减少模型的过拟合,提高模型的泛化能力。
  5. 处理不平衡类别:分类编码可以通过生成额外的特征或者使用其他技术来处理不平衡类别的数据。
  6. 去除噪声和冗余特征:分类编码可以通过删除不相关或冗余的特征来减少数据的噪声和冗余,从而提高数据的质量和模型的性能。

3. 总结

本篇介绍了两种编码方式,顺序编码(OrdinalEncoder)和独热编码(OneHotEncoder),但scikit-learn库提供的编码方式并不只有这两种。

还有目标编码(TargetEncoder),标签编码(LabelEncoder)等等,可以参考官方文档中的使用方法,在合适的场景中使用。

标签:编码,顺序,--,data,scikit,三班,learn,array,数据
From: https://www.cnblogs.com/wang_yb/p/17915456.html

相关文章

  • Clip介绍
    一、Clip如何训练那像CLIP这样的语言模型究竟是怎么训练出来的呢?它们是怎么样做到结合人类语言和计算机视觉的呢?首先,要训练一个结合人类语言和计算机视觉的模型,我们就必须有一个结合人类语言和计算机视觉的数据集。CLIP就是在像下面这样的数据集上训练的,只不过图片数据达到了......
  • Stable Diffusion组成
    一、TextUnderstander(蓝色部分)将文字转换成某种计算机能理解的数学表示textunderstander是个特别的Transformer语言模型(例如clip,可参考Clip介绍)textunderstander的输入是人类语言(token),输出是一系列的向量(tokenembeddings,每个向量有768维),这些向量的语义对应着我们输入的......
  • Stable Diffusion 数学支撑
    一、生成模型在概率统计理论中,生成模型是指能够随机生成观测数据的模型GAN模型因其对抗性训练的本质可能导致训练不稳定以及生成多样性不足VAE依赖于替代损失Flow模型必须使用专门的架构来构建可逆变换扩散模型受非平衡热力学的启发。它们定义了一个扩散步骤的马尔可夫......
  • delphi cxgrid 过滤列表增加右键
    首先弹出来的下拉过滤列表也是一个form思路,在不改源代码的情况:hook,捕捉  WM_SHOWWINDOW 消息,通过源码得知窗口类名为”TcxGridFilterPopup“ 再通过句柄转得到实例,同时在本单元type一下新的 TcxGridFilterPopup, TcxGridPopupListBox才能访问保护起来的方法跟属性C......
  • 宝塔面板搭建部署wordpress个人网站实现无公网即可远程访问(小白建站福音!!)
    WordPress是一个非常灵活和强大的博客建站平台,适用于各种不同类型的网站建设需求。简单几步实现宝塔面板结合cpolar工具实现无公网远程访问,无需云服务器即可发布自己的网站到公网访问1.环境安装wordpress运行需要PHP环境,我们在宝塔商店中我们搜索PHP8.0版本安装 然后安......
  • SQL 的执行顺序,你搞清楚了吗?
    这是一条标准的查询语句: 这是我们实际上SQL执行顺序:from子句组装来自不同数据源的数据;where子句基于指定的条件对记录行进行筛选;groupby子句将数据划分为多个分组;使用聚集函数进行计算;使用having子句筛选分组;计算所有的表达式;select的字段;使用orderby对结......
  • GAN模型
    GAN模型优化训练在训练过程中,生成网络的目标就是尽量生成真实的图片去欺骗判别网络D。而网络D的目标就是尽量把网络G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。这个博弈过程具体是怎么样的呢?先了解下纳什均衡,纳什均衡是指博弈中这样的局面,对于每......
  • npmjs.com 网站
    npmjs.com提供了许多对日常开发非常有用的功能:包管理:你可以使用npm来安装、升级、卸载包。这些包可以是全局安装的,也可以是本地安装的。依赖控制:npm可以帮助你管理项目的依赖,使得代码部署变得更加容易。发布和维护包:如果你是一个开发者,npm也提供了命令行工具,让你......
  • 【洛谷】P1873 [COCI 2011/2012 #5] EKO / 砍树 (二分)
    题目描述见:P1873思路比较明确qwq因为答案显然满足单调性:当x超过某个数一定是错的(收集的木材大于m),而小于x一定是对的,并且x是从0一直递增。故我们只需二分法找到x。直接看代码吧qwq精髓是check函数直接模拟题目要求ww#include<iostream>usingnamespacestd;#defineMAXN100......
  • 实用指南:打造卓越企业BI实施解决方案
    前言随着大数据时代的到来,商业智能(BI)工具变得非常重要。一个全面的商业智能方案可以支持数据驱动的决策并提高决策效率,同时还可以准确反映企业运行状态,为企业持续增长提供新的动力。本文小编将为大家介绍如何通过葡萄城公司的嵌入式BI工具——Wyn商业智能软件实现BI项目的实施......