首页 > 其他分享 >【scikit-learn基础】--『预处理』之 标准化

【scikit-learn基础】--『预处理』之 标准化

时间:2023-12-13 14:35:20浏览次数:35  
标签:0.70710678 -- 数据 scikit 标准化 1.41421356 learn ax data

数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的标准化处理,可以消除数据之间的差异,使不同特征的数据具有相同的尺度,
以便于后续的数据分析和建模。

1. 原理

数据标准化的过程如下:

  1. 计算数据列的算术平均值mean
  2. 计算数据列的标准差sd
  3. 标准化处理:\(new\_data = (data - mean) / sd\)

data 是原始数据,new_data 是标准化之后的数据。

根据原理,实现的对一维数据标准化的示例如下:

import numpy as np

# 标准化的实现原理
data = np.array([1, 2, 3, 4, 5])
mean = np.mean(data)  # 平均值
sd = np.std(data)   # 标准差

# 标准化
data_new = (data-mean)/sd

print("处理前: {}".format(data))
print("处理后: {}".format(data_new))

# 运行结果
处理前: [1 2 3 4 5]
处理后: [-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

使用scikit-learn库中的标准化函数scale,得到的结果也和上面一样。

from sklearn import preprocessing as pp

data = np.array([1, 2, 3, 4, 5])
pp.scale(data)

# 运行结果
array([-1.41421356, -0.70710678,  0.        ,  0.70710678,  1.41421356])

scikit-learn库中的标准化函数scale不仅可以处理一维的数据,也可以处理多维的数据。

2. 作用

标准化处理的作用主要有:

2.1. 消除数据量级的影响

数据分析时,不一样量级的数据放在一起分析会增加很多不必要的麻烦,比如下面三组数据:

data_min = np.array([0.001, 0.002, 0.003, 0.004, 0.005])
data = np.array([1, 2, 3, 4, 5])
data_max = np.array([10000, 20000, 30000, 40000, 50000])

三组数据看似差距很大,但是标准化处理之后:

from sklearn import preprocessing as pp

print("data_min 标准化:{}".format(pp.scale(data_min)))
print("data     标准化:{}".format(pp.scale(data)))
print("data_max 标准化:{}".format(pp.scale(data_max)))

# 运行结果
data_min 标准化:[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
data     标准化:[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
data_max 标准化:[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

标准化处理之后,发现三组数据其实是一样的。
将数据转化为相同的尺度,使得不同变量之间的比较更加方便和有意义,避免对分析结果产生误导。

2.2. 增强可视化效果

此外,标准化之后的数据可视化效果也会更好。
比如下面一个对比学生们数学和英语成绩的折线图:

math_scores = np.random.randint(0, 150, 10)
english_scores = np.random.randint(0, 100, 10)

fig, ax = plt.subplots(2, 1)
fig.subplots_adjust(hspace=0.4)
ax[0].plot(range(1, 11), math_scores, label="math")
ax[0].plot(range(1, 11), english_scores, label="english")
ax[0].set_ylim(0, 150)
ax[0].set_title("标准化之前")
ax[0].legend()

ax[1].plot(range(1, 11), pp.scale(math_scores), label="math")
ax[1].plot(range(1, 11), pp.scale(english_scores), label="english")
ax[1].set_title("标准化之后")
ax[1].legend()

plt.show()

随机生成10数学英语的成绩,数学成绩的范围是0~150,英语成绩的范围是0~100

标准化前后的折线图对比如下:
image.png
标准化之前的对比,似乎数学成绩要比英语成绩好。
而从标准化之后的曲线图来看,其实两门成绩是差不多的。

这就是标准化的作用,使得可视化结果更加准确和有意义。

2.3. 机器学习的需要

许多机器学习算法对输入数据的规模和量纲非常敏感。
如果输入数据的特征之间存在数量级差异,可能会影响算法的准确性和性能。

标准化处理可以将所有特征的数据转化为相同的尺度,从而避免这种情况的发生,提高算法的准确性和性能。

3. 总结

总的来说,数据标准化处理是数据处理中不可或缺的一步,它可以帮助我们消除数据之间的差异,提高分析结果的性能和稳定性,增加数据的可解释性,从而提高我们的决策能力。

标签:0.70710678,--,数据,scikit,标准化,1.41421356,learn,ax,data
From: https://www.cnblogs.com/wang_yb/p/17898953.html

相关文章

  • 实验6 C语言结构体、枚举应用编程
    1.实验任务1源代码1//P286例8.172//对教材上的程序作了微调整,把输出学生信息单独编写成一个函数模块3//打印不及格学生信息和所有学生信息程分别调用45#include<stdio.h>6#include<string.h>7#defineN3//运行程序输入测试时,可......
  • [粘贴]关于preparedStatement
    作者:wuxinliulei链接:https://www.zhihu.com/question/37043270/answer/83914933来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。这个问题的答案,可以参看这篇文章:http://www.importnew.com/5006.htmlJDBC为什么要使用PreparedStatement而不是S......
  • atlas 2001 dk A2 研发笔记
    atlas2001dkA2开发者套件: www.hiascend.com/hardware/devloper-kit-a2 课程:https://www.hiascend.com/zh/developer/courses/detail/1638576084570705922 os:https://www.hiascend.com/hardware/developer-kit-a2/resource xterm: https://mydown.yesky.com/pcsoft/988......
  • [Clickhouse] Clickhouse 报SQLException : Read timed out
    1问题描述在使用Clickhouse(21.3.4.25)进行大数据量地数据查询,高频报出SQLException:Readtimedout错误2问题分析2.1单次查询:耗时约4s2.2并发20查询:报SQLExceptionReadtimeout,并发5查询:正常2.3整个SQL:查询业务逻辑复杂(多层嵌套、Join、200余行)2.4整个Query......
  • MBR30300FCT-ASEMI高耐压肖特基MBR30300FCT
    编辑:llMBR30300FCT-ASEMI高耐压肖特基MBR30300FCT型号:MBR30200FCT品牌:ASEMI封装:TO-220F最大平均正向电流:30A最大重复峰值反向电压:300V产品引线数量:3产品内部芯片个数:2产品内部芯片尺寸:122MIL峰值正向漏电流:<10ua恢复时间:5ns浪涌电流:275A芯片材质:最大正向电压:0.86V~0......
  • 【前端】必学知识ES6 1小时学会
    1.ES6概述2.let和const的认识3.let、const、var的区别4.模板字符串5.函数默认参数6.箭头函数【重点】编辑7.对象初始化简写以及案例分析 【重点】8.对象解构8.对象传播操作符9.对象传播操作符案例分析编辑 10.数组Map11.数组Reduce 12.NodeJS小结1.ES6概述ES6,全称ECMAScript6......
  • 【Node.js】大前端技能最通俗易懂的讲解 快速入门必看
    目录1、概述前端工具VSCode安装2、NodeJS的安装3、NodeJS了解和快速入门4、NodeJS实现HttpServer服务5、NodeJS实现操作MySQL数据库Node.js是一个基于ChromeV8引擎的JavaScript运行环境,它允许开发者在服务器端执行Node.js是一个基于ChromeV8引擎的JavaScript运行环境,它允许开发者......
  • 常见立体几何图形的体积
    文章目录abstract祖暅原理推论棱锥和圆锥的体积用积分的方法推导棱台和圆台的体积圆台体积公式球体的体积球体的表面积abstract锥体和球体的体积公式主要通过积分的方法推导这类公式的推导中学一般不要求,只要会应用公式在高等数学中由合适和方便的工具来推导这些公式而相关......
  • 第一类曲线积分@对弧长的曲线积分
    文章目录abstract对弧长的曲线积分曲线形构件的质量第一类曲线积分曲线积分存在性利用曲线积分的定义描述曲线形构件质量问题推广曲线积分可加性闭曲线积分曲线积分性质曲线积分的计算方法证明(部分推导)小结曲线弧显函数形式方程下的曲线积分公式推广例例例abstract在积分学中,......
  • 三重积分@对称性和奇偶性计算法
    文章目录abstract利用奇偶性利用变量的轮换对称性例(奇偶性和对称性和球坐标)方法1方法2小结abstract除了按定义推导的几种坐标系上的一般计算三重积分的方法这里介绍两类特殊情况,及其可以简化计算的方法利用奇偶性若积分域关于坐标面(即)对称,关于有奇偶性,则若=;=若=;=0若......