首页 > 其他分享 >数据预处理

数据预处理

时间:2023-06-08 23:04:28浏览次数:25  
标签:纲化 mi mx 归一化 数据 预处理

1特种预处理

数据预处理是通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

内容:
数值型数据的无量纲化:
归一化
标堆化标堆化

特征预处理API
sklearn. preprocessing
了解数值型数据、类别型数据特点
应用MinMaxScaler实现对特征数据进行归一化。
应用StandardScaler实现对特征数据进行标准化

其中一种预处理方法
image
例子:
image
例如对于里面的两个我们计算他的差距的话如果用这个公式:
image
我们会发现它主要取决于里程数,所以我们需要无量纲化
我们需要用到一些方法进行无量纲化,使不同规格的数据转换到同一规格

2.归一化

2.1定义

通过对原始数据进行变换把数据映射到(默认为[0,1])之间

2.2 公式

x'=(x-min)/(max-min)
x''=x'*(mx-mi) + mi

作用于每一列, max为一列的最大值, min为一列的最小值,那么X”为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0

image

image

3.API

sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)
MinMaxScalar.fit_transform(X)
x:numpy array个数的数据[n_samples,n_features]
返回值:转换后的形状相同的array
image

标签:纲化,mi,mx,归一化,数据,预处理
From: https://www.cnblogs.com/lipu123/p/17465158.html

相关文章

  • R语言用贝叶斯层次模型进行空间数据分析|附代码数据
    阅读全文:http://tecdat.cn/?p=10932最近我们被客户要求撰写关于贝叶斯层次模型的研究报告,包括一些图形和统计输出。在本文中,我将重点介绍使用集成嵌套拉普拉斯近似方法的贝叶斯推理。可以估计贝叶斯层次模型的后边缘分布。鉴于模型类型非常广泛,我们将重点关注用于分析晶格数据......
  • matlab使用分位数随机森林(QRF)回归树检测异常值|附代码数据
    全文链接:http://tecdat.cn/?p=22160 最近我们被客户要求撰写关于分位数随机森林(QRF)回归树的研究报告,包括一些图形和统计输出。这个例子展示了如何使用分位数随机林来检测异常值分位数随机林可以检测到与给定X的Y的条件分布有关的异常值。离群值是一些观测值,它的位置离数据集......
  • Json_JSON编码格式提交表单数据详解
     以JSON编码格式提交表单数据是HTML5对WEB发展进化的又一大贡献,以前我们的HTML表单数据是通过key-value方式传输的服务器端,这种形式的传输对数据组织缺乏管理,形式十分原始。而新出现的JSON格式提交表单数据方法,将表单里的所有数据转化的具有一定规范的JSON格式,然后传输的服务器端......
  • R语言无套利区间模型期货期现研究:正向套利和反向套利次数、收益率分析华泰柏瑞300ETF
    全文链接:http://tecdat.cn/?p=31973最近我们被客户要求撰写关于无套利区间模型的研究报告,包括一些图形和统计输出。股指期货的套利交易有助于股指期货实现其价格发现以及风险规避的功能,因此提高套利交易的效率,对于发挥股指期货在经济发展中的作用有着重要的意义本文帮助客户对......
  • 数据库记录安全解决方案
    via: http://netkiller.github.io/journal/mysql.security.html 1. 什么是防删除,防撰改禁止数据删除,数据一旦增加不允许数据被任何人删除禁止数据修改,数据一旦建立不允许对数据做修改操作2. 为什么要做防删除,防撰改限制很多时候我们的数据是只增加,不会删除数据。有些敏......
  • Java数据类型、数组
    Java数据类型基本数据类型(8种)byte\short\int\long\;float\double;char\boolean引用数据类型类、数组、接口、枚举、注解、记录一维数组packagecom.study.onearray;publicclassOneArrayTest01{//快捷方式:psvm+回车,快速生成main方法......
  • 【视频】Python的天气数据爬虫实时抓取采集和可视化展示
    全文链接:http://tecdat.cn/?p=32715原文出处:拓端数据部落公众号分析师:XiaoyangZhou本文以天气数据实时抓取和可视化展示为主题,旨在探讨如何使用Python编写程序来实现对天气数据的抓取、可视化和预测。从中国气象局天气预报网来获取数据首先,我们需要从中国气象局天气预报网上......
  • YOLOv5实现佩戴安全帽检测和识别(含佩戴安全帽数据集+训练代码)
    YOLOv5实现佩戴安全帽检测和识别(含佩戴安全帽数据集+训练代码)目录YOLOv5实现佩戴安全帽检测和识别(含佩戴安全帽数据集+训练代码)1.前言2.佩戴安全帽检测和识别的方法(1)基于目标检测的佩戴安全帽识别方法(2)基于头部检测+佩戴安全帽分类识别方法3.佩戴安全帽数据集说明(1)佩戴安全......
  • MYSQL数据表操作经验 初学者必看
    特殊导入数据表的方法(CMD命令): D:\wamp\bin\mysql15.6.12\bin>mysql-uroot-pnewpump<e:table.sql 或者用source命令导入数据表之前设置数据表文件的编码(这里并不是设置数据表里的内容编码):D:\wamp\bin\mysql15.6.12\bin>mysql-uroot-p--default-charcter-set=utf......
  • 从宏基因组测序数据生成宏基因组组装基因组的计算工具
    从宏基因组测序数据生成宏基因组组装基因组的计算工具小组成员及分工王嘉璐22020080046:负责摘要、引言部分王涵22020080045:负责用于构建mag的上游分析工具部分王婷22020080047:负责总结,查找文献,博文整理汇总 1摘要微生物本质上与地球上的人类生活有着错综复杂的联系。......