首页 > 其他分享 >机器学习-数据预处理

机器学习-数据预处理

时间:2023-01-05 16:45:59浏览次数:40  
标签:机器 sp 学习 归一化 np import 数据 预处理 sklearn

1.均值移除(标准化)
  由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理。均值移除可以让样本矩阵中的每一列的平均值为0,标准差为1。
  确保每一个特征列的数值都在类似的数据范围之间,防止某一个特征列数据天然的数值太大而一家独大影响结果

  使用sklearn
  import numpy as np
  import sklearn.preprocess as sp

  sample = np.array([
      [2, 4, 5, -1],
      [3, 1, 7, -2],
      [6, -3, 2, -1],
  ], dtype="float")

  print(sp.scale(sample))

  #[[-0.98058068  1.16247639  0.16222142  0.70710678]
  #[-0.39223227  0.11624764  1.13554995 -1.41421356]
  #[ 1.37281295 -1.27872403 -1.29777137  0.70710678]]
2.归一化
  归一化就是把所有数据都转化成[0,1]或者[-1,1]之间的数,其目的是为了取消各维数据之间的数量级差别,避免因为输入输出数据数量级差别大而造成网络预测误差过大。
  归一化作用:

    1)为了后面数据处理的方便,归一化可以避免一些不必要的数值问题。

    2)为了程序运行时收敛速度更快

    3)统一量纲。样本数据的评价标准不一样,需要对其量纲化,统一评价标准,这算是应用层面的需求。

    4)避免神经元饱和。就是说当神经元的激活在接近0或者1时,在这些区域,梯度几乎为0,这样在反向传播过程中,局部梯度就会接近于0,这样非常不利于网络的训练。

    5)保证输出数据中数值小的不被吞食。

  import numpy as np

  import sklearn.preprocess as sp

  samples = np.array([[17., 100., 4000],

              [20., 80., 5000],

              [23., 75., 5500]])

  print(sp.normalize(samples, norm='l1')

  #[[0.00412922 0.02428953 0.97158125]
  #[0.00392157 0.01568627 0.98039216]
  #[0.00410861 0.01339764 0.98249375]]

 

 

标签:机器,sp,学习,归一化,np,import,数据,预处理,sklearn
From: https://www.cnblogs.com/duzw/p/17027779.html

相关文章

  • IM通讯协议专题学习(七):手把手教你如何在NodeJS中从零使用Protobuf
    1、前言Protobuf是Google开源的一种混合语言数据标准,已被各种互联网项目大量使用。Protobuf最大的特点是数据格式拥有极高的压缩比,这在移动互联时代是极具价值的(因为移动......
  • Android学习day04【Button】
    报错,代码显示运行成功但是无法在模拟机上显示  原因是没有在包含应有id其二是关于设置背景颜色中关于background与backgroundTint的区别//这是backgroundTint的......
  • TypeScripts 学习笔记
    TypeScript是拥有类型的JavaScript超集,它可以被编译成普通、干净、完整的JavaScript代码。一、起步1.TypeScripts的编译环境1.1安装#全局安装npminstalltypes......
  • 机器学习 吴恩达2022 第一章 笔记
    1.第一周  这篇笔记很多源自这位大佬,我实在是打不出这么多字(.)1.1什么是机器学习  机器学习是什么?在本视频中,我们会尝试着进行定义,同时让你懂得何时会使用机器学......
  • 机器学习--起手式
    几个贯穿始终的概念当我们把人类学习简单事物的过程抽象为几个阶段,再将这些阶段通过不同的方法具体化为代码,依靠通过计算机的基础能力--计算。我们就可以让机器能够“学会......
  • dockerfile实践学习
    一、dockerfile简介镜像是分层存储的,每一层在前一层的基础上进行修改。容器也是分层存储,已经向为基础层,在其他基础上加一层作为容器运行的存储层。创建镜像的另种两种......
  • 深度学习随笔[tensorflow] 多维矩阵的乘法
    ​​最新openCV-Python安装教程(python:3.9||opencv-python:4.5.5)_Mr.zzc的博客​​pycharm导入opencv后无智能提示-知乎​​ 版本问题,选择3.4.14.51可以,选择3.4.18.65不行......
  • (实例)学习requests方法的写法
    ​第一种:直接平铺代码#-*-coding:utf-8-*-#pipinstallrequests,这是导入requests模块的命令#因为requests是外部的,所以每次使用都要import一次importrequests#......
  • 学习.NET MAUI Blazor(四)、路由
    Web应用程序的可以通过URL将多个页面串联起来,并且可以互相跳转。Web应用主要是使用a标签或者是服务端redirect来跳转。而现在流行的单页应用程序(SPA),则通过路由(Router)来......
  • Elasticsearch学习笔记
    ​​最新ElasticSearch6实战教程​​​​全文搜索引擎Elasticsearch入门教程​​​​Elasticsearch学习,请先看这一篇!​​​​ElasticSearch简介​​​​Elasticsearch入门......