变量处理中的标准化方法

时间：2023-02-28 20:15:20浏览次数：36

关于标准化的几点理解：

标准化(Standard)，是将数据以一个相同的尺度进行缩放
归一化(Normalization)是以缩放到[0,1]区间
sklearn中的Scaler，可以将数据缩放到给定的区间内
归一化可以理解成一种特殊的标准化

使用归一化消除不同量纲之间的差异，一般情况下使用线性模型务必要对连续特征做归一化。

graph LR Standard --> Normalization Standard --> MaxMinScaler Normalization --> Normalizer Normalization --> StandardScaler

MaxMinScaler

注意，以下公式用于只有一个随机变量的情况。

1. 归一化（缩放到[0,1]区间）
$ X_{std} = \frac{X-X_{min}}{X_{max}-X_{min}} $

2. 缩放到给定的[min, max]区间
$ X_{scaled} =X_{std} * (max - min) + min $

说明：

加上min 可以保证 $X_{scaled}$ 最小值为 min
$X_{std}$最大值为1，保证了 $X_{scaled}$的最大值为max
需要缩放到数据在指定范围时候可以选择此方法，能够较好保留原始特征的信息。

StandardScaler

标准化(Standardization) ，也就是计算Z-Score，可使得数据的均值为0，方差为1，计算公式：

$ X_{z-score} = \frac{X-\mu}{\sigma} $

推导均值为0：

\[\bar x_{z-score} = \frac{1}{n} * (\frac{x_1-\mu}{\sigma} + \frac{x_2-\mu}{\sigma} + ... + \frac{x_n-\mu}{\sigma}) =\frac{x_1+x_2+...+x_n - n*\mu}{\sigma} \]

(equation 1)

其中：

\[\mu = \frac{x_1+x_2+...+x_n}{n} => x_1+x_2+...+x_n = n*\mu \]

所以equation 1 中的分子为0，可以得到：
$\bar x_{z-score} = 0$

推导方差为1：

\[\sigma{z-score} = \frac{1}{n-1} * (\frac{x_2-\mu}{\sigma} - \frac{x_1-\mu}{\sigma} + ... + \frac{x_n-\mu}{\sigma} - \frac{x_{n-1}-\mu}{\sigma}) = \frac{1}{n-1} * (\frac{x_2-x_1}{\sigma} + \frac{x_3-x_2}{\sigma} + ...+ \frac{x_{n}-x_{n-1}}{\sigma}) = \frac{1}{\sigma} * (\frac{x_2-x_1}{n-1} + \frac{x_3-x_2}{n-1} + ...+ \frac{x_{n}-x_{n-1}}{n-1}) \]

(equation 2)

其中：
$ \sigma =\frac{x_2-x_1 + x_3-x_2 + ... + x_{n}-x_{n-1}}{n-1} $

可以得到:
$\sigma{z-score} = 1$

需要控制数据的均值和方差时候可以选择此方法。

Normalizer

正则化,利用范数进行归一化，计算方法：

$ Norm(X_i) = \frac{x_i}{||X||_p} ;where X=\{x_1, x_2, ..., x_i\} $

其中$||X||_p$表示X的p范数，标准化的过程就是每一个样本除以改变量的p范数，以2范数为例计算方法：

$ ||X||_2 = \sqrt{x_1^2 + x_2^2 + ... + x_n^2} $

X变量的p范数计算方法：

$ ||X||_p = (\sum {x_1^p + x_2^p + ... +x_n^p})^\frac{1}{p} $

$L_2$范数可以将数据缩放到[0,1]区间：
$ Norm_2(x_i) = \frac{x_i^2}{ x_1^2 + x_2^2 + x_i^2 + ... + x_n^2 } $

因为$x_1^2 + x_2^2 + x_i^2 + ... + x_n^2x>=x_i^2>0$ 所以$Norm_2(x_i)$也是[0,1]区间。

称呼

上面这几种方式都是标准化方法，也都能实现归一化，但是实际上对它们的翻译是：

MaxMinScaler - 归一化(明显可以把变量缩放到给0,1区间)
StandardScaler - 标准化(因为将数据缩放到一个正太分布了？？)
Normalizer - 正则化(使用了范数)

知道它们具体是怎么就好了。。。。

标签：...,frac,变量,处理,标准化,mu,归一化,范数,sigma
From： https://www.cnblogs.com/oaks/p/17165784.html

处理 S4过账时的错误：“更正统一日记账分类账的定制设置”
1.S4HANA环境新配置的公司代码，做凭证时报错：2. 点开后报错： 3. 分别点击提示事务检查分类账设置路径：IMG->财务会计->财务会计全局设置->分类账->分类账-......
C语言预处理指令
1、宏操作符##操作符可以把宏参数转换成字符串#include<stdio.h>#defineSTR(n)#nintmain(){printf("STR(n)中的值为:%s",STR(5+6));return0;}通过GCC预编译后可以......
通过java代码向mysql数据库插入记录，中文乱码处理
处理步骤修改mysql配置文件，并重启mysql服务。mysql默认配置文件路径为/etc/my.cnf。修改配置如下：[mysqld]character-set-server=utf8[client]default-character-set......
dremio 的 telemetry 处理简单说明
dremio实际上添加了支持基于opentelemetry的监控处理,代码处理上官方是已经支持了metrics，当然也是支持trace的参考处理机制处理上基于了配置，同时利用了jackson多太类型......
shell-对于变量的使用的一些脚本实现方式
for循环简单实现#!/bin/bashcd/root/health-check/>/tmp/bomp-check-result.jsonforiin$(ls./check*.sh)dobash./$idone通过端口判断kubel......
sql 开窗函数排序遇到空值的处理办法
sqlsever默认null最小升序排序null值在最前面，若要放在后面，则：orderbycasewhencolisnullthen1else0end,col降序排序null值在最后面，若要放在前面，则：order......
Servlet处理请求参数中文乱码问题
资料来源于：B站尚硅谷JavaWeb教程(全新技术栈,全程实战)，本人才疏学浅，记录笔记以供日后回顾视频链接获取的请求参数有中文乱码问题设置编码tomcat8之前，设置编码：......
记一次druid 数据库连接池遇到 union或者union all语句时报错以及处理
报错日志大概如下：##Errorupdatingdatabase.Cause:java.sql.SQLException:sqlinjectionviolation,syntaxerror:syntaxerror,errorin:'UNIONALL......
注册功能_后台_service代码实现&测试与注册功能_后台_验证码&前台数据处理
注册功能_后台_service代码实现&测试添加数据成功的添加到数据库中注册功能_后台_验证码&前台数据处理 //验证......
Mac 系统中，因环境变量配置错误，导致终端命令不可用，解决方法记录
背景在安装Auller过程中，因为第一次在mac系统中配置环境变量，环境变量配置错误，导致在终端中无法使用ls命令，显示无法识别此命令。现象：执行ls语句，查询当前目录......

变量处理中的标准化方法

MaxMinScaler

StandardScaler

Normalizer

称呼

相关文章

赞助商

阅读排行