首页 > 其他分享 >PCA要对数据进行预处理的原因

PCA要对数据进行预处理的原因

时间:2022-11-18 19:23:00浏览次数:67  
标签:scale 均值 标准差 除以 中心化 PCA 数据 预处理 原因

PCA要对数据进行预处理的原因
1.将数据进行中心化的原因:减去均值等同于坐标移动,这样就能把原始数据点的中心移到与原点重合,此举有利于很多表达,比如数据的协方差矩阵可以直接写成XX',若没有减去均值,则每两个特征之间都要进行(X-X均值)(Y-Y均值)运算,再组合成协方差矩阵。2.将数据除以标准差的原因:除以标准差是为了统一并消除量纲。一个样本中有多个特征,有些可能表示长度,有些可能表示重量。如果各个特征之间的数值或数量级存在较大差异,就会使得较小的数被淹没,导致主成分偏差较大。所以要将每个特征对应的样本除以标准差,这样才能让他们仅以“数的概念一起比较运算”。简言之---除以标准差的作用:去掉量纲,将不同量纲的数据拉伸至同一水平。公平比较。
https://www.jianshu.com/p/ae9db78ebb0f

使用z-score 标准化(zero-meannormalization)也叫标准差标准化,减去均值再除以数据的标准差,处理后数据符合标准正态分布,均值为0,标准差为1。
R函数:scale(data, center=T/F, scale=T/F)或者scale(data)参数:center (中心化)将数据减去均值参数:scale (标准化)在中心化后的数据基础上再除以数据的标准差参数center scale的默认值都是T
https://www.jianshu.com/p/8994afcaa757

标签:scale,均值,标准差,除以,中心化,PCA,数据,预处理,原因
From: https://www.cnblogs.com/xiaosagege/p/16904696.html

相关文章