标签：区别特征样本标准化正则归一化 100

一、是什么？

1. 归一化

　　是为了将数据映射到0~1之间，去掉量纲的过程，让计算更加合理，不会因为量纲问题导致1米与100mm产生不同。

　　归一化是线性模型做数据预处理的关键步骤，比如LR，非线性的就不用归一化了。

　归一化就是让不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。

　　缺点：这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

　　另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景

2. z-标准化

　　消除分布产生的度量偏差，例如：班级数学考试，数学成绩在90-100之间，语文成绩在60-100之间，那么，小明数学90，语文100，小花数学95，语文95，如何评价两个综合成绩好坏的数学处理方式。

二、怎么选？

1. 标准化

标准化更好保持了样本间距。当样本中有异常点时，归一化有可能将正常的样本“挤”到一起去。比如三个样本，某个特征的值为1,2,10000，假设10000这个值是异常值，用归一化的方法后，正常的1,2就会被“挤”到一起去。如果不幸的是1和2的分类标签还是相反的，那么，当我们用梯度下降来做分类模型训练时，模型会需要更长的时间收敛，因为将样本分开需要更大的努力！而标准化在这方面就做得很好，至少它不会将样本“挤到一起”。
标准化更符合统计学假设：对一个数值特征来说，很大可能它是服从正态分布的。标准化其实是基于这个隐含假设，只不过是略施小技，将这个正态分布调整为均值为0，方差为1的标准正态分布而已。

（1）逻辑回归必须要进行标准化吗？

答案：这取决于我们的逻辑回归是不是用正则。

　　如果你不用正则，那么，标准化并不是必须的，如果你用正则，那么标准化是必须的。（暗坑3）
　　为什么呢？
　　因为不用正则时，我们的损失函数只是仅仅在度量预测与真实的差距，加上正则后，我们的损失函数除了要度量上面的差距外，还要度量参数值是否足够小。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。举例来说，我们用体重预测身高，体重用kg衡量时，训练出的模型是：身高 = 体重*x ，x就是我们训练出来的参数。
当我们的体重用吨来衡量时，x的值就会扩大为原来的1000倍。
　　在上面两种情况下，都用L1正则的话，显然对模型的训练影响是不同的。

　　假如不同的特征的数值范围不一样，有的是0到0.1，有的是100到10000，那么，每个特征对应的参数大小级别也会不一样，在L1正则时，我们是简单将参数的绝对值相加，因为它们的大小级别不一样，就会导致L1最后只会对那些级别比较大的参数有作用，那些小的参数都被忽略了。

　　如果你回答到这里，面试官应该基本满意了，但是他可能会进一步考察你，如果不用正则，那么标准化对逻辑回归有什么好处吗？

　　答案是有好处，进行标准化后，我们得出的参数值的大小可以反应出不同特征对样本label的贡献度，方便我们进行特征筛选。如果不做标准化，是不能这样来筛选特征的。

　　答到这里，有些厉害的面试官可能会继续问，做标准化有什么注意事项吗？

　　最大的注意事项就是先拆分出test集，不要在整个数据集上做标准化，因为那样会将test集的信息引入到训练集中，这是一个非常容易犯的错误！

2. 归一化

　　模型算法里面有没关于对距离的衡量，没有关于对变量间标准差的衡量。比如decision tree 决策树，他采用算法里面没有涉及到任何和距离等有关的，所以在做决策树模型时，通常是不需要将变量做标准化的。

　　在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。有时候，我们必须要特征在0到1之间，此时就只能用归一化。有种svm可用来做单分类，里面就需要用到归一化。

标签：区别,特征,样本,标准化,正则,归一化,100
From： https://www.cnblogs.com/Phoeix/p/16738227.html

标准化和归一化的区别