指标数据的规范化处理

标签：处理方法样本标准化指标规范化评价数据

在_多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行规范化处理。目前数据规范化方法有多种，归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法，对系统的评价结果会产生不同的影响，然而不幸的是，_在数据规范化方法的选择上，还没有通用的法则可以遵循。

一数据规范化方法

数据的规范化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上，常见的数据归一化的方法有：min-max标准化（Min-max normalization），log函数转换，atan函数转换，z-score标准化（zero-mena normalization，此方法最为常用），模糊量化法。

1.1 min-max标准化(Min-maxnormalization)

也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下:

离差标准化

其中max为样本数据的最大值，min为样本数据的最小值。
这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

1.2 z-score标准化(zero-meannormalization)

并非所有数据规范化的结果都映射到[0,1]区间上，其中最常见的标准化方法就是Z标准化，也叫标准差标准化。通过标准化，令数据的平均值为 0，标准化为1的标准化方法，在经济社会、传播学研究中使用普遍，公式如下：

\[\hat x_i = \frac{x_i - \mu}{\sigma}, \hspace{1em}x \in R \]

其中\(\mu\)为样本均值， \(\sigma\)为样本标准差。

优点：

保留数据真实距离，维持标准化前数据分布，缩放均为等比例缩放。
标准化后数据的平均值为 0 0 0，标准化为 1 1 1。
对极值不敏感。

缺点：

标准化后数据不在固定范围内，如用作指标体系计算还需要进一步标准化。
样本标准化后值不稳定，受样本平均值和标准差影响；当添加新样本时，旧样本的标准化值一定发生变化。
这种方法基于原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。将A的原始值x使用z-score标准化到x’。
z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。
用Excel进行z-score标准化的方法：在Excel中没有现成的函数，需要自己分步计算，其实标准化的公式很简单。

计算步骤如下：
1.求出各变量（指标）的算术平均值（数学期望）xi和标准差si ；
2.进行标准化处理：
zij=（xij－xi）/si
其中：zij为标准化后的变量值；xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

1.3 Sigmoid 函数标准化

如果数据呈现中间集中的分布，同时需要将区分中心部分的差距，可以使用 Sigmod 函数进行标准化，公式如下：

\[\hat x_i = \frac{1}{1+e^{-(x_i - a) \times b}}, \hspace{1em} x \in R,\hat x_i∈(0,1) \]

其中系数\(a\)为需要区分部分中心的值，系数\(b\)为需要区分的程度。

优点：

扭曲了原数据，扩大（加强）了某个中心附近的样本值之间的差距，缩小（减弱）了距离该中心较远的样本值之间的差距。
对极小值和极大值均完全不敏感。
样本标准化后的值稳定，不受样本最大值和最小值的影响。
缺点：
对距离中心较远的样本值之间的差距非常不敏感。

1.4 归一化处理

\[x_{new}=\frac{x}{x_{1}+x_{2}+...+x_{n}} \]

对正数进行变换，使结果落到\([0,1]\)区间，其将数值的绝对值变成相对值关系

总结

评价是现代社会各领域的一项经常性的工作，是科学做出管理决策的重要依据。随着人们研究领域的不断扩大，所面临的评价对象日趋复杂，如果仅依据单一指标对事物进行评价往往不尽合理，必须全面地从整体的角度考虑问题，多指标综合评价方法应运而生。评价往往是由多个评价指标构成的，而这些评价指标往往具有不同的属性、数量级和单位，这导致我们无法对不同的指标进行比较、加权、求和等种种后续操作。假设各个指标之间的水平相差很大，此时直接使用原始指标进行分析时，数值较大的指标，在评价模型中的绝对作用就会显得较为突出和重要，而数值较小的指标，其作用则可能就会显得微不足道。因此，为了消除不同评价指标之间存在的差异，统一比较的标准，就需要对数据进行标准化处理，消除不同指标之间因属性不同而带来的影响，从而使结果更具有可比性。

参考文献

几种常用数据标准化方法
 指标体系中的标准化方法
 数据处理——常见标准化方法总结

标签：处理,方法,样本,标准化,指标,规范化,评价,数据
From： https://www.cnblogs.com/haohai9309/p/17204510.html

指标数据的规范化处理

一数据规范化方法

1.1 min-max标准化(Min-maxnormalization)

1.2 z-score标准化(zero-meannormalization)

1.3 Sigmoid 函数标准化

1.4 归一化处理

总结

参考文献

相关文章

赞助商

阅读排行

指标数据的规范化处理

一 数据规范化方法

1.1 min-max标准化(Min-maxnormalization)

1.2 z-score标准化(zero-meannormalization)

1.3 Sigmoid 函数标准化

1.4 归一化处理

总结

参考文献

相关文章

赞助商

阅读排行

一数据规范化方法