在_多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行规范化处理。目前数据规范化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,_在数据规范化方法的选择上,还没有通用的法则可以遵循。
一 数据规范化方法
数据的规范化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。
1.1 min-max标准化(Min-maxnormalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
离差标准化
- 其中max为样本数据的最大值,min为样本数据的最小值。
- 这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
1.2 z-score标准化(zero-meannormalization)
并非所有数据规范化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也叫标准差标准化。通过标准化,令数据的平均值为 0,标准化为1的标准化方法,在经济社会、传播学研究中使用普遍,公式如下:
\[\hat x_i = \frac{x_i - \mu}{\sigma}, \hspace{1em}x \in R \]其中\(\mu\)为样本均值, \(\sigma\)为样本标准差。
优点:
- 保留数据真实距离,维持标准化前数据分布,缩放均为等比例缩放。
- 标准化后数据的平均值为 0 0 0,标准化为 1 1 1。
- 对极值不敏感。
缺点:
-
标准化后数据不在固定范围内,如用作指标体系计算还需要进一步标准化。
-
样本标准化后值不稳定,受样本平均值和标准差影响;当添加新样本时,旧样本的标准化值一定发生变化。
-
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。
-
z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
-
用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
计算步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
1.3 Sigmoid 函数标准化
如果数据呈现中间集中的分布,同时需要将区分中心部分的差距,可以使用 Sigmod 函数进行标准化,公式如下:
\[\hat x_i = \frac{1}{1+e^{-(x_i - a) \times b}}, \hspace{1em} x \in R,\hat x_i∈(0,1) \]其中系数\(a\)为需要区分部分中心的值,系数\(b\)为需要区分的程度。
优点:
- 扭曲了原数据,扩大(加强)了某个中心附近的样本值之间的差距,缩小(减弱)了距离该中心较远的样本值之间的差距。
- 对极小值和极大值均完全不敏感。
- 样本标准化后的值稳定,不受样本最大值和最小值的影响。
缺点: - 对距离中心较远的样本值之间的差距 非常 不敏感。
1.4 归一化处理
\[x_{new}=\frac{x}{x_{1}+x_{2}+...+x_{n}} \]对正数进行变换,使结果落到\([0,1]\)区间,其将数值的绝对值变成相对值关系
总结
评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。评价往往是由多个评价指标构成的,而这些评价指标往往具有不同的属性、数量级和单位,这导致我们无法对不同的指标进行比较、加权、求和等种种后续操作。假设各个指标之间的水平相差很大,此时直接使用原始指标进行分析时,数值较大的指标,在评价模型中的绝对作用就会显得较为突出和重要,而数值较小的指标,其作用则可能就会显得微不足道。因此,为了消除不同评价指标之间存在的差异,统一比较的标准,就需要对数据进行标准化处理,消除不同指标之间因属性不同而带来的影响,从而使结果更具有可比性。
参考文献
几种常用数据标准化方法
指标体系中的标准化方法
数据处理——常见标准化方法总结