首页 > 其他分享 >指标数据的规范化处理

指标数据的规范化处理

时间:2023-03-10 22:16:04浏览次数:48  
标签:处理 方法 样本 标准化 指标 规范化 评价 数据

_多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行规范化处理。目前数据规范化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,_在数据规范化方法的选择上,还没有通用的法则可以遵循。

一 数据规范化方法

数据的规范化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。

1.1 min-max标准化(Min-maxnormalization)

也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

离差标准化

  • 其中max为样本数据的最大值,min为样本数据的最小值。
  • 这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

1.2 z-score标准化(zero-meannormalization)

并非所有数据规范化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也叫标准差标准化。通过标准化,令数据的平均值为 0,标准化为1的标准化方法,在经济社会、传播学研究中使用普遍,公式如下:

\[\hat x_i = \frac{x_i - \mu}{\sigma}, \hspace{1em}x \in R \]

其中\(\mu\)为样本均值, \(\sigma\)为样本标准差。

优点:

  • 保留数据真实距离,维持标准化前数据分布,缩放均为等比例缩放。
  • 标准化后数据的平均值为 0 0 0,标准化为 1 1 1。
  • 对极值不敏感。

缺点:

  • 标准化后数据不在固定范围内,如用作指标体系计算还需要进一步标准化。

  • 样本标准化后值不稳定,受样本平均值和标准差影响;当添加新样本时,旧样本的标准化值一定发生变化。

  • 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。

  • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。

  • 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。

计算步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

1.3 Sigmoid 函数标准化

如果数据呈现中间集中的分布,同时需要将区分中心部分的差距,可以使用 Sigmod 函数进行标准化,公式如下:

\[\hat x_i = \frac{1}{1+e^{-(x_i - a) \times b}}, \hspace{1em} x \in R,\hat x_i∈(0,1) \]

其中系数\(a\)为需要区分部分中心的值,系数\(b\)为需要区分的程度。

优点:

  • 扭曲了原数据,扩大(加强)了某个中心附近的样本值之间的差距,缩小(减弱)了距离该中心较远的样本值之间的差距。
  • 对极小值和极大值均完全不敏感。
  • 样本标准化后的值稳定,不受样本最大值和最小值的影响。
    缺点:
  • 对距离中心较远的样本值之间的差距 非常 不敏感。

1.4 归一化处理

\[x_{new}=\frac{x}{x_{1}+x_{2}+...+x_{n}} \]

对正数进行变换,使结果落到\([0,1]\)区间,其将数值的绝对值变成相对值关系

总结

评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。评价往往是由多个评价指标构成的,而这些评价指标往往具有不同的属性、数量级和单位,这导致我们无法对不同的指标进行比较、加权、求和等种种后续操作。假设各个指标之间的水平相差很大,此时直接使用原始指标进行分析时,数值较大的指标,在评价模型中的绝对作用就会显得较为突出和重要,而数值较小的指标,其作用则可能就会显得微不足道。因此,为了消除不同评价指标之间存在的差异,统一比较的标准,就需要对数据进行标准化处理,消除不同指标之间因属性不同而带来的影响,从而使结果更具有可比性。

参考文献

几种常用数据标准化方法
指标体系中的标准化方法
数据处理——常见标准化方法总结

标签:处理,方法,样本,标准化,指标,规范化,评价,数据
From: https://www.cnblogs.com/haohai9309/p/17204510.html

相关文章

  • 8086 微处理器
    《Intel8086CPU的内部结构》  通用寄存器AX,BX,CX,DXAX:累加器BX:基址寄存器CX:计数寄存器DX:数据寄存器具体师大书P12......
  • opencv图像处理基础之膨胀和腐蚀
    膨胀和腐蚀是图像处理中最常用也是最基础的形态学操作。它可以改变图像的一些属性。其中比较常见的应用场景有:1、边缘检测:膨胀和腐蚀可以提取二值图像中的边缘信息。通过先......
  • JAVA多线程处理大量数据(二)--推荐
    背景说明:要对服务器上一个目录进行全量文件读取1、多线程执行类--FileThreadUtils.javaimportcn.hutool.core.collection.CollUtil;importcn.hutool.core.io.FileUti......
  • 消息处理:(窗口过程)
    //6.处理消息(窗口过程)LRESULTCALLBACKWindowProc( HWNDhWnd,//消息产生的窗口句柄 UINTMsg,//具体消息名称,WM_XXX消息名(消息名A)A代表鼠标等 WPARAMwParam,//键......
  • 书籍数据科学技术与应用_文本数据处理
    Sklearn模块无监督:cluster(聚类)、decomposition(因子分解)、mixture(高斯混合模型)、neural_network(无监督的神经网络)、covariance(协方差估计)有监督:tree(决策树)、svm(支持向量......
  • 数字图像处理中的颜色
    物理中的颜色物理中的颜色就是不同波长的电磁波但是,根据人眼的视觉效果,可以通过RGB,CMYK,HSB,LAB色域,来将可见光的颜色描述出来。RGBRGB就是我们常说的三原色,即R(red)......
  • 【LeetCode回溯算法#06】复原IP地址详解(练习如何处理边界条件,判断IP合法性)
    复原IP地址力扣题目链接(opensnewwindow)给定一个只包含数字的字符串,复原它并返回所有可能的IP地址格式。有效的IP地址正好由四个整数(每个整数位于0到255之......
  • 【HMS Core】运动健康服务指标权限问题
    ​ 【关键字】运动健康服务、指标权限 【问题背景】开通了运动健康部分指标权限,但是APP授权页面只展示部分,展示不全面​​【问题分析】发生此种情况,可能有两个......
  • java-IO-字节流写数据加异常处理
       ......
  • 禁用XXE处理漫谈
    前言近期准备面试题时,XXE漏洞防范措施(或者说修复方式)在一些文章中比较简略,故本文根据研究进行总结,作为技术漫谈罢了。简述XXE漏洞XXE(XML外部实体注入),程序解析XML数据时......