最近在弄这个 需要弄明白这些原理
我要知道为什么要这么做 如何做 有什么类型 如何对比做了前后
然后加到报告里
包含part:原理 处理前 处理后
大多数的参数统计数值,如均值
、标准差
、相关系数
等,以及基于这些参数的统计分析,均对离群值高度敏感。因此,离群值的存在会对数据分析造成极大影响。
离群值(outlier),也称逸出值,是指在数据中有一个或几个数值与其他数值相比差异较大。chanwennt准则规定,如果一个数值偏离观测平均值的概率小于等于1/(2n),则该数据应当舍弃(其中n为观察例数,概率可以根据数据的分布进行估计)。当遇到一组数据中有少量outliers,一般需要删除掉,避免对正确的结果造成干扰。我们可以通过箱线图来检测并去除outliers。下面小编通过定义两种不同的函数来处理离群值。
1. MAD法:
MAD又称为绝对值差中位数法(Median Absolute Deviation)。MAD 是一种先需计算所有因子与平均值之间的距离总和来检测离群值的方法
处理的逻辑:第一步,找出所有因子的中位数 Xmedian;第二步,得到每个因子与中位数的绝对偏差值 Xi−Xmedian;第三步,得到绝对偏差值的中位数 MAD;最后,确定参数 n,从而确定合理的范围为 [Xmedian−nMAD,Xmedian nMAD],并针对超出合理范围的因子值做如下的调整:
2. 3σ法
又称为标准差法。标准差本身可以体现因子的离散程度,是基于因子的平均值 Xmean而定的。在离群值处理过程中,可通过用 Xmean±nσ来衡量因子与平均值的距离。
标准差法处理的逻辑与MAD法类似,首先计算出因子的平均值与标准差,其次确认参数 n(这里选定 n = 3),从而确认因子值的合理范围为 [Xmean−nσ,Xmean nσ],并对因子值作如下的调整:
对比展示 画图 画那个偏态 数据分布图
处理前 处理后的图放到同一张图里
通常,在其余数据上做各种假设,并且证明检测到的离群点显著违反了这些假设。如统计学中的假设检验,基于小概率原理,对原假设进行判断。一般检测离群点,是人工进行筛选,剔除不可信的数据,例如对于房屋数据,面积上万,卧室数量过百等情况。而在面对大量的数据时,人工方法耗时耗力,因此,才有如下的方法进行离群点检测。
【1】基于统计模型的方法:
首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;
如果模型是簇的集合,则异常是不显著属于任何簇的对象;
在使用回归模型时,异常是相对远离预测值的对象。
【2】基于邻近度的方法:通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。
【3】基于密度的方法:仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。
【4】基于聚类的方法:聚类分析用于发现局部强相关的对象组,而异常检测用来发现不与其他对象强相关的对象。因此,聚类分析非常自然的可以用于离群点检测。
还有99.7%的数值位于3个标准差的范围以内
1.基于正态分布的一元离群点检测
当数据服从正太分布的假设时在正态分布的假定下,u±3σ区域包含99.7%的数据,u±2σ包含95.4%的数据,u±1σ包含68.3%的数据。其区域外的数据视为离群点。
处理逻辑 默认 训练的数据是符合正态分布的 delta
需要基于此原理 将区域外的数据进行离群处理 粉丝数预报价的差 也符合
标签:基于,细说,因子,标准差,MAD,离群,数据挖掘,数据 From: https://www.cnblogs.com/AKsnoopy/p/16769088.html