首页 > 其他分享 >判断数据正态分布的超多方法!

判断数据正态分布的超多方法!

时间:2024-09-03 11:50:46浏览次数:13  
标签:判断 偏度 BMI 检验 峰度 超多 正态性 正态分布

一、正态性检验:偏度和峰度

1、偏度(Skewness):描述数据分布不对称的方向及其程度(见图1)

当偏度≈0时,可认为分布是对称的,服从正态分布;

当偏度>0时,分布为右偏,即拖尾在右边,峰尖在左边,也称为正偏态;

当偏度<0时,分布为左偏,即拖尾在左边,峰尖在右边,也称为负偏态;

注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置,容易引起误解。

2、峰度(Kurtosis):描述数据分布形态的陡缓程度(图2)。

当峰度≈0时,可认为分布的峰态合适,服从正态分布(不胖不瘦);

当峰度>0时,分布的峰态陡峭(高尖);

当峰度<0时,分布的峰态平缓(矮胖);

利用偏度和峰度进行正态性检验时,可以同时计算其相应的Z评分(Z-score),即:偏度Z-score=偏度值/标准误,峰度Z-score=峰度值/标准误。在α=0.05的检验水平下,若Z-score在±1.96之间,则可认为资料服从正态分布。

了解偏度和峰度这两个统计量的含义很重要,在对数据进行正态转换时,需要将其作为参考,选择合适的转换方法。

3、SPSS操作方法

以分析某人群BMI的分布特征为例。

(1) 方法一

选择Analyze → Descriptive Statistics → Frequencies

将BMI选入Variable(s)框中 → 点击Statistics → 在Distribution框中勾选Skewness和Kurtosis 

图片

(2) 方法二

选择Analyze → Descriptive Statistics → Descriptives

将BMI选入Variable(s)框中 → 点击Options → 在Distribution框中勾选Skewness和Kurtosis 

图片

4、结果解读

图片

在结果输出的Descriptives部分,对变量BMI进行了基本的统计描述,同时给出了其分布的偏度值0.194(标准误0.181),Z-score = 0.194/0.181 = 1.072,峰度值0.373(标准误0.360),Z-score = 0.373/0.360 = 1.036。偏度值和峰度值均≈0,Z-score均在±1.96之间,可认为资料服从正态分布。

二、正态性检验:图形判断

1、直方图:表示连续性变量的频数分布,可以用来考察分布是否服从正态分布

(1) 选择Graphs → Legacy Diaiogs → Histogram

(2) 将BMI选入Variable中,勾选Display normal curve绘制正态曲线

图片

图片

 2、P-P图和Q-Q图

(1) P-P图反映了变量的实际累积概率与理论累积概率的符合程度,Q-Q图反映了变量的实际分布与理论分布的符合程度,两者意义相似,都可以用来考察数据资料是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线(即对角线)基本重合。

(2) SPSS操作:以P-P图为例

选择Analyze → Descriptive Statistics → P-P Plots

将BMI选入Variables中,Test Distribution选择Normal,其他选项默认即可。

图片

图片

三、正态性检验:非参数检验分析法

1、正态性检验属于非参数检验,原假设为“样本来自的总体与正态分布无显著性差异,即符合正态分布”,也就是说P>0.05才能说明资料符合正态分布。

通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(SPSS规定样本量≤5000),另一种是Kolmogorov–Smirnov检验,适用于大样本资料(SPSS规定样本量>5000)。

2、SPSS操作

(1) 方法一:Kolmogorov–Smirnov检验方法可以通过非参数检验的途径实现

选择Analyze → Nonparametric Tests → Legacy Dialogs → 1-Sample K-S

将BMI选入Test Variable List中,在Test Distribution框中勾选Normal,点击OK完成操作。

图片

(2) 方法二:Explore方法

选择Analyze → Descriptive Statistics → Explore

将BMI选入Dependent List中,点击Plots,勾选Normality plots with tests,在Descriptive框中勾选Histogram,Boxplots选择None,点击OK完成操作。

图片

3、结果解读

(1) 在结果输出的Descriptives部分,对变量BMI进行了基本的统计描述,同时给出了其分布的偏度值、峰度值及其标准误,具体意义参照上面介绍的内容。

图片

(2) 在结果输出的Tests of Normality部分,给出了Shapiro-Wilk检验及Kolmogorov-Smirnov检验的结果,P值分别为0.200和0.616,在α=0.05的检验水准下,P>0.05,不拒绝原假设,可认为资料服从正态分布。

图片

(3) 在结果输出的最后部分,同时给出了直方图和Q-Q图,具体意义参照上面介绍的内容。建议可以直接使用Explore方法,结果中不仅可以输出偏度值,峰度值,绘制直方图,Q-Q图,还可以输出非参数检验的结果,一举多得。

四、注意事项

事实上,Shapiro-Wilk检验及Kolmogorov-Smirnov检验从实用性的角度,远不如图形工具进行直观判断好用。在使用这两种检验方法的时候要注意,当样本量较少的时候,检验结果不够敏感,即使数据分布有一定的偏离也不一定能检验出来;而当样本量较大的时候,检验结果又会太过敏感,只要数据稍微有一点偏离,P值就会<0.05,检验结果倾向于拒绝原假设,认为数据不服从正态分布。所以,如果样本量足够多,即使检验结果P<0.05,数据来自的总体也可能是服从正态分布的。

因此,在实际的应用中,往往会出现这样的情况,明明直方图显示分布很对称,但正态性检验的结果P值却<0.05,拒绝原假设认为不服从正态分布。此时建议大家不要太刻意追求正态性检验的P值,一定要参考直方图、P-P图等图形工具来帮助判断。很多统计学方法,如T检验、方差分析等,与其说要求数据严格服从正态分布,不如说“数据分布不要过于偏态”更为合适。

有专家根据经验提出,标准差超过均值的1/2时提示数据不服从正态分布,或者四分位间距与标准差的比值在1.35左右时提示服从正态分布,这些可以作为正态性检验的一个粗略判断依据,仅供参考。

标签:判断,偏度,BMI,检验,峰度,超多,正态性,正态分布
From: https://blog.csdn.net/qq_37610365/article/details/141856470

相关文章

  • C#的相等判断
    什么是相等在C#中我们经常会需要判断两个变量是否相等,相等理论上有两种:同一性(identity),即是否两个变量是否指向同一个对象。相等性(equality),即两个变量内部的值是否相同,例如两个字符串的内容是否相同。显然如果两个变量是相同对象,那么它们也必然相等。根据具体使用的上下......
  • C语言:大小端模式、判断大小端、大小端转换
    目录1.什么是大端和小端2.为什么会存在大小端的问题3.判断主机字节序(主机大小端)3.1使用联合体(union)3.2使用指针3.3强制转为char类型法4.大小端转换1.什么是大端和小端对于一个存储空间大于1个字节的数据,在内存中有两种存储模式,大端模式(big-end......
  • Mysql基础练习题 610.判断三角形 (力扣)
    题目:对每三个线段报告它们是否可以形成一个三角形题目连接:https://leetcode.cn/problems/triangle-judgement/description/建表插入数据:CreatetableIfNotExistsTriangle(xint,yint,zint)TruncatetableTriangleinsertintoTriangle(x,y,z)values('13'......
  • 【算法每日一练及解题思路】多种方式判断指定字符串其是否为回文字符串
    一、题目:给定一个字符串,判断其是否为回文字符串:二、举例:回文字符串是指一个字符串正读和反读都一样的字符串。例如,“level”、“radar”和“noon”都是回文字符串,因为它们从前往后读和从后往前读都是一样的在Java中,有多种方法可以判断一个字符串是否为回文字符串。以下是......
  • HJ39 判断两个IP是否属于同一子网
    没啥好说的,又是模拟+一堆无聊的细节。1#include<bits/stdc++.h>2usingnamespacestd;3chars[3][20];4intnum[3][10],cnt[3];5voidinit(){6for(inti=0;i<3;i++)7scanf("%s",s[i]);8return;9}10intWork(inta,intb){1......
  • 【代码随想录Day6】哈希表Part01|判断一个元素是否出现集合里
    哈希表理论基础文章讲解:哈希表理论基础要快速判断一个元素是否出现集合里的时候,就要考虑哈希法。242.有效的字母异位词题目链接/文章讲解/视频讲解:有效的字母异位词定义一个哈希表record,遍历s,记录s中每个字母出现的次数,遍历t,减去t中每个字母出现的次数,遍历......
  • 【好用小方法】随机生成n个汉字/数字转汉字/字符串去重/list数组去重/获取2的幂次方/
    /***根据参数生成n个中文汉字**@paramnum*@return*/publicstaticList<String>getChaineseList(intnum,List<String>aa){if(num<=0)returnaa;Stringword="";if(aa.size()>0){for(Strings:aa)......
  • 5.判断和循环
    判断和循环1判断1.1判断的三种形式1.2判断的嵌套2循环2.1while循环2.2for循环3作业3.1输入年龄进行判断3.2打印偶数3.3猜年龄游戏3.49*9乘法表3.5金字塔的打印1判断1.1判断的三种形式1.if2.if……else3.if……elif……else#直接if的语句real_na......
  • 各位天命人!国自然评审意见出来了,那如何判断是否上会?
    公众号:生信漫谈,获取最新科研信息!各位天命人!国自然评审意见出来了,那如何判断是否上会?https://mp.weixin.qq.com/s?__biz=MzkwNjQyNTUwMw==&mid=2247487055&idx=1&sn=1dc8b66e10323d37e477e8829dad0c76&chksm=c0e9ebbff79e62a94fcd49341ae18cfe19aa3aa8ba339bed8ff329a080022dc7......
  • 【网络基础知识】判断证书私钥格式
    原创小何运维笔记要判断证书私钥的格式,可以采取以下步骤:查看文件扩展名:文件扩展名可以提供一些线索:.pem:PEM格式,通常是Base64编码的,可以包含多种类型的密钥或证书。.key:通常是私钥文件,可能是PEM或其他格式。.der:DER格式,通常是二进制编码,不易用文本编辑器直接查看。.pfx......