首页 > 其他分享 >Debug --> 箱线图

Debug --> 箱线图

时间:2022-10-17 15:26:09浏览次数:70  
标签:Q1 线图 Q3 -- 位置 IQR 四分 Debug 位数

箱线图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

  • 箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。
  • 在箱图中,最上方和最下方的线段分别表示数据的最大值和最小值,其中箱图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱图中间的粗线段表示数据的中位数。

箱线图的绘制方法:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。

 

 

 

以一组数据为例:12,15,17,19,20,23,25,28,30,33,34,35,36,37

1、下四分位数 Q1

(1)确定四分位数的位置。Qi所在位置=(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。

(2)根据位置,计算相应的四分位数。

例中:Q1所在的位置=(14+1)/4=3.75,Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;

2、中位数(第二个四分位数)Q2
中位数,即一组数由小到大排列处于中间位置的数。若序列数为偶数个,该组的中位数为中间两个数的平均数。

例中:Q2所在的位置=2(14+1)/4=7.5,Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;

3、上四分位数 Q3
计算方法同下四分位数。

例中:Q3所在的位置=3(14+1)/4=11.25,Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25;

所有不在(Q1-1.5IQR,Q3+1.5IQR)的区间内的数为离群值,剩下的值最大的为最大值,最小的为最小值。

4、上限
上限是非异常范围内的最大值。上限=Q3+1.5IQR

四分位距 IQR=Q3-Q1

5、下限
下限是非异常范围内的最小值。下限=Q1-1.5IQR

6、异常值 被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。
异常值又称离群值,指大于1.5倍四分位数间距的数值。处于1.5~3倍四分位数间距之间

7、极端值 属于异常值的一种,指大于三倍四分位数间距的数值。

离群点:Q3 + 1.5 * IQR、 Q1 - 1.5 * IQR
极端点:Q3 + 3 * IQR、Q1 - 3 * IQR

其他情况说明:
计算四分位数首先要确定Q1、Q2、Q3的位置(n表示数字的总个数):

Q1的位置=(n+1)/4
Q2的位置=(n+1)/2
Q3的位置=3(n+1)/4
对于数字个数为奇数的,其四分位数比较容易确定。例如,数字“5、47、48、15、42、41、7、39、45、40、35”共有11项,由小到大排列的结果为“5、7、15、35、39、40、41、42、45、47、48”,计算结果如下:

Q1的位置=(11+1)/4=3,该位置的数字是15。
Q2的位置=(11+1)/2=6,该位置的数字是40。
Q3的位置=3(11+1)/4=9,该位置的数字是45。
而对于数字个数为偶数的,其四分位数确定起来稍微繁琐一点。例如,数字“8、17、38、39、42、44”共有6项,位置计算结果如下:

Q1的位置=(6+1)/4=1.75
Q2的位置=(6+1)/2=3.5
Q3的位置=3(6+1)/4=5.25
这时的数字以数据连续为前提,由所确定位置的前后两个数字共同确定。例如,Q2的位置为3.5,则由第3个数字38和第4个数字39共同确定,计算方法是:38+(39-38)×(3.5的小数部分),即38+1×0.5=38.5。该结果实际上是38和39的平均数。

同理,Q1、Q3的计算结果如下:

Q1 = 8+(17-8)×0.75=14.75
Q3 = 42+(44-42)×0.25=42.5

 

标签:Q1,线图,Q3,--,位置,IQR,四分,Debug,位数
From: https://www.cnblogs.com/aluomengmengda/p/16799284.html

相关文章

  • PHP 获取短链等接跳转后的真实地址
    //1、用get_headers函数php自带的get_headers函数可以获取服务器响应一个HTTP请求所发送的所有标头functionget_redirect_url_by_header($url){$header=get_hea......
  • Oracle中查询number型的数据,数据显示.1 前面的0丢了
    selectto_char(.5,'fm9990.0099')fromdual;......
  • JDBC各个类详解_ResultSet基本使用和ResultSet遍历结果集
    ResultSet:结果集对象,封装查询结果 *booleannext():游标向下移动一行,判断当前行是否是最后一行末尾(是否有数据),如果是,则返回false,如果不是则返回true *get......
  • 冒泡排序与选择排序
    冒泡排序与选择排序冒泡排序:自我理解:跟水底的泡泡一样,远处的泡泡越来越多,确定远处的泡泡,排列成行基本代码:准备代码:基础使用的为红框处的代码处理代码:顺......
  • ARM Cortex-A SOC算力对比
    ARMCortex-ASOC算力对比reference:ARMCortex-A系列(A53、A57、A73等)处理器性能分类与对比:https://zhuanlan.zhihu.com/p/182992875......
  • 「http代理」Python-Scrapy 代码样例(一)
    http代理使用提示1.http/https网页均可适用2.scrapy不是python原生库,需要安装才能使用:pipinstallscrapy3.在第一级tutorial目录下运行如下命令查看......
  • Dell raid 硬盘格式重装系统
    这种情况大概率都是出现在dell笔记本上,因为dell原厂默认使用的硬盘格式是raidon硬盘模式,并非我们常用的AHCI硬盘模式。raidon硬盘模式下,绝大部分PE也是无法没有raid......
  • helm部署harbor
    下载安装包helmrepoaddharborhttps://helm.goharbor.iohelmfetchharbor/harboropt#搜索所有版本并下载指定版本helmsearchrepoharbor--versionshelmp......
  • mysql大数据量分页查询靠后页数的语句写法
    假设测试表 table_test一共有一百万条数据,如果使用普通limit分页,当limitoffset偏移量很大时,如900000时,速度会很慢,因为limit等于要先查出前900020条数据,然后抛弃......
  • python学习记录:学生点名系统源码
     学生点名系统#coding=utf-8importtkinterastkfromtkinterimport*importrandomimporttimeimportopenpyxl is_run=False  defget_students_n......