首页 > 其他分享 >5 号码汇总 |数据科学统计

5 号码汇总 |数据科学统计

时间:2022-09-19 11:13:49浏览次数:92  
标签:线图 号码 异常 摘要 汇总 位数 数据 统计 四分

5 号码汇总 |数据科学统计

在本博客中,我们将介绍 5 个数字摘要以及如何使用它来识别异常值,并讨论箱线图。

5 数字摘要是一组描述性统计数据,用于获取有关数据集的信息,但仅适用于 单变量 变量。它用于观察——

  • 最小值(数据集中的最小值)
  • 第一个四分位数(数据集的 25%)(Q1)(第一半数据的中位数)
  • 中位数
  • 第三四分位数(数据集的 75%)(Q3)(第三半数据的中位数)
  • 最大值(数据集中的最大值)

第一四分位数和第三四分位数是数据集第一半和第二半的中位数。

第一四分位数和第三四分位数也用于查找四分位数间距 (IQR)。当从最低到最高排序时,四分位数范围描述了 50% 的值。找到四分位数范围的公式是 -

在哪里 -

  • Q3 - 第三四分位数
  • Q1 - 第一个四分位数

现在你知道了关于 5 数字摘要的一切。让我们看看它如何用于识别异常值并有助于制作箱线图。

现在要找到数据集中的异常值,我们首先必须找到较低的栅栏和较高的栅栏。下围墙和上围墙是我们的数据应该位于的边界。位于边界之外的数据将被视为异常值。

找到较低栅栏和较高栅栏的公式 -

在哪里 -

  • Q1 是第一个四分位数
  • Q3 是第三个四分位数
  • IQR 是四分位距

现在让我们通过一个例子来了解如何制作箱线图,并在 5 个数字摘要的帮助下找出异常值。

数据 = [1,2,2,2,3,3,3,4,5,5,5,6,6,6,6,7,8,8,9,30]

我们采用大小为 20 的虚拟数据。您可以在右侧的数据中清楚地看到,我们有 30 个作为异常值,因为它与数据中的其他元素相比非常大,但我们将证明这是一个异常值在 5 个数字摘要的帮助下。

首先,找到数据的最小值和最大值。我们的数据最小值为 1,最大值为 30

现在我们将找到第一个四分位数(Q1)和第三个四分位数(Q3)

现在我们将找到数据的下界和高界 -

数据中的所有值都应在 [ — 2.25, 11.75] 范围内。低于 -2.25 和高于 11.75 的值将被视为异常值。在我们的数据中,30 将被视为异常值,因为它不在一个范围内。

5 我们的数据总结——

什么是箱线图以及如何构建它们?

箱线图是 5 个数字汇总的图形表示,有助于查找数据集中的异常值。异常值是由于实验误差或测量变异性而与其他数据点显着不同的数据点。

现在我们将从示例数据集构建箱线图

现在让我们也看看python代码中的5个数字摘要和箱线图

pandas DataFrame 的 describe() 方法显示 5 个数字摘要

上述代码的输出 -

python代码中的箱线图 -

输出 -

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/37908/02171911

标签:线图,号码,异常,摘要,汇总,位数,数据,统计,四分
From: https://www.cnblogs.com/amboke/p/16707017.html

相关文章

  • 剑指 Offer II 004. 只出现一次的数字 【模拟】【位数统计取余】
    题目给你一个整数数组nums,除某个元素仅出现一次外,其余每个元素都恰出现三次。请你找出并返回那个只出现了一次的元素。难度:中等提示:1<=nums.length<=3*10......
  • DataTable中数据记录的排序,检索,合并,分页,统计(整理)(转)
    一、排序1获取DataTable的默认视图2对视图设置排序表达式3用排序后的视图导出的新DataTable替换就DataTable(Asc升序可省略,多列排序用","隔开)DataViewdv=dt.Default......
  • 统计学习方法学习笔记-07-支持向量机03
    包含对三种支持向量机的介绍,包括线性可分支持向量机,线性支持向量机和非线性支持向量机,包含核函数和一种快速学习算法-序列最小最优化算法SMO。非线性支持向量机与核函数......
  • MySQL:互联网公司常用分库分表方案汇总!
    一、数据库瓶颈不管是IO瓶颈,还是CPU瓶颈,最终都会导致数据库的活跃连接数增加,进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是,可用数据库连接少甚至......
  • 五分钟教你如何优雅的统计代码耗时,让你知道你的程序到底慢在哪!
    一、前言代码耗时统计在日常开发中算是一个十分常见的需求,特别是在需要找出代码性能瓶颈时。可能也是受限于Java的语言特性,总觉得代码写起来不够优雅,大量的耗时统计代......
  • Mac使用经验汇总
    在此记录使用Mac的一些经验技巧。安装brew如果按照官网提示安装,巨慢无比,如下:/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/Homebrew/install/HEAD/......
  • leetcode 6184. 统计共同度过的日子数
    leetcode6184.统计共同度过的日子数题目描述Alice和Bob计划分别去罗马开会。给你四个字符串arriveAlice,leaveAlice,arriveBob和leaveBob。Alice会在日期arr......
  • 统计学习方法学习笔记-07-支持向量机01
    包含对三种支持向量机的介绍,包括线性可分支持向量机,线性支持向量机和非线性支持向量机,包含核函数和一种快速学习算法-序列最小最优化算法SMO。线性可分支持向量机与硬间隔......
  • 统计学习方法学习笔记-附录-拉格朗日对偶性
    原始问题假设\(f(x),c_i(x),h_j(x)\)是定义在\(R^n\)上的连续可微函数,考虑约束最优化问题\[\begin{aligned}\mathop{min}\limits_{x\inR^n}\&f(x)\\s.t.\&c_i(x)......
  • redis面试题汇总
     1redis持久化机制 redis是一个支持持久化的内存数据库,通过持久化机制把内存中的数据同步到硬盘文件来保证数据持久化,当redis重启后通过把硬盘文件重新加载到内存,就能......