首页 > 编程问答 >在python中查找区间数据的中位数

在python中查找区间数据的中位数

时间:2024-07-24 16:00:18浏览次数:15  
标签:python pandas

我正在探索不同的 python 库,我想知道如何找到分组数据集的近似中值。这里有一个表格供参考。

年龄 频率
1-10 123
10-20 350
20-30 200
30 -40 1700
40-50 360
50-60 60

是否有任何函数或者我需要对公式进行硬编码,然后循环遍历每个函数数据集的行和列?

提前致谢。


可以使用 pandas 计算分组数据的近似中位数,你可以使用 numpy.interp 函数进行插值。

import pandas as pd
import numpy as np

# 定义数据
data = {
    'Age': ['1-10', '10-20', '20-30', '30-40', '40-50', '50-60'],
    'Frequency': [123, 350, 200, 1700, 360, 60]
}

# 创建 DataFrame
df = pd.DataFrame(data)

# 计算累积频率
df['Cumulative Frequency'] = df['Frequency'].cumsum()

# 总频率
total_frequency = df['Frequency'].sum()

# 中位数类:累积频率超过总频率一半的类
median_class_index = df['Cumulative Frequency'].searchsorted(total_frequency / 2)
median_class_lower = int(df['Age'][median_class_index].split('-')[0])
median_class_upper = int(df['Age'][median_class_index].split('-')[1])

# 中位数的线性插值
median = median_class_lower + (total_frequency / 2 - df['Cumulative Frequency'][median_class_index - 1]) / df['Frequency'][median_class_index] * (median_class_upper - median_class_lower)

print(f"近似中位数为:{median}")

此代码首先计算累积频率并确定中位数所在的类(组)。然后,它在该类中使用线性插值来估计中位数,考虑到中位数类之前的累积频率和中位数类本身的频率。

说明:

  1. 创建 DataFrame:
  2. 我们首先从你的数据创建一个 pandas DataFrame。
  3. 计算累积频率:
  4. 我们添加了一个“累积频率”列,该列跟踪频率的运行总数。
  5. 查找中位数类:
  6. 我们计算总频率并找到累积频率首先超过总频率一半的类。
  7. 线性插值:
  8. 我们使用中位数类的下限、中位数类之前的累积频率、中位数类的频率以及中位数类的上限,在中位数类内进行线性插值以找到近似中位数。

此代码将为你提供分组数据的近似中位数。

标签:python,pandas
From: 69487460

相关文章

  • 比较Python中的字符串统一特殊字符
    也许我可以使用更好的英语,但我想要的是忽略单词中的重音(和类似的),所以:renè、rené、rene'和rene应该是相同的,所以应该mañana和manana或even-distribuited和evendistribuited,可能还有sho......
  • 如何使用 Python 脚本从客户账单电子邮件中获取订单 ID - WooCommerce API
    我想创建一个python脚本,返回只知道客户的账单电子邮件的订单。我尝试这样做,但返回所有最近的订单:fromwoocommerceimportAPIwcapi=API(url="https://siteexample.com",consumer_key="ck_xxx",consumer_secret="cs_xxx",version="wc/v3")......
  • python基础理论小总结
    1.python语言的特性Python是一门解释型语言,简单清晰,开源免费,跨平台,有大量第三方库辅助开发,支持面向对象与自动垃圾回收,方便与其他编程语言相互调用。Python在数据采集、人工智能、WEB后台开发、自动化运维、测试等方向应用广泛。2.解释型语言和编译型语言的区别执行方式不......
  • python编码规范
    本篇讲的是代码格式化的问题,解决格式化的方法在最下方,不想看内容的,滑到最下方就好了。一、变量的命名规则1.组成:字母、数字、下划线2.不可以以数字开头3.不建议使用下划线开头4.命名需见名知意5.不要与关键字重名。如何查找所有关键字?importkeywordprint(keyword.k......
  • Python爬虫开发中的常用库与框架安装指南
    在Python爬虫开发中,选择合适的库和框架可以大大提高开发效率和爬虫的性能。本文将介绍一些常用的解析库、请求库、储存库、Web库、App爬取库以及爬虫框架,并展示如何使用pip命令进行安装。一、解析库1.BeautifulSoupBeautifulSoup是一个用于从HTML或XML文件中提取数据的Pyth......
  • 如何在Python中的指定项目之后添加新项目到嵌套列表?
    给定的列表是这样的。list1=[10,20,[300,400,[5000,6000],500],30,40]预期输出是这样的。我知道这是一个非常基本的问题,但我很困惑。输出:[10,20,[300,400,[5000,6000,7000],500],30,40]我希望有人能帮助我解决这个问题。并解释了嵌套列表的插入功......
  • python带界面实现word文档比对功能
    python实现word文档比对的功能较简单,笔者这里将其界面话,可以指定输入比对的文档,相似度,最小相似参数等。输出的结果以word的形式保存,重复部分会标出,基本实现了商业软件的功能。先看界面这里不废话了,直接给出全部源码,觉得好的点个赞。程序打包的话,自己百度。fromtkinterimp......
  • 具有固定字典键的 Python 函数返回类型提示
    我有一个函数返回一个始终具有相同键的字典(通过网络发送并使用json进行“字符串化”)。基本上我的函数看起来像这样:defgetTemps(self)->dict:"""getroomandcputemperaturein°Caswellashumidityin%"""#sendtemperaturerequesttoserve......
  • python的包管理
    获取现有项目有那些依赖安装pipreqspipinstallpipreqs在项目根目录执行pipreqs.--encoding=utf8--force--pypi-server=http://mirrors.aliyun.com/pypi/simple/根据生成文件安装依赖pipinstall-rrequriements.txtpipreqs命令选项Options:--use-local......