在python中查找区间数据的中位数

时间：2024-07-24 16:00:18浏览次数：15

标签：python pandas

我正在探索不同的 python 库，我想知道如何找到分组数据集的近似中值。这里有一个表格供参考。

年龄	频率
1-10	123
10-20	350
20-30	200
30 -40	1700
40-50	360
50-60	60

是否有任何函数或者我需要对公式进行硬编码，然后循环遍历每个函数数据集的行和列？

提前致谢。

可以使用 pandas 计算分组数据的近似中位数，你可以使用 numpy.interp 函数进行插值。

import pandas as pd
import numpy as np

# 定义数据
data = {
    'Age': ['1-10', '10-20', '20-30', '30-40', '40-50', '50-60'],
    'Frequency': [123, 350, 200, 1700, 360, 60]
}

# 创建 DataFrame
df = pd.DataFrame(data)

# 计算累积频率
df['Cumulative Frequency'] = df['Frequency'].cumsum()

# 总频率
total_frequency = df['Frequency'].sum()

# 中位数类：累积频率超过总频率一半的类
median_class_index = df['Cumulative Frequency'].searchsorted(total_frequency / 2)
median_class_lower = int(df['Age'][median_class_index].split('-')[0])
median_class_upper = int(df['Age'][median_class_index].split('-')[1])

# 中位数的线性插值
median = median_class_lower + (total_frequency / 2 - df['Cumulative Frequency'][median_class_index - 1]) / df['Frequency'][median_class_index] * (median_class_upper - median_class_lower)

print(f"近似中位数为：{median}")

此代码首先计算累积频率并确定中位数所在的类（组）。然后，它在该类中使用线性插值来估计中位数，考虑到中位数类之前的累积频率和中位数类本身的频率。

说明：

创建 DataFrame：
我们首先从你的数据创建一个 pandas DataFrame。
计算累积频率：
我们添加了一个“累积频率”列，该列跟踪频率的运行总数。
查找中位数类：
我们计算总频率并找到累积频率首先超过总频率一半的类。
线性插值：
我们使用中位数类的下限、中位数类之前的累积频率、中位数类的频率以及中位数类的上限，在中位数类内进行线性插值以找到近似中位数。

此代码将为你提供分组数据的近似中位数。

标签：python,pandas
From： 69487460

比较Python中的字符串统一特殊字符
也许我可以使用更好的英语，但我想要的是忽略单词中的重音（和类似的），所以：renè、rené、rene'和rene应该是相同的，所以应该mañana和manana或even-distribuited和evendistribuited，可能还有sho......
如何使用 Python 脚本从客户账单电子邮件中获取订单 ID - WooCommerce API
我想创建一个python脚本，返回只知道客户的账单电子邮件的订单。我尝试这样做，但返回所有最近的订单：fromwoocommerceimportAPIwcapi=API(url="https://siteexample.com",consumer_key="ck_xxx",consumer_secret="cs_xxx",version="wc/v3")......
python基础理论小总结
1.python语言的特性Python是一门解释型语言，简单清晰，开源免费，跨平台，有大量第三方库辅助开发，支持面向对象与自动垃圾回收，方便与其他编程语言相互调用。Python在数据采集、人工智能、WEB后台开发、自动化运维、测试等方向应用广泛。2.解释型语言和编译型语言的区别执行方式不......
python编码规范
本篇讲的是代码格式化的问题，解决格式化的方法在最下方，不想看内容的，滑到最下方就好了。一、变量的命名规则1.组成：字母、数字、下划线2.不可以以数字开头3.不建议使用下划线开头4.命名需见名知意5.不要与关键字重名。如何查找所有关键字？importkeywordprint(keyword.k......
Python爬虫开发中的常用库与框架安装指南
在Python爬虫开发中，选择合适的库和框架可以大大提高开发效率和爬虫的性能。本文将介绍一些常用的解析库、请求库、储存库、Web库、App爬取库以及爬虫框架，并展示如何使用pip命令进行安装。一、解析库1.BeautifulSoupBeautifulSoup是一个用于从HTML或XML文件中提取数据的Pyth......
如何在Python中的指定项目之后添加新项目到嵌套列表？
给定的列表是这样的。list1=[10,20,[300,400,[5000,6000],500],30,40]预期输出是这样的。我知道这是一个非常基本的问题，但我很困惑。输出：[10,20,[300,400,[5000,6000,7000],500],30,40]我希望有人能帮助我解决这个问题。并解释了嵌套列表的插入功......
python带界面实现word文档比对功能
python实现word文档比对的功能较简单，笔者这里将其界面话，可以指定输入比对的文档，相似度，最小相似参数等。输出的结果以word的形式保存，重复部分会标出，基本实现了商业软件的功能。先看界面这里不废话了，直接给出全部源码，觉得好的点个赞。程序打包的话，自己百度。fromtkinterimp......
具有固定字典键的 Python 函数返回类型提示
我有一个函数返回一个始终具有相同键的字典（通过网络发送并使用json进行“字符串化”）。基本上我的函数看起来像这样：defgetTemps(self)->dict:"""getroomandcputemperaturein°Caswellashumidityin%"""#sendtemperaturerequesttoserve......
python的包管理
获取现有项目有那些依赖安装pipreqspipinstallpipreqs在项目根目录执行pipreqs.--encoding=utf8--force--pypi-server=http://mirrors.aliyun.com/pypi/simple/根据生成文件安装依赖pipinstall-rrequriements.txtpipreqs命令选项Options:--use-local......

在python中查找区间数据的中位数

相关文章

赞助商

阅读排行