首页 > 其他分享 >分组聚合不再难:Pandas groupby使用指南

分组聚合不再难:Pandas groupby使用指南

时间:2024-03-05 15:44:38浏览次数:26  
标签:股票代码 聚合 Pandas 日期 分组 使用指南 data groupby

处理大量数据时,经常需要对数据进行分组和汇总,groupby为我们提供了一种简洁、高效的方式来实现这些操作,从而简化了数据分析的流程。

1. 分组聚合是什么

分组是指根据一个或多个列的值将数据分成多个组,每个组包含具有相同键值(这里的键值即用来分组的列值)的数据行。

聚合或者汇总则是指,在分组后,可以对每个组应用聚合函数(如求和、平均值、计数等),从而得到每个组的汇总信息。

2. 准备数据

下面的示例中使用的数据采集自A股2024年1月和2月的真实交易数据。
数据下载地址:https://databook.top/

导入数据:

import pandas as pd

fp = r'D:\data\2024\历史行情数据-不复权-2024.csv'

df = pd.read_csv(fp)
df = df.loc[:, ["股票代码", "日期", "开盘", "收盘", "最高", "最低", "成交量"]]
df

image.png

3. groupby 使用示例

下面通过具体的示例演示groupby常用的使用方法。

3.1. 单列分组再聚合

单列聚合是指针对某一列汇总计算,比如:
针对“股票代码”聚合,看看不同股票的开盘价收盘价的平均值。

# 只保留需要的列
data = df.loc[:, ["股票代码", "开盘", "收盘"]]

# 根据股票代码聚合平均值
data.groupby(by=["股票代码"]).mean()

image.png
一共5352支股票,聚合之后,红色框内的是每支股票开盘价收盘价的平均值。

3.2. 多列分组再聚合

多列分组聚合时,按照groupbyby参数的顺序,依次进行分组,然后再聚合。
本次的使用的数据包含2024年1月和2月的数据,
我们先按照“股票代码”分组,再按“月份”分组,最后汇总信息。

聚合之前,先把日期的格式转换成月的形式:

data = df.loc[:, ["股票代码", "日期", "开盘", "收盘"]]
data["日期"] = data["日期"].str.slice(0, 7)
data

image.png

根据“股票代码”“日期”来聚合每支股票每个月的开盘价收盘价的最大值:

data.groupby(by=["股票代码", "日期"]).max()

image.png
聚合之后的DataFrame,有2Index(索引)。

3.3. 一次分组多次聚合

聚合汇总信息时,可以一次汇总多个信息,这样分组一次就可以了,不用每次聚合都重复调用groupby去分组。
比如,下面的示例一次汇总出每支股票每个月开盘价收盘价最大值最小值平均值

data.groupby(by=["股票代码", "日期"]).agg(["mean", "max", "min"])

image.png

3.4. 定制分组的聚合方式

更进一步,我们还可以针对不同的列采用不同的聚合方式。
比如,对开盘价汇总最大值平均值,对收盘价汇总最小值平均值

data.groupby(by=["股票代码", "日期"]).agg(
    {
        "开盘": ["max", "mean"],
        "收盘": ["min", "mean"],
    }
)

image.png

3.5. 聚合后重置索引

从上面聚合后数据的截图中,可以发现,聚合之后,分组用的列(比如 ["股票代码", "日期"])变为索引。
image.png
如上所示,聚合之后返回的DataFrame,红色框内的是索引(index),蓝色框内的是列(columns)。

如果,我们希望分组聚合统计之后,分组的列(比如 ["股票代码", "日期"])仍然作为DataFrame的列,
可以在groupby分组时使用as_index=False参数。

data.groupby(by=["股票代码", "日期"], as_index=False).agg(
    {
        "开盘": ["max", "mean"],
        "收盘": ["min", "mean"],
    }
)

image.png
这样的话,分组的列(比如 ["股票代码", "日期"])就不会成为索引。

4. 总结

总的来说,groupby 函数是 pandas 库中一个非常常用的工具,它大大简化了数据处理和分析的过程,
使得用户能够更高效地洞察和理解数据。

标签:股票代码,聚合,Pandas,日期,分组,使用指南,data,groupby
From: https://www.cnblogs.com/wang_yb/p/18054200

相关文章

  • 别再低效筛选数据了!试试pandas query函数
    数据过滤在数据分析过程中具有极其重要的地位,因为在真实世界的数据集中,往往存在重复、缺失或异常的数据。pandas提供的数据过滤功能可以帮助我们轻松地识别和处理这些问题数据,从而确保数据的质量和准确性。今天介绍的query函数,为我们提供了强大灵活的数据过滤方式,有助于从复杂的......
  • pandas df 将两列转换为字典格式
    修改df列名importpandasaspdimportjsondata={'keys':['a','b','c','d'],'values':[1,2,3,4]}columns_mapping={'keys':'keys11','values':�......
  • python | Pandas.unique()函数
    unique()是Pandas中的一个函数,用于获取Series或DataFrame中的唯一值,它返回一个包含Series或DataFrame中唯一值的数组,按照它们在原始数据中的出现顺序排列。对于足够长的序列,比numpy.unique快得多。包括NA值。data={'Name':['John','Tom','Alice','John'],'Ag......
  • Spring Security权限控制框架使用指南
    在常用的后台管理系统中,通常都会有访问权限控制的需求,用于限制不同人员对于接口的访问能力,如果用户不具备指定的权限,则不能访问某些接口。本文将用waynboot-mall项目举例,给大家介绍常见后管系统如何引入权限控制框架SpringSecurity。大纲如下,一、什么是SpringSecurityS......
  • pandas | value_counts()的用法
    value_counts()方法返回一个序列Series,该序列用于统计某列中各个值的出现次数的函数。当配合参数bins使用时,它可以将数据分成指定的区间,然后统计每个区间内值的出现次数。value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用。value_counts()只......
  • git使用指南
    1.基础操作1.1初始化repogitinit1.2添加更改gitadd1.3添加到暂存区gitcommit-m"update"1.4克隆仓库gitclone2.版本管理2.1查看repo状态gitstatus2.2查看文件变化gitdiff2.3查看当前版本的loggitlog2.4查看所有的loggitreflog2.5版本回退g......
  • Pandas一行中满10个字符就自动换行?
    大家好,我是Python进阶者。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas处理数据的问题。问题如下:大佬们,有个需求,某一列中,有些单元格中数字太多,比如有20个字符,太难看了,有没有办法,满10个字符就自动换行!用了这个:str.wrap(10),但实际效果显示不出来。二......
  • pandas读取txt---按行输入按行输出
     1.pandas读取txt---按行输入按行输出importpandasaspd#我们的需求是取出所有的姓名#test1的内容'''idnamescore1张三1002李四993王五98'''test1=pd.read_table("test1.txt")#这个是带有标题的文件names=test1["name"]#根据标题来取值p......
  • Python+Faker+Pandas数据库造数
    今日分享一些Python常用的东西,整理一些小笔记,比如Faker的使用,panda的使用1、使用faker造数据简介测试工作中,经常会遇到需要制造大量测试数据的时候,如果手动造数据必然会浪费大量时间Faker是一个制造数据的强大的python库,可以制造姓名、电话、身份证、地址、邮箱等等各种各样伪......
  • Pandas处理时间序列数据
    Pandas时序处理中最常见的两种数据类型为datetime和timedelta。flowchartTBdatetime--data-->2024-01-01datetime--time-->10:00:00datetime顾名思义就是既有日期date也有时间time,表示一个具体的时间点(时间戳)。timedelta则表示两个时间点之间的差,比如2024-0......