【pandas小技巧】--统计值作为新列

时间：2023-08-18 10:23:34浏览次数：35

这次介绍的小技巧不是统计，而是把统计结果作为新列和原来的数据放在一起。
pandas的各种统计功能之前已经介绍了不少，但是每次都是统计结果归统计结果，原始数据归原始数据，
没有把它们合并在一个数据集中来观察。

下面通过两个场景示例来演示如果把统计值作为新列的数据。

1. 成绩统计的场景

成绩统计及其类似的场景比较常见，也就是把每行统计的结果作为该行的一个新列。
比如：

import pandas as pd
import numpy as np

df = pd.DataFrame(
    np.random.randint(60, 100, (4, 3))
)
df.columns = ["语文", "数学", "英语"]
df.index = ["学生"+s for s in list("ABCD")]
df

统计每个学生的各科总分和平均分，然后作为新的列合并到原数据中。

sum = df.sum(axis=1)
mean = df.mean(axis=1)

df["总分"] = sum
df["平均分"] = mean
df

这样可以更全面的查看每个学生的学习情况。

2. 订单统计的场景

订单统计的这个示例稍微复杂点，因为一个订单ID可能包含多个物品，
按订单ID来统计每个订单合计信息时，不能简单的像上面的统计成绩那样直接计算按行统计。

df = pd.DataFrame(
    {
        "id": [1, 1, 2, 3, 3, 3],
        "product": ["苹果", "香蕉", "手机",
                    "冰箱", "电视", "空调"],
        "price": [24, 15, 2000, 8000, 
                  5500, 7800],
    }
)

df

如上所示，总共有3个订单，根据订单号统计每个订单的总价如下：

df.groupby("id").price.sum()

得到每个订单ID对应的总价格，但是合计信息只有3行，而原来的数据是6行，无法直接合并到原数据。

这种情况下，我们需要用pandas里的transform函数。
transform函数分组统计之后，会保持原来的行数。

df["总价"] = df.groupby("id").price.transform("sum")
df

相同的订单ID，统计的总价是一样的。
把总价的信息附加在订单的每个具体物品之后，
还可以基于此统计出同一个订单中每个物品价格所占总价的百分比。

df["百分比"] = df.price / df["合计"]
df

总之，统计值作为新的列，不仅可以更好的比较和观察原始数据和统计值，
还可以基于新的统计列，再统计出其他的信息。

标签：新列,订单,--,sum,df,pandas,统计
From： https://www.cnblogs.com/wang_yb/p/17639701.html

No_55_JumpGame
ContentYouaregivenanintegerarraynums.Youareinitiallypositionedatthearray'sfirstindex,andeachelementinthearrayrepresentsyourmaximumjumplengthatthatposition.Returntrueifyoucanreachthelastindex,orfalseotherwise.......
Redis 过期监听 + 加阻塞队列
https://redis.io/docs/manual/keyspace-notifications/ 简单一句话就是要订阅key失效事件应用场景：在线客服中开启会话后，如果客户一段时间未回复，则结束会话。为了保证会话结束的时效性，通过redis订阅key失效事件处理配置notify-keyspace-eventsE......
CLion的远程同步功能，删除文件没有进行同步问题解决
在使用CLion的deployment功能时。正常修改增加都会自动同步到远程。但是删除文件或者文件夹时，远程的文件没有删除，重新同步后，原来删除的文件又出现了。这是因为Clion默认没有将删除的同步打开：Settings->Deployment->Options->勾选：Deleteremotefileswhenlocalaredele......
文件IO
目录1.系统IO1.1文件系统1.1.1文件的操作过程1.2Linux系统IO1.2.1open1.2.2read1.2.3write1.2.4close1.2.5lseek1.2.6umask1.2.7获取当前的工作目录1.2.8改变进程当前的工作目录1.2.9文件截短1.2.10删除文件1.2.11文件属性1.3目录1.3.1目录操作2.标准IO2.1标准IO的函数接口......
Ubuntu 开机自启动Django程序
在Ubuntu系统中设置开机启动一个命令，如pythonmanage.pyrunserver0.0.0.0:8000来启动Django服务器，可以通过以下步骤实现：创建一个SystemdService文件：打开终端并使用文本编辑器（例如nano或vim）创建一个SystemdService文件，比如django_app.service：bashCopycodesudona......
shell 编程命令
#!/bin/shshell编程的头文件echo“$0”返回的是这个脚本的部分路径echo“$1”返回的第一个参数echo“$2”返回的第二个参数echo“$*”返回的是全部参数echo“$#”返回的是参数的个数read-p“请输入你的名字：”usernameecho$usernameread-t60-p"请输入数字："ab......
CodeGeeX中这些隐藏的设置，你知道吗？
随着CodeGeeX整体性能的升级，越来越多的用户发现CodeGeeX的很多实用功能，能够帮助程序员更快更好的编写代码和解决技术问题。近期，我们看到许多用户在使用CodeGeeX的过程中，有一些相似的疑问。比如，很多人希望能够通过调整设置，让CodeGeeX的生成方式、工作语言更符合自己的习惯。今天的......
SimpleDateFormat 线程安全问题修复方案
问题介绍在日常的开发过程中，我们不可避免地会使用到JDK8之前的Date类，在格式化日期或解析日期时就需要用到SimpleDateFormat类，但由于该类并不是线程安全的，所以我们常发现对该类的不恰当使用会导致日期解析异常，从而影响线上服务可用率。以下是对SimpleDateFormat类不恰当......
windows10 登陆FTP成功后总是打开两个窗口
具体现象：使用windows资源管理器打开登陆FTP，登陆FTP成功后当前窗口显示此文件夹为空，不在当前窗口显示文件夹内容，却在当前窗口后重新打开了一个资源管理器窗口显示FTP文件夹内容解决方法：在资源管理器中输入地址时加上用户名，比如ftp://test@192.168.1.100 ......
智能一体化机柜会走多久？
智能一体化机柜是数据中心行业新兴的一种智能化设备。它将人工智能（AI）与互联网的物联网（IoT）技术有机结合起来，全面提升了运维及监控效率、优化空间资源的管理等，是当前数据中心行业的发展趋势之一。未来，随着数字经济的迅速发展，智能一体化机柜应用的领域将更加广泛，在以下几个方面将展......

【pandas小技巧】--统计值作为新列

1. 成绩统计的场景

2. 订单统计的场景

相关文章

赞助商

阅读排行