首页 > 其他分享 >分享几个简单的Pandas数据处理函数

分享几个简单的Pandas数据处理函数

时间:2024-09-02 17:49:57浏览次数:12  
标签:category df Python inactive 数据处理 100 分享 active Pandas

文末赠免费精品编程资料~~

大家好,今天给大家简单分享几个好用的Pandas数据处理函数。

id,category,sub_category,sales,year,var1,var2,age,score,status,quantity
1,A,B,100,2019,50,70,35,85,active,100
2,B,C,120,2020,60,80,28,90,inactive,200
3,A,C,110,2020,70,90,32,75,active,150
4,D,E,130,2019,80,100,30,80,active,180
5,A,B,140,2021,90,110,29,95,inactive,250

以上模拟数据可以复制后使用pd.read_clipboard(sep=',')读取。

图片

1. melt 和 pivot

melt 场景:假设原始数据集中var1var2代表产品在不同季度的销售额,我们可以将这两列扁平化,方便后续针对季度进行分析或绘制折线图。

# 扁平化季度销售额数据
df_melted = pd.melt(df, id_vars=['id', 'category', 'sub_category', 'year'], value_vars=['var1', 'var2'], var_name='quarter', value_name='quarter_sales')

图片

pivot 场景:完成分析或可视化后,可能需要将扁平化的数据恢复原样。

# 将扁平化的季度销售额数据恢复为宽格式
df_pivoted = df_melted.pivot(index=['id', 'category', 'sub_category', 'year'], columns='quarter', values='quarter_sales')

图片

2. crosstab

crosstab 场景:若我们要分析不同类别产品在子类别中的分布情况,可以创建交叉表。

# 创建 category 和 sub_category 的交叉表并显示频数
cross_tab = pd.crosstab(df['category'], df['sub_category'], margins=True)
cross_tab

图片

3. between

between 场景:在进行数据分析时,我们可能只关心某个年龄段的客户数据,比如筛选出20到40岁的活跃用户及其购买情况。

# 筛选出年龄在20至40岁并且状态为 active 的用户及其销售额
df_filtered = df[(df['age'].between(20, 40)) & (df['status'] == 'active')]

# 分析这部分用户的销售额分布
df_filtered[['age', 'sales']].describe()

图片

4. clip

clip 场景:在对用户评分进行分析时,可能存在录入错误导致的过高或过低评分,我们可以对其进行合理限制。

# 限制 score 列的值在0到100之间
df['score'].clip(lower=0, upper=100, inplace=True)

# 验证处理效果并计算修正后的评分平均值
print("修正后的评分平均值:", df['score'].mean())

图片

5. replace

replace 场景:在进行用户状态分类时,可能会统一更改某些状态标签以便于后续分析,例如将'inactive'改为'not_active'。

# 将用户状态'inactive'替换为'not_active'
df['status'].replace(to_replace='inactive', value='not_active', inplace=True)

# 分别计算新旧标签下用户的状态分布
df['status'].value_counts()

图片

 

文末福利

如果你对Python感兴趣的话,可以试试我整理的这一份全套的Python学习资料,【点击这里】免费领取!

包括:Python激活码+安装包、Python
web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

① Python所有方向的学习路线图,清楚各个方向要学什么东西

② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析

③ 100多个Python实战案例,学习不再是只会理论

④ 华为出品独家Python漫画教程,手机也能学习

⑤ 历年互联网企业Python面试真题,复习时非常方便

标签:category,df,Python,inactive,数据处理,100,分享,active,Pandas
From: https://blog.csdn.net/2401_85903292/article/details/141753823

相关文章

  • 利士策分享,创业那些事儿:心态是否决定成败?
    心态是否决定成败?创业圈里,成败往往就在一念之间。除了那些老生常谈的商业模式、市场环境、资金支持。其实,创业者的心态也是关键。创业心态,真的很重要可别小看创业心态,它不仅仅是乐观、坚持那么简单。它还包括了对失败的接受程度、对变化的适应以及对创新的追求。一个好......
  • 【分享】Gitee如何下载单个文件
    文章目录引出问题解决问题结语引出问题不知使用gitee的你,有没有遇到过需要下载某个仓库文件的情况?比如下面这个仓库,是@宏沉一笑大佬转载obsidian的插件的仓库链接点击下载,你会发现gitee开始给你打包整个仓库文件,一个几百m的仓库怎么说也要几分钟才能下完。可是,我只是需要某一个主......
  • 文心快码前端工程师观点分享:人机协同新模式的探索之路(一)
    进入文心快码BaiduComate官网,体验智能编码之旅,还有超多福利!本系列视频来自百度工程效能部的前端研发经理杨经纬,她在由开源中国主办的“AI编程革新研发效能”OSC源创会·杭州站·105期线下沙龙活动上,从一款文心快码(BaiduComate)前端工程师的角度,分享了关于智能研发工具本身的研发......
  • 【方法分享】准大学生如何自学C语言?
    准大学生如何自学C语言文章目录准大学生如何自学C语言一、找寻一个优质教学视频二、使用优质编译器三、安排一个电子笔记需不需要一个ipad来辅助学习?四、除工具以外的学习方法1.专心致志,不要让其他东西分心2.多练习,多练习,多练习3.复习!结语虽说现在已经接近我们最长的且无忧无虑的......
  • 【漏洞利用】2024Hvv漏洞POC283 个合集分享
    最近Hvv活动圆满结束,我将这段时间收集到的漏洞PoC汇总成了一份148页的文档,共包括283个公开漏洞。经过近两个月的激烈演习,我们终于迎来了年度保护碗筷行动的尾声。无论大家是否已经准备好度假,现阶段我们分享的这些信息可以帮助大家更好地了解今年的漏洞情况。特别声明,这些漏洞信息......
  • 免费分享一套SpringBoot+Vue驾校(预约)管理系统【论文+源码+SQL脚本】,帅呆了~~
    大家好,我是java1234_小锋老师,看到一个不错的SpringBoot+Vue驾校(预约)管理系统,分享下哈。项目视频演示【免费】SpringBoot+Vue驾校(预约)管理系统Java毕业设计_哔哩哔哩_bilibili项目介绍传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据......
  • 8月全志芯片开源项目分享合集
    T113环境温湿度采集与监控板作者:lin_xiaoyan本项目的基本原理是由下位机采集温湿度信息到监控端,并由T113读取SHT30高精度温湿度芯片,UI采用高仿HomeAssistant的样式显示室内温湿度情况,同时通过网络获取天气、室外温湿度,Lottie动画图标显示当前天气情况和室外温湿度参数,可谓可视化......
  • 技术分享-商城篇-售后退款-退款策略(十九)
    前言在上一篇文章售后退款技术分享-商品篇-售后退款退货(十八),我们说到商城售后退款设计逻辑,但是对里面实现逻辑,并没有详细阐述,因为涉及逻辑实在太多,且每个商城系统的实际规则都不一样,只能给各位一个参考思路,大致解决一些关键性问题。那会有哪些问题呢?比如:退费金额的计算,全额......
  • 【法如faro】三维激光软件Scene2023数据处理(自动配准并转换坐标)流程
    Scene2023数据处理(自动配准并转换坐标)的主要流程为:新建项目、导入数据、处理、自动注册、坐标系转换、模型导出立和面模型导出等。文章目录一、新建项目二、导入数据三、处理四、自动注册五、坐标系转换六、模型导出七、立面模型导出八、创建项目点云九、导......
  • 【工具分享】P1finger v0.02(最新版本)--红队重点资产指纹识别
    工具介绍:P1finger红队行动下的重点资产指纹识别工具。P1finger是一个重点资产指纹识别的工具,旨在通过HTTP请求特征来识别目标系统。其主要特点包括:语言和实现:语言:使用Go语言(Golang)实现。目的:强调跨平台能力和易于集成。指纹库和检测策略:指纹库:通过人工过滤和收集,确保高准......