首页 > 其他分享 >分享几个简单的Pandas数据处理函数

分享几个简单的Pandas数据处理函数

时间:2024-09-02 17:49:57浏览次数:19  
标签:category df Python inactive 数据处理 100 分享 active Pandas

文末赠免费精品编程资料~~

大家好,今天给大家简单分享几个好用的Pandas数据处理函数。

id,category,sub_category,sales,year,var1,var2,age,score,status,quantity
1,A,B,100,2019,50,70,35,85,active,100
2,B,C,120,2020,60,80,28,90,inactive,200
3,A,C,110,2020,70,90,32,75,active,150
4,D,E,130,2019,80,100,30,80,active,180
5,A,B,140,2021,90,110,29,95,inactive,250

以上模拟数据可以复制后使用pd.read_clipboard(sep=',')读取。

图片

1. melt 和 pivot

melt 场景:假设原始数据集中var1var2代表产品在不同季度的销售额,我们可以将这两列扁平化,方便后续针对季度进行分析或绘制折线图。

# 扁平化季度销售额数据
df_melted = pd.melt(df, id_vars=['id', 'category', 'sub_category', 'year'], value_vars=['var1', 'var2'], var_name='quarter', value_name='quarter_sales')

图片

pivot 场景:完成分析或可视化后,可能需要将扁平化的数据恢复原样。

# 将扁平化的季度销售额数据恢复为宽格式
df_pivoted = df_melted.pivot(index=['id', 'category', 'sub_category', 'year'], columns='quarter', values='quarter_sales')

图片

2. crosstab

crosstab 场景:若我们要分析不同类别产品在子类别中的分布情况,可以创建交叉表。

# 创建 category 和 sub_category 的交叉表并显示频数
cross_tab = pd.crosstab(df['category'], df['sub_category'], margins=True)
cross_tab

图片

3. between

between 场景:在进行数据分析时,我们可能只关心某个年龄段的客户数据,比如筛选出20到40岁的活跃用户及其购买情况。

# 筛选出年龄在20至40岁并且状态为 active 的用户及其销售额
df_filtered = df[(df['age'].between(20, 40)) & (df['status'] == 'active')]

# 分析这部分用户的销售额分布
df_filtered[['age', 'sales']].describe()

图片

4. clip

clip 场景:在对用户评分进行分析时,可能存在录入错误导致的过高或过低评分,我们可以对其进行合理限制。

# 限制 score 列的值在0到100之间
df['score'].clip(lower=0, upper=100, inplace=True)

# 验证处理效果并计算修正后的评分平均值
print("修正后的评分平均值:", df['score'].mean())

图片

5. replace

replace 场景:在进行用户状态分类时,可能会统一更改某些状态标签以便于后续分析,例如将'inactive'改为'not_active'。

# 将用户状态'inactive'替换为'not_active'
df['status'].replace(to_replace='inactive', value='not_active', inplace=True)

# 分别计算新旧标签下用户的状态分布
df['status'].value_counts()

图片

 

文末福利

如果你对Python感兴趣的话,可以试试我整理的这一份全套的Python学习资料,【点击这里】免费领取!

包括:Python激活码+安装包、Python
web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

① Python所有方向的学习路线图,清楚各个方向要学什么东西

② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析

③ 100多个Python实战案例,学习不再是只会理论

④ 华为出品独家Python漫画教程,手机也能学习

⑤ 历年互联网企业Python面试真题,复习时非常方便

标签:category,df,Python,inactive,数据处理,100,分享,active,Pandas
From: https://blog.csdn.net/2401_85903292/article/details/141753823

相关文章

  • 利士策分享,创业那些事儿:心态是否决定成败?
    心态是否决定成败?创业圈里,成败往往就在一念之间。除了那些老生常谈的商业模式、市场环境、资金支持。其实,创业者的心态也是关键。创业心态,真的很重要可别小看创业心态,它不仅仅是乐观、坚持那么简单。它还包括了对失败的接受程度、对变化的适应以及对创新的追求。一个好......
  • 【分享】Gitee如何下载单个文件
    文章目录引出问题解决问题结语引出问题不知使用gitee的你,有没有遇到过需要下载某个仓库文件的情况?比如下面这个仓库,是@宏沉一笑大佬转载obsidian的插件的仓库链接点击下载,你会发现gitee开始给你打包整个仓库文件,一个几百m的仓库怎么说也要几分钟才能下完。可是,我只是需要某一个主......
  • 文心快码前端工程师观点分享:人机协同新模式的探索之路(一)
    进入文心快码BaiduComate官网,体验智能编码之旅,还有超多福利!本系列视频来自百度工程效能部的前端研发经理杨经纬,她在由开源中国主办的“AI编程革新研发效能”OSC源创会·杭州站·105期线下沙龙活动上,从一款文心快码(BaiduComate)前端工程师的角度,分享了关于智能研发工具本身的研发......
  • 【方法分享】准大学生如何自学C语言?
    准大学生如何自学C语言文章目录准大学生如何自学C语言一、找寻一个优质教学视频二、使用优质编译器三、安排一个电子笔记需不需要一个ipad来辅助学习?四、除工具以外的学习方法1.专心致志,不要让其他东西分心2.多练习,多练习,多练习3.复习!结语虽说现在已经接近我们最长的且无忧无虑的......
  • 免费分享一套SpringBoot+Vue驾校(预约)管理系统【论文+源码+SQL脚本】,帅呆了~~
    大家好,我是java1234_小锋老师,看到一个不错的SpringBoot+Vue驾校(预约)管理系统,分享下哈。项目视频演示【免费】SpringBoot+Vue驾校(预约)管理系统Java毕业设计_哔哩哔哩_bilibili项目介绍传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据......
  • 8月全志芯片开源项目分享合集
    T113环境温湿度采集与监控板作者:lin_xiaoyan本项目的基本原理是由下位机采集温湿度信息到监控端,并由T113读取SHT30高精度温湿度芯片,UI采用高仿HomeAssistant的样式显示室内温湿度情况,同时通过网络获取天气、室外温湿度,Lottie动画图标显示当前天气情况和室外温湿度参数,可谓可视化......
  • 技术分享-商城篇-售后退款-退款策略(十九)
    前言在上一篇文章售后退款技术分享-商品篇-售后退款退货(十八),我们说到商城售后退款设计逻辑,但是对里面实现逻辑,并没有详细阐述,因为涉及逻辑实在太多,且每个商城系统的实际规则都不一样,只能给各位一个参考思路,大致解决一些关键性问题。那会有哪些问题呢?比如:退费金额的计算,全额......
  • 【法如faro】三维激光软件Scene2023数据处理(自动配准并转换坐标)流程
    Scene2023数据处理(自动配准并转换坐标)的主要流程为:新建项目、导入数据、处理、自动注册、坐标系转换、模型导出立和面模型导出等。文章目录一、新建项目二、导入数据三、处理四、自动注册五、坐标系转换六、模型导出七、立面模型导出八、创建项目点云九、导......
  • 【工具分享】P1finger v0.02(最新版本)--红队重点资产指纹识别
    工具介绍:P1finger红队行动下的重点资产指纹识别工具。P1finger是一个重点资产指纹识别的工具,旨在通过HTTP请求特征来识别目标系统。其主要特点包括:语言和实现:语言:使用Go语言(Golang)实现。目的:强调跨平台能力和易于集成。指纹库和检测策略:指纹库:通过人工过滤和收集,确保高准......