首页 > 其他分享 >DataFrame数据的处理多种方法

DataFrame数据的处理多种方法

时间:2024-06-05 13:32:25浏览次数:13  
标签:多种 name 处理 True column DataFrame df 数据

在Python中,DataFramepandas库中的一个核心数据结构,用于存储和操作二维的、大小可变且可以包含异质类型列的表格型数据。处理DataFrame数据时,你可以执行各种操作,包括数据清洗、转换、聚合、排序、筛选等。以下是一些常见的DataFrame数据处理方法:

1. 读取数据

使用pandasread_函数(如read_csvread_excel等)从文件或数据库中读取数据到DataFrame

import pandas as pd

# 从CSV文件读取数据
df = pd.read_csv('data.csv')

# 从Excel文件读取数据
df = pd.read_excel('data.xlsx')

2. 查看数据

使用head(), tail(), info(), describe(), shape等方法查看数据的基本信息。

# 查看前几行数据
print(df.head())

# 查看后几行数据
print(df.tail())

# 查看DataFrame的概要信息
print(df.info())

# 查看数值列的统计信息
print(df.describe())

# 查看DataFrame的形状(行数和列数)
print(df.shape)

3. 数据清洗

处理缺失值(NaN或None)、重复值、异常值等。

# 填充缺失值
df.fillna(value=0, inplace=True)  # 使用0填充缺失值

# 删除包含缺失值的行
df.dropna(inplace=True)

# 删除重复行
df.drop_duplicates(inplace=True)

# 处理异常值(如替换、删除等)
df['column_name'].replace(to_replace=value, value=replacement, inplace=True)

4. 数据转换

对数据进行类型转换、重命名列名、添加新列等操作。

# 数据类型转换
df['column_name'] = df['column_name'].astype('float')

# 重命名列名
df.rename(columns={'old_name': 'new_name'}, inplace=True)

# 添加新列
df['new_column'] = df['column1'] + df['column2']

5. 数据筛选

使用条件表达式、布尔索引、query()方法等筛选数据。

# 使用条件表达式筛选数据
filtered_df = df[df['column_name'] > 10]

# 使用布尔索引筛选数据
mask = (df['column1'] > 5) & (df['column2'] < 10)
filtered_df = df[mask]

# 使用query方法筛选数据(需要列名作为字符串)
filtered_df = df.query('column1 > 5 and column2 < 10')

6. 数据排序

根据某列或多列的值对数据进行排序。

# 按单列排序  
sorted_df = df.sort_values(by='column_name')  
  
# 按多列排序(首先按column1,然后按column2)  
sorted_df = df.sort_values(by=['column1', 'column2'])  
  
# 降序排序  
sorted_df = df.sort_values(by='column_name', ascending=False)

7. 数据聚合

使用groupby()方法对数据进行分组,并使用聚合函数(如sum(), mean(), count()等)计算每个组的统计信息。

# 对数据进行分组并计算每组的平均值  
grouped_df = df.groupby('group_column').mean()  
  
# 对多列进行聚合操作  
grouped_df = df.groupby('group_column')['column1', 'column2'].agg(['sum', 'mean'])

8. 数据导出

DataFrame导出到文件或数据库。

# 将DataFrame导出到CSV文件
df.to_csv('output.csv', index=False)

# 将DataFrame导出到Excel文件
df.to_excel('output.xlsx', index=False)

9.重命名列名**:使用rename()方法重命名列。

# 重命名列名
df.rename(columns={'old_name': 'new_name'}, inplace=True)

10.添加或删除列**:通过赋值或使用drop()方法添加或删除列。

# 添加新列
df['new_column'] = df['column1'] + df['column2']

# 删除列
df.drop(columns=['column_to_drop'], inplace=True)

以上只是DataFrame数据处理的一些基本方法,pandas库提供了更多高级功能和灵活性,可以根据具体需求进行探索和使用。

标签:多种,name,处理,True,column,DataFrame,df,数据
From: https://blog.csdn.net/weixin_40718055/article/details/139437480

相关文章

  • Python从0到100(二十九):requests模块处理cookie
    1爬虫中使用cookie为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求1.1爬虫中使用cookie的利弊带上cookie的好处能够访问登录后的页面能够实现部分反反爬带上cookie的坏处一套cookie往往对应的是一个用户......
  • 批量修改图片宽高的软件有哪些?细数几个图片处理软件
    批量修改图片的宽高,通常是在需要处理大量图片并且要求这些图片保持统一尺寸或适应特定尺寸需求时进行的操作。这种需求在多个领域和场合中屡见不鲜,例如,在网页设计和制作中,批量修改图片宽高是非常必要的步骤。为了保持网页的美观和整洁,设计师通常会将网页上的图片尺寸调整到统一......
  • 【图像处理】交通标志检测(Matlab代码实现)
    ......
  • 前端处理流式数据(SSE服务)
    前言将数据用流的方式返回给客户端,这种技术需求在传统的管理项目中不多见,但是在媒体或者有实时消息等功能上就会用到,这个知识点对于前端还是很重要的。即时你不写服务端,但是服务端如果给你这样的接口,你也得知道怎么去使用联调。nodejs实现简单的SSE服务SSE服务(Server......
  • (大全集)大规模数据处理入门与实战(套装全10册 Kafka权威指南 Flink基础教程 数据科学
    书:pan.baidu.com/s/1YNu61Jk91VeISAX2F7-64g提取码:14pd是一本涉及大规模数据处理的入门级别的书籍,它通常旨在向读者介绍大规模数据处理的基本概念、技术、工具和实际应用。一些笔记:大数据概述: 介绍大数据的定义、特征和发展趋势。分布式系统: 讨论大规模数据处理的基础,包括......
  • 带DSP音效处理D类数字功放TAS5805M中文资料
    国产替代D类数字功放中文资料访问下方链接ACM86282×41W立体声1×82W单通道数字功放中文寄存器表内置DSP多种音频处理效果ACM8628M-2×41W立体声或1×82W单通道数字功放1特性具有增强处理能力和低功率损耗的TAS5805M23W、无电感器、数字输入、立体声、闭环D类音频......
  • 数据治理--数据处理,数据仓库 数仓分层,数据建模流程 数仓设计规范
                           ......
  • 2024年云计算、信号处理与网络技术国际学术会议(ICCCSPNT 2024)
    2024年云计算、信号处理与网络技术国际学术会议(ICCCSPNT2024)2024InternationalAcademicConferenceonCloudComputing,SignalProcessing,andNetworkTechnology(ICCCSPNT2024)会议简介:2024年云计算、信号处理与网络技术国际学术会议(简称ICCCSPNT2024)是一个集结了......
  • JSON类型处理器
    数据库的user表中有一个info字段,是JSON类型:格式像这样:{"age":20,"intro":"佛系青年","gender":"male"}而目前User实体类中却是String类型:这样一来,我们要读取info中的属性时就非常不方便。如果要方便获取,info的类型最好是一个Map或者实体类。而一旦我们把info改为对象......
  • 计算机组成原理·中央处理器
    中央处理器控制器:负责协调并控制计算机各部件执行程序的指令序列:取指令、分析指令、执行指令运算器:对数据加工指令控制操作控制数据加工时间控制中断处理基本结构运算器和控制器两大部分组成运算器:算术逻辑单元(ALU)暂存寄存器累加寄存器(ACC)通用寄存器组(AX/BX/CX/D......