Pandas数据处理

时间：2024-01-24 15:13:35浏览次数：26

标签：对象 Series DataFrame 标签数据处理 Pandas 属性

Pandas数据处理与分析

Pandas是基于NumPy的一种数据分析工具库。

一、数据结构与基本操作

目前Pandas主要提供两种数据结构：Series是带标签的一维数组；DataFrame是带标签且大小可变的二维数组。

1.1、Series基础

import numpy as np
import pandas as pd
#创建Series对象
s1 = pd.Series([1,3,4,np.nan,6,9])#使用np.nan表示空值
print(s1)

Series作为一维数组的存储单位，拥有两个属性：标签（index）和元素值（values）。

Series对象具有标签，就相当于python中的索引，默认情况下与python中的索引相同，但是可以指定索引。

#创建Series对象，并指定索引为 'ABCD'
s2 = pd.Series(np.arange(4),index=list('ABCD'))
#通过索引来获取对象的值
s2['C']
#运行结果
2

对Series进行算术运算即对Series中的每个数据进行相应的算数运算，但要注意运算后生成一个新的Series对象，元Series对象保持不变。

可以通过切片操作获取Series中特定位置的数据，构成新的Series对象。切片主要有三种方式：

通过标签来实现切片
通过位置索引来切片
通过条件获取元素切片

1.2、DataFrame基础

DataFrame是大小可变、多种类型元素可以混合、具有行列标签的二维数据，拥有index和colums属性

n = np.random.randint(low=0,high=10,size=(5,5))
df = pd.DataFrame(data=n,columns=list('ABCDE'))
print(df)
#运行结果
   A  B  C  D  E
0  4  7  6  0  6
1  1  0  8  1  5
2  1  5  9  6  5
3  1  8  2  4  6
4  7  3  8  2  3

还可以使用字典创建DataFrame对象。

data = {
    "province":['广东','山东','四川','湖北','江苏'],
    "populations":[103332,23234,234545,6456546,12345],
    "city":['广州','济南','成都','武汉','南京']
}
cc = pd.DataFrame(data)
print(cc)
#运行结果
  province  populations city
0       广东       103332   广州
1       山东        23234   济南
2       四川       234545   成都
3       湖北      6456546   武汉
4       江苏        12345   南京

DataFrame对象的相关属性

index属性表示行标签，columns属性表示列标签，dtype属性表示各列的数据类型，ndim属性表示数据维数，values属性表示构成DataFrame对象数据的NumPy数组。

DataFrame对象的整体情况查询

info()方法查询DataFrame对象的整体情况，包括行列数量、索引、列类型、内存占用情况等。head(n)方法查询最前面n行数据，默认为5行。tail(n)方法查询末尾n行数据，默认为5行。

设置DataFrame对象的行列标签

可以使用set_index生成新的DataFrame对象，原对象保持不变。

可以通过columns属性值来改变列标签。

获取DataFrame对象的行列标签

DataFrame对象的index属性返回行标签对象。可以从该对象获得行标签构成的列表。

可以通过to_list方法将其转换成列表。

还可以根据条件获取标签信息。

DataFrame对象的切片方式

通过列名和行号获取
通过布尔索引获取
通过行列标签切片
通过行列序号切片

二、文件与数据库中存取DataFrame对象

1、csv文件中存取DataFrame对象

2、Excel文件中存取DataFrame对象

3、数据库中存取DataFrame对象

三、常用函数与方法

1、用drop()删除指定的行或列

2、用append()添加元素

3、用unique()去除重复元素

4、使用Series.map()实现数据替换

5、使用apply()将指定函数应用于数据

6、用applymap()将指定函数应用于元素

......

四、DataFrame对象的数据清洗与处理

获得DataFrame对象后，数据清洗等预处理是数据分析前最重要一环。

数据清洗主要是删除重复值、处理缺失值、数据格式规范化等。

其实有很多方法，大家可以自行在网上查询。

五、时间处理

5.1、Python标准库中的时间处理

Python标准库中的calendar、datatime和time三个模块可以用来处理时间数据。

calendar模块中的类和函数主要用于处理与日历相关的数据。time模块中的类和函数主要用于处理与时间戳相关的数据。datatime模块提供了处理日期与时间的类和函数。

datatime模块包含date、time、datetime、timedelta、tzinfo和timezone六个类。

详细方法参考官方在线文档。

5.2、Pandas中的时间数据处理

Pandas中的Timestamp和Timedelta两个类在处理时间方面较好。

详细方法见官网。

标签：对象,Series,DataFrame,标签,数据处理,Pandas,属性
From： https://www.cnblogs.com/wjx-2005-07-01/p/17984715

玩转数据处理利器：学会使用 YAML 文件轻松处理数据
霍格沃兹的测试管理班是专门面向测试与质量管理人员的一门课程，通过提升从业人员的团队管理、项目管理、绩效管理、沟通管理等方面的能力，使测试管理人员可以更好的带领团队、项目以及公司获得更快的成长。提供1v1私教指导，BAT级别的测试管理大咖量身打造职业规划。YAML文件处理什......
玩转数据处理利器：学会使用 YAML 文件轻松处理数据
测试管理班是专门面向测试与质量管理人员的一门课程，通过提升从业人员的团队管理、项目管理、绩效管理、沟通管理等方面的能力，使测试管理人员可以更好的带领团队、项目以及公司获得更快的成长。提供1v1私教指导，BAT级别的测试管理大咖量身打造职业规划。YAML文件处理什么是YAML文......
玩转数据处理利器：学会使用 YAML 文件轻松处理数据
测试管理班是专门面向测试与质量管理人员的一门课程，通过提升从业人员的团队管理、项目管理、绩效管理、沟通管理等方面的能力，使测试管理人员可以更好的带领团队、项目以及公司获得更快的成长。提供1v1私教指导，BAT级别的测试管理大咖量身打造职业规划。YAML文件处理什么是Y......
NumPy数据处理基础
Panadas数据处理基础一、数据结构NumPy中主要有多维数组和矩阵结构。1.1、利用array()函数创建数组numpy.array(object,dtype=None,*,copy=True,order='K',subok=False,ndmin=0,like=None)----object参数来创建数组类型的对象----dtype参数表示数组元素的类型----copy用......
【LeetCode 2494. 合并在同一个大厅重叠的活动】[MySQL 用户变量/Pandas]面向过程编程
目录题目地址MySQL代码等效pandas代码题目地址https://leetcode.cn/problems/merge-overlapping-events-in-the-same-hall/MySQL代码#WriteyourMySQLquerystatementbelowwitht2as(select*#----只需要改动这里的逻辑，其他不要动。注意里面的语句是“顺序......
【LeetCode1747. 应该被禁止的 Leetflex 账户】[MySQL 用户变量/Pandas]面向过程编程；
目录题目地址MySQL代码等效pandas代码题目地址https://leetcode.cn/problems/leetflex-banned-accounts/description/MySQL代码witht1as(selectaccount_id,ip_address,loginastick,"login"asmytypefromLogInfounionallselectaccount_id,ip......
【LeetCode 2701. 连续递增交易】[MySQL 用户变量/Pandas]面向过程编程得到严格递增连
目录题目地址MySQL代码等效pandas代码题目地址https://leetcode.cn/problems/consecutive-transactions-with-increasing-amounts/MySQL代码#WriteyourMySQLquerystatementbelowwitht1as(select*#--------------------------只需要改动这里的逻辑，其他......
【Leetcode 2474. 购买量严格增加的客户】[MySQL 用户变量/Pandas]面向过程编程解决严
目录题目地址MySQL代码等效pandas代码题目地址https://leetcode.cn/problems/customers-with-strictly-increasing-purchases/description/MySQL代码#WriteyourMySQLquerystatementbelowwitht1as(selectcustomer_id,year(order_date)asmy_year,sum(price)......
Java开发之Java8 新特性--流式数据处理学习
一.流式处理简介在我接触到java8流式处理的时候，我的第一感觉是流式处理让集合操作变得简洁了许多，通常我们需要多行代码才能完成的操作，借助于流式处理可以在一行中实现。比如我们希望对一个包含整数的集合中筛选出所有的偶数，并将其封装成为一个新的List返回，那么在java8之前，我们需......
Excel中这日期老是出来00：00：00，怎么用Pandas把这个去除
大家好，我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下：这日期老是出来00：00：00，怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下：pd.to_excel之前把这一列转换成字符串，或者你在Excel上设置......