首页 > 编程语言 >python数据分析:介绍pandas库的数据类型Series和DataFrame

python数据分析:介绍pandas库的数据类型Series和DataFrame

时间:2024-12-21 13:55:32浏览次数:10  
标签:python Series age 数据类型 dataframe 分组 DataFrame print

图片

安装pandas

pip install pandas -i https://mirrors.aliyun.com/pypi/simple/

使用pandas

直接导入即可 import pandas as pd

pandas的数据结构

pandas提供了两种主要的数据结构:Series 和 DataFrame,类似于python提供list列表,dict字典,tuple元组等数据类型用于存储数据。

1. Series

Series 是一种一维的数组(类似于 Python 的列表),可以存储任何数据类型(整数、字符串、浮点数、Python对象等)。Series 是一种带有标签的数据结构,每个数据点都有一个索引。

图片

创建 Series

创建的series结构,默认索引从0开始(像list的索引一样),但是可以指定索引。

1)从列表创建Series

import pandas as pd data = [1,2,3,4,5] s = pd.Series(data) print(s)

图片

2)从字典创建 Series,键作为索引

import pandas as pd data_dict = {'a':1,'b':2,'c':3} s = pd.Series(data_dict) print(s)

图片

3)指定索引创建Series​​​​​​​

import pandas as pddata = [1,2,3,4,5] s = pd.Series(data, index=['a','b','c','d','e'])print(s)

图片

Series的基本属性

  • values:返回 Series 中的数据值。
  • index:返回 Series 中的索引。
  • dtype:返回 Series 中数据的数据类型。
  • name:返回或设置 Series 的名称。

举例:定义一个series接口数据并指定索引和名称

data =[[1, 2, 3], [4, 5,6]]s = pd.Series(data, name='一维数组',index=['a','b'])print(f'值:{s.values}')print(f'索引:{s.index}')print(f'数据类型 {s.dtype}')print(f'名称 {s.name}')

图片

2. DataFrame

DataFrame 是一个二维的表格数据结构,具有标记的轴(行和列)。其中每一列相当于一个Series。

图片

创建 DataFrame

和Series结构一样默认索引从0开始,当然也可以指定索引。

1)从字典创建 DataFrame,字典的键是列名

import pandas as pddata_dict = {'name': ['lilei','lili','wanglei'],'age': [25,30,35],'city': ['shanghai','shenzhen','nanjing']} df = pd.DataFrame(data_dict)print(df)

图片

2)从列表的列表创建DataFrame

data = [ ['lilei',25], ['lili',30], ['wanglei',35] ] df = pd.DataFrame(data, columns=['Name','Age']) print(df)

图片

3)从Numpy 数组创建DataFrame并指定列名和索引

import numpy as np data = np.array([[1, 2], [3, 4], [5, 6]]) df = pd.DataFrame(data, columns=['A','B'],index=['a','b','c'])print(df)

图片

Series和DataFrame数据的常用函数和功能

1)head(n):返回前 n 个元素,默认返回前5个

图片

2)tail(n):返回后 n 个元素,默认返回后5个

图片

3)unique():返回 Series 中的唯一值(去掉重复的值)

图片

4)isnull():返回一个布尔 Series,指示每个值是否为 NaN

图片

5)dropna():删除所有 NaN值(numpy.nan)或者None值,返回一个新的数据

图片

举例:定义一个series结构数据,打印下上面方法获取的数据

data = [1,2,3,4,5,[6,7],[8],None,{'a':10}] s = pd.Series(data) print(f'前3个元素\n{s.head(3)}') print(f'后3个元素\n{s.tail(3)}') print(f'判断是否为null\n{s.isnull()}')

图片

举例:定义一个series结构数据,打印删除NaN值后的数据​​​​​​​

import numpy as np data = [1,2,3,4,5,None,np.nan] s = pd.Series(data) new_s =s.dropna() print(f'删除NaN值\n{new_s}')

图片

举例:定义一个series结构数据,打印去重后的数据​​​​​​​

data=[1,2,3,4,5,4,5,6]s=pd.Series(data)print(f'唯一值{s.unique()}')

图片

6)to_dict函数:将DataFrame数据转换为字典

字典的键和值对应的是列名和列值

举例:读取csv文件内容,并转换为字典​​​​​​​

import pandas as pd dataframe = pd.read_csv("1.csv")print(dataframe)#将DataFrame数据格式转换为字典print(dataframe.to_dict())

结果如下:

图片

7)选择列数据

import pandas as pd 
dataframe = pd.read_csv("1.csv")
  • 选择某一列数据

print(dataframe[‘Name’])#选择Nmae这一列print(dataframe.age)#选择Age这一列#通过Ioc函数选择Name这一列print(dataframe.loc[:,['Name']])

图片

返回的某一列的数据类型是一个Series类型,对某列数据可以做循环打印该列的值。

for i in dataframe.Name:

      print(i)
  • 选择多列

#选择Nmae,age这两列print(dataframe[['Name','age']]) 
#通过loc()函数选择Name和age两列print(dataframe.loc[:,['Name','age']])

8)选择行数据

使用方式类似于list的切片操作​​​​​​​

print(dataframe[0:3])#取前3行数据print(dataframe[-4:-2])#取倒数第4行和第5行print(dataframe[0:10:2])#取前10行中每2行取1个

通过iIoc函数获取多行数据

print(dataframe.iloc[:10,:])#取前10行数据

9)选择指定的行和列数据

通过Ioc函数取某些行和列数据​​​​​​​

print(dataframe.loc[0:3,['Name']])print(dataframe.loc[0:3,['Name','age']])

10)按条件选择

举例:筛选age列大于25的数据

print(dataframe[dataframe.age > 25])

举例:筛选性别为男的数据

print(dataframe[dataframe.sex =='man'])

举例: 筛选索引等于0的数据

print(dataframe[dataframe.index == 0])

举例:筛选性别为男并age大于25的数据

print(dataframe[(dataframe.sex =='man') & (dataframe.age > 25)])

举例:筛选年龄大于25的Name这一列的数据

print(dataframe[dataframe.age > 25].loc[:,['Name']])

11)sort_values函数:使用该函数进行排序

图片

参数介绍

  • by:传入单个字符串或字符串列表(1个或者多个列名),表示按照列名进行排序。
  • axis:默认为0。0表示按列的值排序,1表示按行的值排序;一般不使用
  • ascending:布尔值或布尔值列表,默认为True。True表示升序排序,False表示降序排序。如果是一个列表,则列表中的每个元素对应by参数中每个列的排序顺序。
  • inplace:布尔值,默认为False。如果为True,则直接修改原DataFrame并返回None;如果为False,则返回一个新的排序后的DataFrame副本。
  • kind:排序算法的选择,默认为'quicksort'。其他选项包括'mergesort'和'heapsort'。对于大数据集,'quicksort'通常是最快的,但不一定是最稳定的。
  • na_position:{'first', 'last'},默认为'last'。表示缺失值(NaN)应该被放在排序后的数组的开始还是结束。
  • ignore_index:布尔值,默认为False。如果为True,则结果DataFrame的索引将被重置为默认的整数索引。

测试代码:

1)按列排序(升序)

print(dataframe.sort_values(by='Name'))
print(dataframe.sort_values(by=['Name','age']))


2)按列排序(倒序)

print(dataframe.sort_values(by='age',ascending=False))

3)不同列排列顺序不同(比如第一列正序,第二列倒序)

print(dataframe.sort_values(by=['Name','age'],ascending=[True,False]))

12)insert函数:插入列数据

插入某一列数据,参数j介绍:

  • loc: 传入整数,代表插入在第几列(0代表第1列)

  • column:列名

  • value:每列的值(单个值表示每一行值相同;传入列表,列表中的元素对应每一行的值)

  • allow_duplicates:为True表示允许列名重复,否则不允许

图片

测试代码:​​​​​​​

dataframe.insert(2,'area','China')dataframe.insert(3,'area',['China','America','korea','japan','China','America','korea','japan'],allow_duplicates=True)print(dataframe)

结果:

图片

13)groupby函数:分组聚合

支持对一个或多个列的值进行分组,应用聚合函数(如求和、平均值、最大值、最小值等)或其他操作。类似于大家使用sql查询数据库语句时通过group by分组聚合一样。

参数介绍:

  1. by:指定要根据哪个字段进行分组。可以是一个列名或者包含多个列名的列表。默认值None,表示不分组。
  2. axis:指定分组的方向。0或index表示按列分组(即沿着行的方向进行分组)。1或columns表示按行分组(即沿着列的方向进行分组)。默认情况下是0,即按列分组。
  3. level:当DataFrame的索引为多重索引时,level参数指定用于分组的索引级别。可以传入多重索引中索引的下标(如0, 1, ...)或索引名。如果传入多个级别,则使用列表形式。level参数不能与by参数同时使用。
  4. as_index:指定分组后的结果是否将分组列的值作为索引。如果按单列分组,结果默认是单索引;如果按多列分组,结果默认是多重索引。将as_index设置为False可以重置索引为默认的整数索引(0, 1, ...)。
  5. sort:指定分组结果是否按照分组列的值进行排序。默认情况下是True,即按升序排列。将sort设置为False则不排序,这可能会提升性能。
  6. observed:指定是否观察数据的层次结构。在某些情况下,当分组列包含大量唯一值时,设置observed=True可以提高性能,因为它只考虑在数据中出现的值。
  7. dropna:默认情况下,分组列的NaN值在分组结果中不保留。将dropna设置为False可以保留NaN分组。

函数执行后返回的是DataFrameGrouyBy对象,该对象支持多个聚合函数,类似如下:

  1. sum():计算分组数据的总和。
  2. mean():计算分组数据的平均值。
  3. max():找出分组数据中的最大值。
  4. min():找出分组数据中的最小值。
  5. median():计算分组数据的中位数。
  6. std():计算分组数据的标准差,反映数据的离散程度。
  7. var():计算分组数据的方差,也是反映数据离散程度的一个指标。
  8. count():计算分组中非空(非NA/null)值的数量。
  9. first():返回分组中的第一个值。
  10. last():返回分组中的最后一个值。
  11. nth(n):返回分组中的第n个值,n可以是正数也可以是负数,负数表示从末尾开始计数。
  12. size():返回分组中的元素数量。
  13. prod():计算分组数据的乘积。
  14. nunique():计算分组中唯一值的数量。

此外,pandas的agg()函数允许你传入一个函数列表或字典,对分组数据应用多个聚合函数。例如:agg(['sum', 'mean', 'max']) 或者 agg({'某一列': ['sum', 'mean', 'max']})

举例:定义一个DataFrame的数据

import pandas as pd
data_dict = {'group': ['A', 'C', 'B', 'A', 'A', 'C', 'B', 'B', 'C'],
'name': ['lilei', 'lili', 'wanglei', 'wangning', 'wangling', 'wangming', 'wangyu', 'liyi', 'xiaolei'],
'age': [25, 30, 35,21,23,24,25,26,32],
'city': ['shanghai', 'shenzhen', 'nanjing','shanghai', 'shenzhen', 'nanjing','shanghai', 'shenzhen', 'nanjing']}
df = pd.DataFrame(data_dict)

1)按照单个group列分组,统计age列的汇总值

print(df.groupby(by='group')['age'].sum())

2)按照多个列分组后,统计age列汇总值,最大值,最小值等

#以下两种方式都可以
print(df.groupby(by=['group','city'])['age'].agg(['sum','max','min']))
print(df.groupby(by=['group','city']).agg({'age':['sum','max','min']}))

3)按照单个group列分组,统计age列的汇总值并添加为新的一列数据

我们可以使用transform函数对每个组应用一个聚合函数,该函数将返回与原始DataFrame形状相同的对象

#聚合后添加sum列
df['sum'] = df.groupby(by='group')['age'].transform('sum')
print(df)

4)按照单个group列分组,统计age列的汇总值,并使用filter函数过滤某些数据

# 只保留'age'列总和大于80的组
filtered =  df.groupby(by='group').filter(lambda x: (x['age'].sum() > 80))
print(filtered)

共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”

-----指水滴不断地滴,可以滴穿石头;

-----比喻坚持不懈,集细微的力量也能成就难能的功劳。

----感谢读者的阅读和学习,谢谢大家。

标签:python,Series,age,数据类型,dataframe,分组,DataFrame,print
From: https://blog.csdn.net/kymppcds/article/details/144619683

相关文章

  • 用Python实现经典游戏——飞机大战(代码附在文末)
    引言在Python中,Pygame是一个非常流行的游戏开发库,适合初学者入门。本文将带你一步步实现一个经典的“飞机大战”游戏,并逐步优化代码,增加关卡系统、难度递增等功能。通过本文,你将学习到如何使用Pygame创建游戏窗口、处理用户输入、实现精灵类、碰撞检测以及游戏逻辑的优化。1......
  • python毕设 家政服务管理系统程序+论文
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、选题背景关于家政服务管理系统的研究,现有研究多以传统的管理模式或特定技术框架下(如Javaweb)的实现为主 [1] 。专门针对Python语言来构建家政......
  • [Python学习日记-73] 面向对象实战1——答题系统
    [Python学习日记-73]面向对象实战1——答题系统简介需求模型——5w1h8c领域模型设计模型实现模型案例:年会答题系统简介    在学习完面向对象之后你会发现,你还是不会自己做软件做系统,这是非常正常的,这是因为计算机软件和系统的制作是一个系统性工程,在大学里面......
  • python毕设 旅游景区智能门票系统规划设计论文+程序
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、选题背景关于旅游景区智能门票系统规划设计的研究,现有研究多侧重于景区的数字化转型、售票方式的多样化等方面,如国内三亚景区利用人工智能、大......
  • 【Python逆向】深入Pyd逆向
    pyd文件是编译生成的Python扩展模块,是类似so、dll的一种Python文件。pyd文件无法像pyc文件那样恢复源码,只能通过逆向手段去恢复逻辑。一、理解pyd文件1.1编译pyd自己编译一个pyd保留符号来看。test.py:importbase64key=[ord(i)foriin"key"]res="GVhil......
  • 【Pandas】pandas Series nbytes
    Pandas2.2SeriesAttributes方法描述Series.index每个数据点的标签或索引Series.array对象底层的数据数组Series.values以NumPy数组的形式访问Series中的数据值Series.dtype用于获取PandasSeries中数据的类型(dtype)Series.shape用于获取PandasSeries的形状,即其维度信......
  • 【Pandas】pandas Series nbytes
    Pandas2.2SeriesAttributes方法描述Series.index每个数据点的标签或索引Series.array对象底层的数据数组Series.values以NumPy数组的形式访问Series中的数据值Series.dtype用于获取PandasSeries中数据的类型(dtype)Series.shape用于获取PandasSeries的形状,即其维度信......
  • 【Python GUI 编程】tkinter :Ttk 组合框 Combobox
    在本文中,将介绍如何创建一个tkinterCombobox组合框小部件,该小部件允许用户从一组值中选择一个值。Combobox组合框小部件是新增的Ttk主题小部件,是Entry文本框和Listbox列表框的组合。除了允许在一组值中选择一个值外,它还允许输入自定义值。创建组合框要创建组合框小部......
  • 使用 pickle 模块在 Python 中进行 pickling 和 unpickling
    pickle—Python对象序列化python 是一种广泛使用的通用高级编程语言。在本文中,我们将学习使用pickle模块在Python中进行pickling和unpickling。PythonPickle模块pickle模块用于实现二进制协议,用于序列化和反序列化Python对象结构。Pickli......
  • 【Python GUI 编程】tkinter:Ttk 选项卡 Notebook
    在本文中,将介绍如何使用TkinterNotebook小部件创建选项卡。Notebook是由TkinterTtk模块引入的强大小部件。允许开发者创建包含多个选项卡的界面,每个选项卡可以包含不同的内容。创建Notebook小部件,请使用如下构造函数:notebook=ttk.Notebook(master,**kw)添加选项卡......