pd.DataFrame
是pandas
库中用于处理二维数据结构(表格型数据)的一个重要类。以下是关于它的详细介绍:
一、创建 DataFrame 对象
- 从列表创建
- 可以使用一个嵌套的列表来创建
DataFrame
。例如:import pandas as pd data = [['Alice', 25], ['Bob', 30]] df = pd.DataFrame(data, columns=['Name', 'Age'])
在这个例子中,
data
是一个包含两个子列表的列表,每个子列表代表一行数据。columns
参数用于指定列名,这样就创建了一个具有两列(Name
和Age
)的DataFrame
。
- 可以使用一个嵌套的列表来创建
- 从字典创建
- 使用字典来创建
DataFrame
是一种很常见的方式。字典的键将成为列名,值为对应的列数据。例如:data_dict = {'Name': ['Charlie', 'David'], 'Age': [35, 40]} df = pd.DataFrame(data_dict)
这里的
data_dict
字典有两个键Name
和Age
,每个键对应一个包含两个元素的列表,用于创建一个包含两行两列的DataFrame
。
- 使用字典来创建
-
读取外部数据创建
pandas
支持从多种文件格式(如 CSV、Excel、SQL 数据库等)读取数据并创建DataFrame
。以读取 CSV 文件为例:df = pd.read_csv('data.csv')
假设
data.csv
文件存在于当前目录下,read_csv
函数会读取文件内容并将其转换为DataFrame
对象。
二、DataFrame 的基本属性和方法
- 属性
shape
属性:返回一个元组,表示DataFrame
的行数和列数。例如df.shape
将返回(行数, 列数)
。columns
属性:返回列名的索引对象。可以通过df.columns
查看列名列表,并且可以对其进行修改来重命名列。index
属性:返回行索引对象。默认情况下,行索引是从 0 开始的整数序列,但可以根据需要进行设置和修改。
- 方法
head()
和tail()
方法:用于查看DataFrame
的前几行(head()
)和后几行(tail()
)数据。例如df.head(3)
会返回DataFrame
的前三行,这在快速查看数据结构时非常有用。describe()
方法:用于计算DataFrame
中数值列的基本统计信息,如计数、均值、标准差、最小值、四分位数和最大值等。例如df.describe()
会生成一个包含这些统计信息的新DataFrame
。sort_values()
方法:用于按照指定列的值对DataFrame
进行排序。例如df.sort_values(by='Age', ascending=False)
会按照Age
列的值对DataFrame
进行降序排序。
三、数据访问和操作
- 按列访问
- 可以通过列名来访问
DataFrame
中的列。例如df['Name']
将返回Name
列的数据,返回的数据类型是pandas.Series
。也可以通过df.Name
来访问列(前提是列名是合法的 Python 变量名)。 - 可以对列进行修改。例如
df['Age'] = df['Age'] + 1
会将Age
列的每个元素都加 1。
- 可以通过列名来访问
- 按行访问
- 可以使用
iloc
(基于整数位置)和loc
(基于标签)来访问行。例如df.iloc[0]
会返回第一行数据(以Series
形式),df.loc[0]
在默认行索引为整数且从 0 开始的情况下也返回第一行数据。 - 可以使用切片操作来获取多行数据。例如
df.iloc[0:2]
会返回前两行数据。
- 可以使用
- 条件筛选
- 可以根据条件来筛选
DataFrame
中的数据。例如df[df['Age'] > 30]
会返回Age
列中大于 30 的行组成的DataFrame
。
- 可以根据条件来筛选
pd.DataFrame
是pandas
中非常强大的数据结构,在数据处理、分析和可视化等任务中都有广泛的应用。
标签:Name,df,Age,知识,DataFrame,pd,data From: https://blog.csdn.net/m0_52951519/article/details/143622842