第1章:初识Pandas
本章将带领读者初步了解Pandas库,介绍其基本概念、功能特点和安装方法,同时学习Pandas的核心数据结构:Series
和DataFrame
。通过本章的学习,您将为后续章节的深入学习打下坚实的基础。
1.1 什么是Pandas
Pandas是Python中用于数据分析和处理的强大工具库,主要功能包括:
- 提供高效的多维数据结构
Series
和DataFrame
。 - 支持丰富的数据操作功能,如清洗、转换、过滤和统计。
- 能够与多种数据格式无缝交互,如CSV、Excel、JSON、SQL等。
- 具备良好的性能表现,支持处理大规模数据。
特点概述:
- 简单易用:提供了类似Excel操作的便捷API。
- 灵活性强:支持多种数据类型和复杂的数据处理逻辑。
- 高效:基于NumPy实现,性能优越。
1.2 安装与配置
1.2.1 安装Pandas
Pandas可以通过Python的包管理工具pip
或conda
安装:
# 使用pip安装
pip install pandas
# 使用conda安装
conda install pandas
1.2.2 验证安装
安装完成后,可以通过以下命令验证Pandas的版本:
import pandas as pd
print(pd.__version__)
1.2.3 常用依赖库
Pandas的部分功能依赖其他第三方库,如:
NumPy
:数值计算基础库。Matplotlib
:数据可视化支持。openpyxl
、xlrd
:Excel文件操作支持。
确保这些库安装完成以获得完整功能支持。
1.3 核心数据结构
Pandas的核心数据结构是Series
和DataFrame
,它们分别代表一维和二维数据。以下详细介绍这两种结构的特点和用法。
1.3.1 Series:一维数据结构
定义
Series
是Pandas中表示一维数据的结构,类似于Python的列表或字典,但具有更强大的功能。
特点:
- 每个数据点都带有一个索引。
- 支持多种数据类型。
创建一个Series:
import pandas as pd
# 从列表创建
s1 = pd.Series([10, 20, 30, 40])
print(s1)
# 从字典创建
s2 = pd.Series({'a': 10, 'b': 20, 'c': 30})
print(s2)
# 指定索引
s3 = pd.Series([100, 200, 300], index=['x', 'y', 'z'])
print(s3)
输出:
0 10
1 20
2 30
3 40
dtype: int64
a 10
b 20
c 30
dtype: int64
x 100
y 200
z 300
dtype: int64
操作与方法:
- 访问数据:
s1[0]
或s3['x']
- 统计信息:
s1.sum()
、s1.mean()
- 类型转换:
s1.astype(float)
1.3.2 DataFrame:二维数据结构
定义
DataFrame
是Pandas中表示二维数据的结构,可以理解为“电子表格”或“SQL表”的形式。
特点:
- 行索引(index)和列名(columns)定义。
- 支持多种数据源输入。
创建一个DataFrame:
# 从字典创建
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)
# 从嵌套列表创建
data = [['Alice', 25, 'New York'], ['Bob', 30, 'Los Angeles'], ['Charlie', 35, 'Chicago']]
df2 = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df2)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
操作与方法:
- 访问数据:
df['Name']
、df.loc[0]
、df.iloc[0, 1]
- 增加列:
df['Salary'] = [50000, 60000, 70000]
- 删除行/列:
df.drop('Age', axis=1)
1.4 总结与展望
本章主要介绍了Pandas的基本概念、安装方法以及核心数据结构Series
和DataFrame
。这些内容是学习Pandas的基础。通过理解这些内容,您已经可以尝试一些简单的数据操作。下一章将带您学习如何操作和管理数据,为数据分析工作打下坚实的基础。