1、介绍
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
2、Series类
这是一个一维数据对象
3、DataFrame
是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
3.1 初始化
def __init__(
self,
data=None,
index=None,
dtype: Dtype | None = None,
name=None,
copy: bool | None = None,
fastpath: bool = False,
)
-
data:一组数据(ndarray、series, map, lists, dict 等类型)。
-
index:索引值,或者可以称为行标签。
-
columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
-
dtype:数据类型。
-
copy:拷贝数据,默认为 False。
3.2 方法
(1)head
def head(self: NDFrameT, n: int = 5) -> NDFrameT:
- 返回一个DataFrame对象,包括当前DataFrame的前n行,默认是5行
(2)tail
def tail(self: NDFrameT, n: int = 5) -> NDFrameT:
- 返回一个DataFrame对象,包括当前DataFrame的最后n行,默认是5行
(3)loc
def loc(self) -> _LocIndexer:
loc[0][0]
loc[0]
- 指定行,指定列的数据
- 如果是loc[i],返回的是pandas.core.series.Series类型
- 如果是loc[i][j],返回的是直接的值,但是类型是numpy限定的类型,比如numpy.int64
(4)shape
def shape(self) -> tuple[int, int]:
- 返回一个元组,包括行数和列数
4、常用函数
df = pd.read_csv('F:/burp_log/save_csv')
- read_csv函数读取的就是DataFrame对象
读取数据:
函数 | 说明 |
---|---|
pd.read_csv(filename) | 读取 CSV 文件; |
pd.read_excel(filename) | 读取 Excel 文件; |
pd.read_sql(query, connection_object) | 从 SQL 数据库读取数据; |
pd.read_json(json_string) | 从 JSON 字符串中读取数据; |
pd.read_html(url) | 从 HTML 页面中读取数据。 |