pandas常用数据格式IO性能对比

标签：IO hdf5 import t0 pd time 数据格式 data pandas

前言

本文对pandas支持的一些数据格式进行IO（读写）的性能测试，大数据时代以数据为基础，经常会遇到操作大量数据的情景，数据的IO性能尤为重要，本文对常见的数据格式csv、feather、hdf5、jay、parquet、pickle性能进行对比。

csv

CSV（Comma-Separated Values）是一种用于存储表格数据的简单文件格式。在 CSV 文件中，每一行通常代表一条记录，字段（列）由逗号分隔。尽管可以使用其他分隔符（如制表符、分号等），逗号是最常见的分隔符。

import time
import pandas as pd

templates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')

t0 = time.time()
df.to_csv("data.csv")
print('csv写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_csv("data.csv")
print('csv读时间 ', time.time()-t1)

测试632MB的hdf5运行结果：
csv写时间 9.340209722518921
csv读时间 5.414996147155762

feather

Feather 是一种高效的列式存储格式，专门用于快速读写数据框（DataFrame）。它是由 Apache Arrow 项目开发的，旨在提高数据处理的速度和效率，特别是在大型数据集的情况下。

import time
import pandas as pd

templates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')

t0 = time.time()
df.to_feather("data.feather")
print('feather写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_feather("data.feather")
print('feather读时间 ', time.time()-t1)

测试632MB的hdf5运行结果：
feather写时间 1.2748804092407227
feather读时间 5.084072828292847

hdf5

HDF5（Hierarchical Data Format version 5）是一种用于存储和管理大型、复杂的数据集合的文件格式。

import time
import pandas as pd

templates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')

t0 = time.time()
df.to_hdf("data.hdf5", 'table')
print('hdf写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_hdf("data.hdf5", 'table')
print('hdf读时间 ', time.time()-t1)

测试632MB的hdf5运行结果：
hdf写时间 4.227152109146118
hdf读时间 1.985311508178711

jay

Jay 格式（通常称为 Jay Data）是一种具有可扩展性的数据交换格式，主要用于存储和传输数据。

import time
import pandas as pd
import datatable as dt
templates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')

t0 = time.time()
dt.Frame(df).to_jay("data.jay")
print('jay写时间 ', time.time()-t0)
t1 = time.time()
data_jay = dt.fread("data.jay")
print('jay读时间 ', time.time()-t1)

测试632MB的hdf5运行结果：
jay写时间 1.4829316139221191
jay读时间 0.0009965896606445312

parquet

Parquet 是一种列式存储文件格式，主要用于数据处理和分析场景。它是 Apache Hadoop 生态系统中的一个重要组成部分，设计用来支持高效的数据存储和检索。

import time
import pandas as pd

templates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')

t0 = time.time()
df.to_parquet("data.parquet")
print('parquet写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_parquet("data.parquet")
print('parquet读时间 ', time.time()-t1)

测试632MB的hdf5运行结果：
parquet写时间 1.8439412117004395
parquet读时间 5.116466522216797

pickle

pickle 是 Python 的标准库之一，用于序列化（将 Python 对象转换为字节流）和反序列化（将字节流转换回 Python 对象）。

import time
import pandas as pd

templates_path = r'./data.hdf5'
df = pd.read_hdf(templates_path, 'table')

t0 = time.time()
df.to_pickle("data.pickle")
print('pickle写时间 ', time.time()-t0)
t1 = time.time()
df2 = pd.read_pickle("data.pickle")
print('pickle读时间 ', time.time()-t1)

测试632MB的hdf5运行结果：
pickle写时间 3.7283213138580322
pickle读时间 1.2415409088134766

测试结果汇总

格式	csv	feather	hdf5	jay	parquet	pickle
632M写	9.34	1.27	4.22	1.48	1.84	3.72
632M读	5.41	5.08	1.98	0.0009	5.11	1.24
3.6G写	40.58	7.45	*	10.05	9.22	4.02
3.6G读	34.43	4.43	*	0.0019 (5.44**)	4.82	3.33
3.6Ghdf5占用空间	3.65G	0.97G	3.6G	3.75G	1.01G	3.05G

*数据中包含Long格式数据，无法保存，未能完成测试
**数据需要经过处理才能达到原始数据格式，加上处理耗时

总结

本测试基于python语言，对于其他语言可能不适用。

对储存空间要求较高，推荐使用 feather
对读写速度要求较高，推荐使用 pickle

标签：IO,hdf5,import,t0,pd,time,数据格式,data,pandas
From： https://blog.csdn.net/qq_35789981/article/details/142787734