首页 > 其他分享 >pandas:如何保存数据比较好?

pandas:如何保存数据比较好?

时间:2024-03-15 13:33:07浏览次数:19  
标签:df share 保存 ms test csv 数据 pandas loop

我们在使用pandas处理完数据之后,最终总是要把数据作为一个文件保存下来,
那么,保存数据最常用的文件是什么呢?
我想大部分人一定会选择csv或者excel

刚接触数据分析时,我也是这么选择的,不过,今天将介绍几种不一样的存储数据的文件格式。
这些文件格式各有自己的一些优点,希望本文能让你以后的数据存储方式能有不一样的选择,从而存储的更加专业。

1. 准备数据

本次使用的数据来自A股2023年全年的日交易数据。
数据下载地址:https://databook.top/。

导入数据:

import pandas as pd

fp = "d:/share/历史行情数据-不复权-2023.csv"

df = pd.read_csv(fp)
df

image.png
总共大约120多万条数据。

准备好测试数据之后,开始测试各种文件的效果。

2. CSV

使用pandas做数据分析时,保存数据最常用的格式一定是CSV(或者excel)。
因为CSV格式易于分享,用excel或者文本编辑器都能直接打开。

但是当数据集规模比较大时,它的磁盘利用率和读写效率究竟如何呢?
首先我们把准备的数据保存为一个测试用的test.csv文件。

df = pd.read_csv(fp)
df.to_csv("d:/share/test.csv", index=None)

看看文件大小:

ls .\test.csv


    目录: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  10:41:27      101411037 test.csv

test.csv文件大约:\(101411037/1024/1024 \approx 96.7MB\)

读取效率:

%%timeit
df = pd.read_csv("d:/share/test.csv")
1.73 s ± 54.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

写入的效率:

%%timeit
df.to_csv("d:/share/test.csv", index=None)
13.2 s ± 402 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

3. Pickle

Pickle格式是一种用于序列化和反序列化Python对象结构二进制格式
它的主要特点是能够将程序中运行的对象信息保存到文件中。

下面,我们先把准备的数据保存为一个测试用的test.pkl文件。

# pickle file
df = pd.read_csv(fp)
df.to_pickle("d:/share/test.pkl")

文件大小:

ls .\test.pkl


    目录: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  10:49:09      116904470 test.pkl

test.pkl文件大约:\(116904470/1024/1024 \approx 111.5MB\)

读取效率:

%%timeit
df = pd.read_pickle("d:/share/test.pkl")
136 ms ± 5.09 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

写入效率:

%%timeit
df.to_pickle("d:/share/test.pkl")
182 ms ± 7.42 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

4. Parquet

Parquet格式是一种列式存储格式,被广泛应用于大数据处理领域。
它采用了压缩和编码技术,能够有效地存储和压缩数据,同时保持数据的结构和模式。

下面,我们先把准备的数据保存为一个测试用的test.parquet文件。

# parquet file
df = pd.read_csv(fp)
df.to_parquet("d:/share/test.parquet")

文件大小:

ls .\test.parquet


    目录: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  10:52:08       32964728 test.parquet

test.parquet文件大约:\(32964728/1024/1024 \approx 31.4MB\)

读取效率:

%%timeit
df = pd.read_parquet("d:/share/test.parquet")
200 ms ± 8.54 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

写入效率:

%%timeit
df.to_parquet("d:/share/test.parquet")
1.23 s ± 62.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

5. Feather

Feather格式是一种高速、轻量且易于使用的二进制文件格式,专门用于存储数据帧。
Feather的主要目标是提供高性能的读写操作。

下面,我们先把准备的数据保存为一个测试用的test.feather文件。

# feather file
df = pd.read_csv(fp)
df.to_feather("d:/share/test.feather")

文件大小:

ls .\test.feather


    目录: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  11:17:15       57347098 test.feather

test.feather文件大约:\(57347098/1024/1024 \approx 54.7MB\)

读取效率:

%%timeit
df = pd.read_feather("d:/share/test.feather")
130 ms ± 5.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

写入效率:

%%timeit
df.to_feather("d:/share/test.feather")
277 ms ± 14.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

6. 总结

pandas能够保存的文件格式有很多,比如还有XMLJSONHTML等等,
上面列出的4种是我认为比较典型,且在数据分析领域用的比较多的格式。

4种格式的比较总结如下:

磁盘占用 读取效率 写入效率
csv 96.7 MB 1.73 s ± 54.7 ms 13.2 s ± 402 ms
pickle 111.5 MB 136 ms ± 5.09 ms 182 ms ± 7.42 ms
parquet 31.4 MB 200 ms ± 8.54 ms 1.23 s ± 62.4 ms
feather 54.7 MB 130 ms ± 5.29 ms 277 ms ± 14.8 ms

综合来看,当我们的数据量不大的时候,用CSV格式比较好,分享方便,可以用多种编辑器直接打开查看。
当数据规模变大了之后,如果数据需要长期存储,而且不需要经常的更新写入,那么用parquet格式(它的磁盘占用最低,读取性能好,写入性能略逊);
如果只要短期存储的话,用fetdher格式更好(磁盘占用不算高,读写性能都不错)。

至于pickle格式,它的读写性能也不错,但它的最大优势是可以保存python对象的状态,只用来保存数据的话,这个优势难以体现。
而且它的磁盘占用比较大,单纯保存数据的话,不建议使用这种格式。

标签:df,share,保存,ms,test,csv,数据,pandas,loop
From: https://www.cnblogs.com/wang_yb/p/18075201

相关文章

  • LightningChart为运输和物流行业创建数据可视化应用
    使用LightningChart为运输和物流行业创建数据可视化应用程序查看运输和物流图表用于构建物流应用程序的LightningChart组件开发人员可以通过轻松集成LightningChart.NET或JavaScript图表预构建组件,为运输和物流行业构建数据可视化应用程序......
  • springBoot 配置 国产达梦数据库
    1.pom<!--达梦数据库驱动--> <dependency> <groupId>com.dm</groupId> <artifactId>DmJdbcDriver18</artifactId> <version>1.8</version> </dependency>maven中央仓库里面没有,需要手动安装到maven本地仓库mvni......
  • 【数据挖掘】实验2:R入门2
    实验2:R入门2一:实验目的与要求1:熟悉和掌握R数据类型。2:熟悉和掌握R语言的数据读写。二:实验内容1:R数据类型【基本赋值】Eg.1代码:x<-8x Eg.2代码:a='city'a【缺省值】Eg.1代码:(1)生成向量z;(2)返回z的结果;(3)识别z的值是否有缺失值。z<-c(1:5,NA)zis.na(......
  • 【数据挖掘】实验1:R入门(内含详细R和RStudio安装教程)
    实验1:R入门一:实验目的与要求1:根据上课PPT内容,掌握课堂知识并进行代码练习操作,提供练习过程和结果。2:可COPY代码运行结果直接提交,如涉及到输出图等可截图。二:实验内容1:R语言的下载与安装1.1:安装R语言从清华镜像网站(TheComprehensiveRArchiveNetwork)处下载Windows版......
  • c/c++数据对齐问题
    c/c++如何在栈上保证数据对齐:#include<iostream>struct__attribute__((aligned(16)))X{}; intmain(){Xx{};std::cout<<((longlong)&x)%16;}汇编代码X86-64(仅开头部分):main:pushrbpmovrbp,rspsubrsp,16可以看到并没有做什么特别操作,仅仅准备......
  • 人工智能时代,Java从业者必学科目:数据机构和算法,以及AI算法和技能
    【晋升攻略】Java开发者的AI时代高薪加速器在AI时代,Java从业者必学的科目包括数据结构与算法、AI算法和相关技能,这是因为这些知识和技能是构建和发展人工智能应用的基础。具体分析如下:1.数据结构与算法:数据结构和算法是计算机科学的核心,对于编写高效、可维护的代码至关重......
  • mysql:导入数据
    第一步:导入向导第二部第二步:选择数据格式点击下一步下一步:选择要导入哪一个下一步:点击开始点击完成即可,点击sheet1,就有了......
  • 七 超级数据查看器 讲解稿 详情2 搜索功能
    七 超级数据查看器 讲解稿  详情2搜索功能点击此处以新页面打开B站播放当前教学视频百度手机助手APP下载地址讲解稿搜索菜单。在这里可以完成搜索、定位等功能,比如我们在这里搜索幸福。点击显示字段搜索,随后会在当前显示的列当中,搜索关键字幸福,就是......
  • 如何确保华企盾DSC数据防泄密系统的安全性和可靠性?
    华企盾DSC数据防泄密系统采用一系列技术和措施以保证系统的安全性和可靠性:文件防冒充:DSC支持3种识别方式:校验值、数字签名、进程属性值,严格防止非法进程冒充合法进程进行文件的窃取或通过网络发送出去。当数字签名或校验值遭到破坏或者修改时,系统自动判断为非加密进程,则无法读......
  • Jemter查询数据库
    1、导入mysql驱动在mysql官网下载mysql驱动https://www.mysql.com/;参考博客,https://blog.csdn.net/Li_Ya_Fei/article/details/104583417,将下载下来的jar包存放在apache-jmeter-5.3\lib\ext下后重启jemter。2、创建JDBCConnectionConfiguration  3、创建JDBCrequest......