python标准库模块 pickle 详解

时间：2024-09-17 16:47:02浏览次数：15

标签：python data Python 详解对象 model 序列化 pickle

什么是 pickle 模块？

pickle 是 Python 的一个标准库，用于序列化和反序列化 Python 对象。所谓序列化，就是将一个 Python 对象转换成字节流，以便存储到磁盘或通过网络传输。反序列化则是将字节流恢复为原来的 Python 对象。

为什么使用 pickle？

保存 Python 对象： 可以将 Python 中的各种复杂对象（如列表、字典、自定义类等）保存到磁盘，以便以后再次使用。
传递对象： 可以通过网络传输 pickle 序列化的数据，实现不同进程或不同机器之间的数据共享。

如何使用 pickle？

序列化（将对象转换为字节流）

import pickle

# 创建一个 Python 对象
data = {'a': [1, 2, 3], 'b': ('string', 10.0)}

# 将对象序列化到文件
with open('data.pkl', 'wb') as f:
    pickle.dump(data, f)

pickle.dump(data, f)：将对象 data 序列化，并写入到文件对象 f 中。

反序列化（将字节流转换为对象）

import pickle

# 从文件中读取序列化数据
with open('data.pkl', 'rb') as f:
    data = pickle.load(f)

# 此时 data 就是之前保存的字典对象
print(data)

pickle.load(f)：从文件对象 f 中读取序列化数据，并将其反序列化为 Python 对象。

pickle 的局限性

平台依赖性： pickle 产生的字节流是平台相关的，在不同的 Python 版本或不同的操作系统上可能无法兼容。
安全性： pickle 并不安全，如果加载不受信任的 pickle 文件，可能会执行恶意代码。
不能序列化所有对象： 一些对象（如文件对象、数据库连接等）是无法被 pickle 序列化的。

使用示例

保存机器学习模型

import pickle
from sklearn.linear_model import LinearRegression

# 创建一个线性回归模型
model = LinearRegression()
# 训练模型（假设数据已经准备好了）
model.fit(X_train, y_train)

# 保存模型
with open('model.pkl', 'wb') as f:
    pickle.dump(model, f)

# 之后可以加载模型进行预测
with open('model.pkl', 'rb') as f:
    loaded_model = pickle.load(f)
    y_pred = loaded_model.predict(X_test)

保存实验结果

import pickle

# 实验结果
results = {'accuracy': 0.92, 'precision': 0.85, 'recall': 0.90}

# 保存结果
with open('results.pkl', 'wb') as f:
    pickle.dump(results, f)

总结

pickle 模块是 Python 中非常有用的工具，可以方便地保存和恢复 Python 对象。但在使用时需要注意其局限性，特别是安全性问题。对于需要长期保存或在不同环境之间共享的数据，建议使用更可靠的格式，如 JSON 或 YAML。

重要提示：

安全性： 永远不要加载来自不受信任来源的 pickle 文件。
平台依赖性： 如果需要跨平台共享数据，可以考虑使用 JSON 或 YAML 等更通用的格式。
大型数据： 对于大型数据，pickle 可能不是最优选择，可以考虑使用 HDF5 等专门用于存储大型数值数据的格式。

标签：python,data,Python,详解,对象,model,序列化,pickle
From： https://www.cnblogs.com/litifeng/p/18417297

Python使用starmap函数批量更新数据库
在数据库操作中，有时候需要对多条记录进行批量更新操作，而这些记录的更新逻辑可能是相同的，只是参数不同。starmap函数可以更加高效地实现批量更新数据库的操作。importsqlite3fromitertoolsimportstarmap#连接数据库conn=sqlite3.connect('example.db')cursor=conn......
Transformer详解
1Transformer结构https://jalammar.github.io/illustrated-transformer/Transformer一个巨大的优点是：模型在处理序列输入时，可以对整个序列输入进行并行计算，不需要按照时间步循环递归处理输入序列。1.1Transformer宏观结构Transformer可以看作是seq2seq模型的一种，对比之前的RNN，......
Python 之函数
函数参数位置参数: defpower(x):默认参数: defpower(x,n=2): 默认参数必须指向不变对象！可变参数: defcalc(*numbers):关键字参数: defperson(name,age,**kw):命名关键字参数:defperson(name,age,*,city,job):参数组合:在Python中定义函数，可以用必选参数、默认参数......
C++内存管理详解：各类变量的存储区域
在C++中，变量的存储位置取决于它们的类型和生命周期。那么不同的各个变量究竟存储在哪个区域呢？1.不同类型的变量我们首先从变量类型的不同来说明：1.全局变量和静态变量 -存储区：全局/静态区（静态区）-说明：全局变量（包括文件级和函数级的）和使用`static`关键字声明的变......
二分详解——学习笔记
首先，使用二分有几个前提：具有单调性要求“最小的最大”或“最大的最小”其次，还要分清楚二分查找与二分答案的区别：二分查找：在某区间使用二分的思想进行查找二分答案：在答案的区间中使用二分的思想并判断从而找到最优解同时还要处理好二分的边界。接下来来理解一下......
python 提取出sql语句中where的值
使用正则表达式来提取SQL语句中的WHERE条件的值。假设你的SQL语句格式比较标准，你可以使用以下Python代码来提取WHERE子句中的值。importredefextract_where_clause(sql_query):#使用正则表达式提取WHERE子句中的条件where_clause_pattern=re.compile(r'......
跟着问题学10——RNN详解及代码实战
1循环神经网络RecurrentNeuralNetwork什么是序列信息呢？通俗理解就是一段连续的信息，前后信息之间是有关系地，必须将不同时刻的信息放在一起理解。比如一句话，虽然可以拆分成多个词语，但是需要将这些词语连起来理解才能得到一句话的意思。RNN就是用来处理这些序列信息的任务......
[Python手撕]合并 K 个升序链表
#Definitionforsingly-linkedlist.#classListNode:#def__init__(self,val=0,next=None):#self.val=val#self.next=nextclassSolution:defmergeKLists(self,lists:List[Optional[ListNode]])->Optional[ListNode]:......
【MySQL】MySQL中JDBC编程——MySQL驱动包安装——（超详解）
前言：......
指针详解（中秋版）
久违的键盘声，熟悉的思绪，仿佛时间在这一刻凝固。距离我上一次敲击键盘写下文字，已不知过了多少个日夜。但文字的魅力就在于，它总能跨越时间的长河，将我们的心灵再次相连。今天，我带着满心的感慨与新的故事，重新坐到了屏幕前。让我们一起，再次启程，探索文字的奥秘。（一）理解......