将多个文件并行读取到 Pyspark 中的单独数据帧中

时间：2024-07-26 13:42:50浏览次数：20

我正在尝试将大型 txt 文件读入数据帧。每个文件大小为 10-15 GB，

因为 IO 需要很长时间。我想并行读取多个文件并将它们放入单独的数据帧中。

我尝试了下面的代码

from multiprocessing.pool import ThreadPool
def read_file(file_path):
    return spark.read.csv(file_path)

pool = ThreadPool(10)
df_list = pool.starmap(read_file,[[file1,file2,file3...]])

但它给出了 pickel 错误。我该怎么做？，有什么替代方案可以满足我的要求吗？

我想并行读取多个文件并将它们放入单独的数据帧中。

在尝试使用多处理时遇到 pickle 错误，因为它与 PySpark 的分布式特性不兼容。PySpark 已经提供了在工作节点之间并行化操作（包括读取文件）的机制。

以下是如何并行读取多个文件并将它们存储在单独的数据帧中的方法：

from pyspark.sql import SparkSession

# 初始化 SparkSession
spark = SparkSession.builder.appName("ParallelFileReads").getOrCreate()

# 文件路径列表
file_paths = ["file1", "file2", "file3", ...]

# 并行读取文件到单独的数据帧
dataframes = {}
for file_path in file_paths:
    df = spark.read.csv(file_path)
    dataframes[file_path] = df

# 现在可以通过文件名访问每个数据帧
for file_path, df in dataframes.items():
    print(f"数据帧 {file_path}:")
    df.show()

此代码的工作原理：

创建 SparkSession： 这将启动 PySpark 环境。
定义文件路径： 列出要读取的所有文件路径。
循环并读取： 它循环遍历文件路径，为每个文件创建一个数据帧，并将数据帧存储在字典中。字典键是文件名，这使得以后更容易识别每个数据帧。

此方法利用了 PySpark 的分布式特性，而无需使用多处理。Spark 将自动在工作节点之间分配文件读取任务，从而实现并行化和高效地处理大型文件。

其他提示：

使用分区： 如果的文件特别大，请考虑在读取数据时使用 .option("numPartitions", ...) 指定分区数。这可以进一步提高性能。
Parquet 文件： 为了获得更好的性能和效率，请考虑将数据存储在 Parquet 等列式格式中，而不是 CSV。

请记住，根据的集群资源和文件大小调整 Spark 配置（例如执行器数量、执行器内存）以获得最佳性能。

标签：python,pyspark,databricks
From： 78794702

Python 中的面向对象编程
一.介绍在本文中，我们将使用Python中的类和对象来探索基本的OOP概念。面向对象编程(OOP)是一种强大的方法，可帮助开发人员组织代码，使其易于理解、重用和维护。Python是一种灵活的语言，可以很好地支持OOP概念。1.类和对象类是创建对象的蓝图。它定义了该类的对象将......
学习资源系列之《Python深度学习基于PyTorch》
前言近期应部分读者朋友的强烈邀请，希望推荐一本python深度学习实操的书籍。呐，今天为大家推荐小编偶然发现的这一本珍藏好书：《Python深度学习基于PyTorch》，文末附电子版获取方式《Python深度学习基于PyTorch》BriefIntroduction前言面对众多的深......
如何使用Python实现语音转文字/字幕
文章目录......
Python 教程（三）：字符串特性大全
目录专栏列表前言1.字符串基础2.字符串方法字符串查询字符串修改字符串切片3.字符串格式化旧式格式化（`%`操作符）`str.format()`方法f-string（Python3.6+）4.字符串编码5.Unicode和ASCII6.正则表达式7.字符串比较8.字符串连接9.字符串不可变性10.字符串的内......
python+flask计算机毕业设计新冠肺炎疫情人员统计及打卡系统（程序+开题+论文)
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景自新冠肺炎疫情爆发以来，全球公共卫生体系面临前所未有的挑战。疫情防控工作的高效开展，依赖于对人员流动、健康状况及疫情数据的精准掌握与......
python+flask计算机毕业设计基于智能匹配的体育场馆预约系统App（程序+开题+论文）
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着全民健身意识的日益增强，体育场馆作为民众参与体育活动的重要场所，其利用率与便捷性成为了社会关注的焦点。然而，传统的体育场馆预约方式......
Vonage 语音 API - 使用 python 出现错误
我正在尝试使用vonage语音api模拟语音通话。我正在尝试使用python来做到这一点。我创建了一个.env文件并更新了应用程序id和私钥值的值，而不是路径（不确定从哪里获取它）。这是下面编写的代码：#!/usr/bin/envpython3importosfromos.pathimportjoin,dirname......
数据清洗与预处理：使用 Python Pandas 库
数据清洗与预处理：使用PythonPandas库1.简介数据清洗与预处理是数据科学和机器学习中必不可少的步骤。它涉及识别和处理原始数据中的错误、不一致和缺失值，以确保数据的质量和可靠性。Python的Pandas库提供了强大的工具，简化了数据清洗和预处理的过程。2.数据加载与探索......
【Python】成功解决：`FileExistsError: [Errno 17] File exists: ‘xxx’`
【Python】成功解决：FileExistsError:[Errno17]Fileexists:‘xxx’在Python编程中，处理文件和目录是常见的任务之一。然而，当我们尝试执行某些文件操作，如创建新文件或目录时，如果目标文件或目录已经存在，就可能会遇到FileExistsError异常。这个错误通常伴随着消息[Errno1......
(三)Python基本数据类型
Python的基本数据类型包括整数类型、浮点数类型和复数类型。下面分别介绍这些数据类型以及数值运算操作符和数值运算函数。整数类型（int）：整数类型表示没有小数部分的数字，可以是正数、负数或零。例如：a=5b=-3c=02.浮点数类型（float）：浮点数类型表示有小数部分的数字，可以......

将多个文件并行读取到 Pyspark 中的单独数据帧中

相关文章

赞助商

阅读排行