MATLAB 不读取 Parquet 文件，只是显示“无法读取 Parquet 文件”。我怎么还能读到它？

时间：2024-07-25 06:27:17浏览次数：23

标签：python matlab parquet

我已经使用 Python polars ' .write_parquet 方法创建了一个镶木地板文件。它可以被Python读回，没有问题，MATLAB也可以使用 读取信息 关于 parquetinfo 文件，没有问题。

但是，当我在MATLAB中运行 parquetread 实际加载时数据，它很快失败，并出现错误“无法读取 Parquet 文件”，没有进一步的详细信息。

我四处搜索，只找到这个 Mathworks 论坛帖子没有解决方案。

如何我可以使用 Python 创建可由 MATLAB 读取的 parquet 文件吗？

看起来你遇到了 MATLAB 中 parquetread 函数的一个已知问题。此问题似乎会影响使用 pyarrow 引擎（polars 的默认引擎）编写的某些 Parquet 文件。MATLAB 论坛帖子中提到的问题表明此问题与字典列有关，但它也可能影响其他 Parquet 文件。

以下是一些可以尝试的解决方法：

1. 在 polars 中使用 fastparquet 引擎：

fastparquet 是 polars 支持的另一种 Parquet 引擎。尝试使用 fastparquet 引擎保存你的数据帧，看看 MATLAB 是否可以读取它：

```python import polars as pl

# 保存数据帧使用 fastparquet 引擎 df.write_parquet("my_data.parquet", engine="fastparquet") ```

如果这可行，那么你可以考虑在 polars 中继续使用 fastparquet 引擎，或者看看 MATLAB 是否发布了针对此问题的修复程序。

2. 将数据转换为 pandas，然后使用 pyarrow 写入：

有些用户报告说，首先将 polars 数据帧转换为 pandas 数据帧，然后使用 pyarrow 库写入 Parquet 文件可以解决此问题：

```python import polars as pl import pandas as pd import pyarrow as pa import pyarrow.parquet as pq

# 将 polars 数据帧转换为 pandas 数据帧 pdf = df.to_pandas()

# 使用 pyarrow 将 pandas 数据帧写入 Parquet 文件 table = pa.Table.from_pandas(pdf) pq.write_table(table, 'my_data.parquet') ```

此方法涉及额外的转换步骤，但它可能与 MATLAB 的 parquetread 函数更加兼容。

3. 使用其他文件格式：

如果以上方法都不起作用，那么你可以考虑使用 MATLAB 支持的不同文件格式，例如 CSV 或 HDF5。

要保存为 CSV： python df.write_csv("my_data.csv") 并在 MATLAB 中使用 csvread 函数。
要保存为 HDF5： python df.write_hdf("my_data.h5", key="data") 并在 MATLAB 中使用 h5read 函数。

这些替代文件格式可能无法提供与 Parquet 相同的性能和存储效率，但它们可以作为一种解决方法，直到解决了 MATLAB 中的兼容性问题。

标签：python,matlab,parquet
From： 78790220

使用 python Flask 发送邮件中的图像
我想发送一封包含html代码和图像的电子邮件但在gmail中它说图像已附加，我不想要这样，我只想要电子邮件正文中的图像。html_content=f"<imgsrc="cid:banner"alt=""style="width:80%;">"msg=MIMEMultipart('related')html_part=MIMEText(html_c......
在 python requests modul 中，如何检查页面是否使用“POST”方法或“GET”方法
如何使用python“requests”模块检查页面是否使用“GET”方法或“POST”方法。我期望输出为True或False，或者GET或Post预期代码：importrequestsurl=f"www.get_example.com"response=requests.get(url)ifresponse.check_get==True:print("get")你......
VS Code Python - 如果括号（括号、大括号等）未关闭，内联建议不起作用
我遇到的问题是，当我在未闭合的括号或方括号“内部”开始变量名称时，VSCode将不会显示任何建议。但是，如果在键入变量名称之前闭合括号，则建议效果很好。如果我可以避免它，我宁愿不将自动完成括号关闭设置为True也不使用TabOut扩展。第一个屏幕截图显示建议在闭括号/方......
在 Azure 上部署代码时使用 Python 的多处理模块是否有意义？
我们的团队在Azure机器学习(AML)上部署了一个Python脚本来处理存储在Azure存储帐户上的文件。我们的管道由一个ForEach活动组成，该活动调用每个或列出的文件的Python脚本。从Azure数据工厂(ADF)运行它会触发多个单独的管道同时运行......
我已成功安装 pypdf2 但无法将其导入到我的 python 文件中
我已经成功安装了pypdf2模块，但在导入它时，我发现该模块丢失了。我尝试使用fromPyPDF2importPdfReader导入，但它不起作用此问题的各种解决方案是什么？在尝试导入PyPDF2时遇到问题。以下是可能导致此问题的一些常见原因和解决方案：安......
Python3打开图片时请求ConnectionResetError(10054)
我试图从'http://xxx.jpg'之类的网站下载图片。代码：headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.139Safari/537.36'}url='http://xxx.jpg'resp......
Jupyter Notebook 环境中的 Python 版本不匹配
我遇到Jupyter笔记本启动横幅中报告的Python版本与我在笔记本中查询python--version时显示的版本之间的差异。启动横幅指示Python3.11.9，但是当我运行!python--version时，它返回Python3.11.7。我所做的步骤：basecondahas3.11.7versio......
Python XML 解析：字符串中的“<”被阻塞
我有一个使用ET.XMLParser来解析CppCheckXML报告文件的Python模块。当尝试解析字符串中包含“<”的XML元素中的属性之一时，它会令人窒息，它会将其解释为格式错误的XML，例如：<errormsg="Includefile<iostream>notfound.">（注意字符和“iostream”之间的空格必须放......
任意几行代码要成为Python中的函数需要什么？
我正在上一门计算机科学课，我的任务是创建一个程序来实现一个带有参数的函数。我的老师告诉我，下面的代码不是一个函数，这让我很困惑，对于将某些代码行归类为“函数”所需的条件，我感到很困惑。defgame(numbers,max_turns,pfl,tgl):turns=0flag=Falseprint("You......
如何使用 Python 创建新的 Azure 订阅？
我正在尝试使用PythonSDK以编程方式创建新的Azure订阅。我发现的对AzurePythonSDK的唯一引用是这个这是我最终得到的结果：importazure.mgmt.billingimportazure.mgmt.subscriptioncreds=AzureCliCredential()client_name='test'defcreat......

MATLAB 不读取 Parquet 文件，只是显示“无法读取 Parquet 文件”。我怎么还能读到它？

相关文章

赞助商

阅读排行