首页 > 编程问答 >MATLAB 不读取 Parquet 文件,只是显示“无法读取 Parquet 文件”。我怎么还能读到它?

MATLAB 不读取 Parquet 文件,只是显示“无法读取 Parquet 文件”。我怎么还能读到它?

时间:2024-07-25 06:27:17浏览次数:11  
标签:python matlab parquet

我已经使用 Python polars ' .write_parquet 方法创建了一个镶木地板文件。它可以被Python读回,没有问题,MATLAB也可以使用 读取信息 关于 parquetinfo 文件,没有问题。

但是,当我在MATLAB中运行 parquetread 实际加载时数据,它很快失败,并出现错误“无法读取 Parquet 文件”,没有进一步的详细信息。

我四处搜索,只找到 这个 Mathworks 论坛帖子 没有解决方案。

如何我可以使用 Python 创建可由 MATLAB 读取的 parquet 文件吗?


看起来你遇到了 MATLAB 中 parquetread 函数的一个已知问题。此问题似乎会影响使用 pyarrow 引擎(polars 的默认引擎)编写的某些 Parquet 文件。MATLAB 论坛帖子中提到的问题表明此问题与字典列有关,但它也可能影响其他 Parquet 文件。

以下是一些可以尝试的解决方法:

1. 在 polars 中使用 fastparquet 引擎:

fastparquet 是 polars 支持的另一种 Parquet 引擎。尝试使用 fastparquet 引擎保存你的数据帧,看看 MATLAB 是否可以读取它:

```python import polars as pl

# 保存数据帧使用 fastparquet 引擎 df.write_parquet("my_data.parquet", engine="fastparquet") ```

如果这可行,那么你可以考虑在 polars 中继续使用 fastparquet 引擎,或者看看 MATLAB 是否发布了针对此问题的修复程序。

2. 将数据转换为 pandas,然后使用 pyarrow 写入:

有些用户报告说,首先将 polars 数据帧转换为 pandas 数据帧,然后使用 pyarrow 库写入 Parquet 文件可以解决此问题:

```python import polars as pl import pandas as pd import pyarrow as pa import pyarrow.parquet as pq

# 将 polars 数据帧转换为 pandas 数据帧 pdf = df.to_pandas()

# 使用 pyarrow 将 pandas 数据帧写入 Parquet 文件 table = pa.Table.from_pandas(pdf) pq.write_table(table, 'my_data.parquet') ```

此方法涉及额外的转换步骤,但它可能与 MATLAB 的 parquetread 函数更加兼容。

3. 使用其他文件格式:

如果以上方法都不起作用,那么你可以考虑使用 MATLAB 支持的不同文件格式,例如 CSV 或 HDF5。

  • 要保存为 CSV: python df.write_csv("my_data.csv") 并在 MATLAB 中使用 csvread 函数。

  • 要保存为 HDF5: python df.write_hdf("my_data.h5", key="data") 并在 MATLAB 中使用 h5read 函数。

这些替代文件格式可能无法提供与 Parquet 相同的性能和存储效率,但它们可以作为一种解决方法,直到解决了 MATLAB 中的兼容性问题。

标签:python,matlab,parquet
From: 78790220

相关文章

  • 使用 python Flask 发送邮件中的图像
    我想发送一封包含html代码和图像的电子邮件但在gmail中它说图像已附加,我不想要这样,我只想要电子邮件正文中的图像。html_content=f"<imgsrc="cid:banner"alt=""style="width:80%;">"msg=MIMEMultipart('related')html_part=MIMEText(html_c......
  • 在 python requests modul 中,如何检查页面是否使用“POST”方法或“GET”方法
    如何使用python“requests”模块检查页面是否使用“GET”方法或“POST”方法。我期望输出为True或False,或者GET或Post预期代码:importrequestsurl=f"www.get_example.com"response=requests.get(url)ifresponse.check_get==True:print("get")你......
  • VS Code Python - 如果括号(括号、大括号等)未关闭,内联建议不起作用
    我遇到的问题是,当我在未闭合的括号或方括号“内部”开始变量名称时,VSCode将不会显示任何建议。但是,如果在键入变量名称之前闭合括号,则建议效果很好。如果我可以避免它,我宁愿不将自动完成括号关闭设置为True也不使用TabOut扩展。第一个屏幕截图显示建议在闭括号/方......
  • 在 Azure 上部署代码时使用 Python 的多处理模块是否有意义?
    我们的团队在Azure机器学习(AML)上部署了一个Python脚本来处理存储在Azure存储帐户上的文件。我们的管道由一个ForEach活动组成,该活动调用每个或列出的文件的Python脚本。从Azure数据工厂(ADF)运行它会触发多个单独的管道同时运行......
  • 我已成功安装 pypdf2 但无法将其导入到我的 python 文件中
    我已经成功安装了pypdf2模块,但在导入它时,我发现该模块丢失了。我尝试使用fromPyPDF2importPdfReader导入,但它不起作用此问题的各种解决方案是什么?在尝试导入PyPDF2时遇到问题。以下是可能导致此问题的一些常见原因和解决方案:安......
  • Python3打开图片时请求ConnectionResetError(10054)
    我试图从'http://xxx.jpg'之类的网站下载图片。代码:headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.139Safari/537.36'}url='http://xxx.jpg'resp......
  • Jupyter Notebook 环境中的 Python 版本不匹配
    我遇到Jupyter笔记本启动横幅中报告的Python版本与我在笔记本中查询python--version时显示的版本之间的差异。启动横幅指示Python3.11.9,但是当我运行!python--version时,它返回Python3.11.7。我所做的步骤:basecondahas3.11.7versio......
  • Python XML 解析:字符串中的“<”被阻塞
    我有一个使用ET.XMLParser来解析CppCheckXML报告文件的Python模块。当尝试解析字符串中包含“<”的XML元素中的属性之一时,它会令人窒息,它会将其解释为格式错误的XML,例如:<errormsg="Includefile<iostream>notfound.">(注意字符和“iostream”之间的空格必须放......
  • 任意几行代码要成为Python中的函数需要什么?
    我正在上一门计算机科学课,我的任务是创建一个程序来实现一个带有参数的函数。我的老师告诉我,下面的代码不是一个函数,这让我很困惑,对于将某些代码行归类为“函数”所需的条件,我感到很困惑。defgame(numbers,max_turns,pfl,tgl):turns=0flag=Falseprint("You......
  • 如何使用 Python 创建新的 Azure 订阅?
    我正在尝试使用PythonSDK以编程方式创建新的Azure订阅。我发现的对AzurePythonSDK的唯一引用是这个这是我最终得到的结果:importazure.mgmt.billingimportazure.mgmt.subscriptioncreds=AzureCliCredential()client_name='test'defcreat......