首页 > 编程问答 >来自 PyArrow ChunkedArray 的虚拟编码 PyArrow 表,无需通过 pandas?

来自 PyArrow ChunkedArray 的虚拟编码 PyArrow 表,无需通过 pandas?

时间:2024-07-29 08:14:28浏览次数:12  
标签:python pyarrow

假设我

import pyarrow as pa

ca = pa.chunked_array([['a', 'b', 'b', 'c']])
print(ca)
<pyarrow.lib.ChunkedArray object at 0x7fc938bcea70>
[
  [
    "a",
    "b",
    "b",
    "c"
  ]
]

我想最终得到:

pyarrow.Table
_a: uint8
_b: uint8
_c: uint8
----
_a: [[1,0,0,0]]
_b: [[0,1,1,0]]
_c: [[0,0,0,1]]

我该怎么做?

我知道可以通过转换为 pandas 来做到这一点,但是可以用只是 PyArrow (以避免承担额外的依赖项)?

编辑 :numpy 已经是 PyArrow 的必需依赖项,所以我可以使用它。然而,这不是理想的解决方案,因此最好避免使用纯 NumPy 解决方案


import pyarrow as pa

ca = pa.chunked_array([['a', 'b', 'b', 'c']])

# 获取唯一值并创建字典映射
unique_values = sorted(set(ca.to_numpy()))
value_map = {value: i for i, value in enumerate(unique_values)}

# 创建一个存储编码值的列表
encoded_arrays = []
for value in unique_values:
  encoded_arrays.append(pa.array((ca == value).to_numpy(dtype=uint8)))

# 从编码数组创建一个 PyArrow 表
table = pa.table({f'_{value}': arr for value, arr in zip(unique_values, encoded_arrays)})

print(table)

这将打印:

_a | _b | _c
--- | --- | ---
  1 |   0 |   0
  0 |   1 |   0
  0 |   1 |   0
  0 |   0 |   1

此代码首先获取 ChunkedArray 中的唯一值,然后创建一个将这些值映射到整数索引的字典。然后,它遍历唯一值,并为每个值创建一个新的 PyArrow 数组。每个数组都包含 1 和 0,指示 ChunkedArray 中的相应元素是否等于当前值。最后,它使用编码数组创建 PyArrow 表。

此方法避免了对 pandas 的任何依赖,并且仅使用 PyArrow 和内置的 Python 类型。

标签:python,pyarrow
From: 78777855

相关文章

  • 如何用Python制作Android服务?
    我想构建一个简单的Android应用程序,例如PushOver应用程序,它具有TCP服务器并接收其记录的文本消息,然后将其作为推送通知发送。这部分已经完成并且工作正常。但即使GUI应用程序关闭,我也想接收消息。我知道这是可能的,因为PushOver应用程序做到了!我想,我可能需要一......
  • Python Discord Bot 的应用程序命令的区域设置名称(多语言别名)
    如何根据用户的语言设置,使应用程序命令的名称具有不同的名称例如,如果一个用户将其discord的语言设置为英语,则用户可以看到英语的应用程序命令名称。另一方面,如果另一个用户将其不和谐语言设置为法语,则用户可以看到法语中的相同应用程序命令的名称。为此,我尝试使用ap......
  • 如何在Python中添加热键?
    我正在为游戏制作一个机器人,我想在按下热键时调用该函数。我已经尝试了一些解决方案,但效果不佳。这是我的代码:defstart():whileTrue:ifkeyboard.is_pressed('alt+s'):break...defmain():whileTrue:ifkeyboard.is_pr......
  • 在Python中解压文件
    我通读了zipfile文档,但不明白如何解压缩文件,只了解如何压缩文件。如何将zip文件的所有内容解压缩到同一目录中?importzipfilewithzipfile.ZipFile('your_zip_file.zip','r')aszip_ref:zip_ref.extractall('target_directory')将......
  • 如何在Python中从RSA公钥中提取N和E?
    我有一个RSA公钥,看起来像-----BEGINPUBLICKEY-----MIIBIDANBgkqhkiG9w0BAQEFAAOCAQ0AMIIBCAKCAQEAvm0WYXg6mJc5GOWJ+5jkhtbBOe0gyTlujRER++cvKOxbIdg8So3mV1eASEHxqSnp5lGa8R9Pyxz3iaZpBCBBvDB7Fbbe5koVTmt+K06o96ki1/4NbHGyRVL/x5fFiVuTVfmk+GZNakH5dXDq0fwvJyVmUtGYA......
  • Swagger、Docker、Python-Flask: : https://editor.swagger.io/ 生成服务器 python-fl
    在https://editor.swagger.io/上您可以粘贴一些json/yaml。我正在将此作为JSON进行测试(不要转换为YAML):{"swagger":"2.0","info":{"version":"1.0","title":"OurfirstgeneratedRES......
  • 使用 Matplotlib 的 Python 代码中出现意外的控制流
    Ubuntu22.04上的此Python3.12代码的行为符合预期,除非我按q或ESC键退出。代码如下:importnumpyasnp,matplotlib.pyplotaspltfrompathlibimportPathfromcollectionsimportnamedtuplefromskimage.ioimportimreadfrommatplotlib.widgets......
  • 参考 - Python 类型提示
    这是什么?这是与在Python中使用类型提示主题相关的问题和答案的集合。这个问题本身就是一个社区维基;欢迎大家参与维护。这是为什么?Python类型提示是一个不断增长的话题,因此许多(可能的)新问题已经被提出,其中许多甚至已经有了答案。该集合有助于查找现有内容。范......
  • 我的 Python 程序中解决 UVa 860 的运行时错误 - 熵文本分析器
    我正在尝试为UVa860编写一个解决方案,但是当我通过vJudge发送它时,它一直显示“运行时错误”。fromsysimportstdinimportmathdefmain():end_of_input=Falselambda_words=0dictionary={}text_entropy=0relative_entropy=0whilenotend_of_in......
  • Python进度条
    当我的脚本正在执行某些可能需要时间的任务时,如何使用进度条?例如,一个需要一些时间才能完成并在完成后返回True的函数。如何在函数执行期间显示进度条?请注意,我需要实时显示进度条,所以我不知道该怎么办。我需要thread为此吗?我不知道。现在在执行函数......