来自 PyArrow ChunkedArray 的虚拟编码 PyArrow 表，无需通过 pandas？

时间：2024-07-29 08:14:28浏览次数：15

标签：python pyarrow

假设我

import pyarrow as pa

ca = pa.chunked_array([['a', 'b', 'b', 'c']])
print(ca)

<pyarrow.lib.ChunkedArray object at 0x7fc938bcea70>
[
  [
    "a",
    "b",
    "b",
    "c"
  ]
]

我想最终得到：

pyarrow.Table
_a: uint8
_b: uint8
_c: uint8
----
_a: [[1,0,0,0]]
_b: [[0,1,1,0]]
_c: [[0,0,0,1]]

我该怎么做？

我知道可以通过转换为 pandas 来做到这一点，但是可以用只是 PyArrow （以避免承担额外的依赖项）？

编辑：numpy 已经是 PyArrow 的必需依赖项，所以我可以使用它。然而，这不是理想的解决方案，因此最好避免使用纯 NumPy 解决方案

import pyarrow as pa

ca = pa.chunked_array([['a', 'b', 'b', 'c']])

# 获取唯一值并创建字典映射
unique_values = sorted(set(ca.to_numpy()))
value_map = {value: i for i, value in enumerate(unique_values)}

# 创建一个存储编码值的列表
encoded_arrays = []
for value in unique_values:
  encoded_arrays.append(pa.array((ca == value).to_numpy(dtype=uint8)))

# 从编码数组创建一个 PyArrow 表
table = pa.table({f'_{value}': arr for value, arr in zip(unique_values, encoded_arrays)})

print(table)

这将打印：

_a | _b | _c
--- | --- | ---
  1 |   0 |   0
  0 |   1 |   0
  0 |   1 |   0
  0 |   0 |   1

此代码首先获取 ChunkedArray 中的唯一值，然后创建一个将这些值映射到整数索引的字典。然后，它遍历唯一值，并为每个值创建一个新的 PyArrow 数组。每个数组都包含 1 和 0，指示 ChunkedArray 中的相应元素是否等于当前值。最后，它使用编码数组创建 PyArrow 表。

此方法避免了对 pandas 的任何依赖，并且仅使用 PyArrow 和内置的 Python 类型。

标签：python,pyarrow
From： 78777855

如何用Python制作Android服务？
我想构建一个简单的Android应用程序，例如PushOver应用程序，它具有TCP服务器并接收其记录的文本消息，然后将其作为推送通知发送。这部分已经完成并且工作正常。但即使GUI应用程序关闭，我也想接收消息。我知道这是可能的，因为PushOver应用程序做到了！我想，我可能需要一......
Python Discord Bot 的应用程序命令的区域设置名称（多语言别名）
如何根据用户的语言设置，使应用程序命令的名称具有不同的名称例如，如果一个用户将其discord的语言设置为英语，则用户可以看到英语的应用程序命令名称。另一方面，如果另一个用户将其不和谐语言设置为法语，则用户可以看到法语中的相同应用程序命令的名称。为此，我尝试使用ap......
如何在Python中添加热键？
我正在为游戏制作一个机器人，我想在按下热键时调用该函数。我已经尝试了一些解决方案，但效果不佳。这是我的代码：defstart():whileTrue:ifkeyboard.is_pressed('alt+s'):break...defmain():whileTrue:ifkeyboard.is_pr......
在Python中解压文件
我通读了zipfile文档，但不明白如何解压缩文件，只了解如何压缩文件。如何将zip文件的所有内容解压缩到同一目录中？importzipfilewithzipfile.ZipFile('your_zip_file.zip','r')aszip_ref:zip_ref.extractall('target_directory')将......
如何在Python中从RSA公钥中提取N和E？
我有一个RSA公钥，看起来像-----BEGINPUBLICKEY-----MIIBIDANBgkqhkiG9w0BAQEFAAOCAQ0AMIIBCAKCAQEAvm0WYXg6mJc5GOWJ+5jkhtbBOe0gyTlujRER++cvKOxbIdg8So3mV1eASEHxqSnp5lGa8R9Pyxz3iaZpBCBBvDB7Fbbe5koVTmt+K06o96ki1/4NbHGyRVL/x5fFiVuTVfmk+GZNakH5dXDq0fwvJyVmUtGYA......
Swagger、Docker、Python-Flask: : https://editor.swagger.io/ 生成服务器 python-fl
在https://editor.swagger.io/上您可以粘贴一些json/yaml。我正在将此作为JSON进行测试（不要转换为YAML）：{"swagger":"2.0","info":{"version":"1.0","title":"OurfirstgeneratedRES......
参考 - Python 类型提示
这是什么？这是与在Python中使用类型提示主题相关的问题和答案的集合。这个问题本身就是一个社区维基；欢迎大家参与维护。这是为什么？Python类型提示是一个不断增长的话题，因此许多（可能的）新问题已经被提出，其中许多甚至已经有了答案。该集合有助于查找现有内容。范......
我的 Python 程序中解决 UVa 860 的运行时错误 - 熵文本分析器
我正在尝试为UVa860编写一个解决方案，但是当我通过vJudge发送它时，它一直显示“运行时错误”。fromsysimportstdinimportmathdefmain():end_of_input=Falselambda_words=0dictionary={}text_entropy=0relative_entropy=0whilenotend_of_in......
Python进度条
当我的脚本正在执行某些可能需要时间的任务时，如何使用进度条？例如，一个需要一些时间才能完成并在完成后返回True的函数。如何在函数执行期间显示进度条？请注意，我需要实时显示进度条，所以我不知道该怎么办。我需要thread为此吗？我不知道。现在在执行函数......

来自 PyArrow ChunkedArray 的虚拟编码 PyArrow 表，无需通过 pandas？

相关文章

赞助商

阅读排行