使用 Polars 表达式将“eval()”应用于列

时间：2024-07-21 00:33:38浏览次数：10

标签：python dataframe validation eval python-polars

我想通过 Polars 表达式实现以下目标，而不是逐行映射元素，但我一直无法找到方法。

import polars

def foo():
    return 1 + 1

def bar():
    return 1 + 1

def baz():
    return 2 + 2

exprs = 1_000_000 * [
    "foo() == bar()",
    "bar() == baz()",
    "foo() == baz()",
    "foo() > bar()",
    "bar() < baz()",
    "foo() != baz()",
]

df = polars.DataFrame({"exprs": exprs})

df.with_columns(
    polars.col("exprs").map_elements(
        lambda x: eval(x), return_dtype=polars.datatypes.Boolean
    )
)

shape: (6_000_000, 1)
┌───────┐
│ exprs │
│ ---   │
│ bool  │
╞═══════╡
│ true  │
│ false │
│ false │
│ false │
│ true  │
│ …     │
│ false │
│ false │
│ false │
│ true  │
│ true  │
└───────┘

问题在于 foo() 和 bar() 是这并不简单，因此 map_elements() 需要一些时间才能完成，因为 DataFrame 很大。

不幸的是，你无法使用 Polars 表达式直接实现 eval() 的功能。Polars 表达式旨在实现高效、向量化的操作，而 eval() 本质上依赖于 Python 解释器，这会导致性能瓶颈，尤其是在大型数据集上。

你正在使用的 map_elements() 方法实际上已经是处理此类情况的比较有效的方法了。但是，有一些方法可以优化代码以提高性能：

使用 apply 而不是 map_elements ： 对于非向量化操作， apply 方法通常比 map_elements 更快。

df.with_columns(
    polars.col("exprs").apply(lambda x: eval(x)).cast(polars.Boolean)
)

预编译表达式： 如果你反复使用相同的表达式，可以考虑使用 compile() 函数预编译它们，然后在 eval() 中使用编译后的代码对象。

compiled_exprs = [compile(expr, '<string>', 'eval') for expr in exprs]
df = polars.DataFrame({"exprs": compiled_exprs})

df.with_columns(
    polars.col("exprs").apply(lambda x: eval(x)).cast(polars.Boolean)
)

使用其他库进行动态代码执行： 如果你需要更高级的动态代码执行功能，可以考虑使用 eval() 的替代方案，例如 ast.literal_eval() （用于安全评估表达式）或 exec() （用于执行更复杂的代码块）。但是，请注意使用这些函数时要格外小心，因为它们可能会带来安全风险，尤其是在处理来自不受信任来源的输入时。

请记住，在 Polars 中执行动态代码评估总是会导致性能下降。如果可能，请尝试重新设计你的代码以避免使用 eval() ，并使用 Polars 表达式来实现最佳性能。

标签：python,dataframe,validation,eval,python-polars
From： 78769976

从 python 中的字符串列表中提取 def 定义函数的标签
我想使用Python中的正常def过程创建函数，并将标签分配给从字符串列表中提取的命名空间。如何实现这一点？这个问题的动机：我正在创建一个与sympy兼容的python函数库，供数学家用于符号计算实验。许多函数需要初始化具有相关标签的多个对象的系统，这些标签分别由用户提供的字......
在 Raspberry Pi 4 上使用 Python 从具有 SPI 连接的 MT6816 磁性编码器读取
我对这个领域完全陌生，并不真正知道自己在做什么并且需要帮助。我正在尝试使用MT681614位磁性编码器通过RaspberryPi的SPI连接读取绝对角度。我有以下问题：在硬件方面，是否只是简单地连接必要的连接（3.3V、MOSI、MISO、SCK、GND、CE01）？对于编码......
PythonW 不运行脚本。严重地
因此，使用Windows10和Python3.6。我创建了一个.py脚本，它可以使用命令pythonmyscript.py在命令提示符下正常运行，但是当我制作该脚本的精确副本并为其赋予扩展名.pyw，并尝试使用pythonw运行它时命令pythonwmyscript.pyw，什么也没有发生......
如何使用Python和Selenium模拟产品购买以获取库存信息
我正在开发一项网络抓取服务，主要针对时尚行业。我的目标是提供有关产品的全面数据，包括库存水平。为了实现这一目标，我需要模拟购买以确定每种尺寸的产品的最大可用数量。我一直在使用Python和Selenium进行网络抓取部分，但在准确模拟购买方面面临着挑战检索股票信息的过程。......
连接Python套接字的问题
当我写“关闭”时，我试图让我的电报机器人关闭计算机。我不想将机器人连接到网站上的托管。我选择我的手机（AndroidRedmiNote10）作为托管。我在上面安装了Termux和Pydroid。我写了两个文件：main到我的电脑，client到我的手机。通过在计算机上运行这两个文件，一切正常。但是，当我在......
如何修复导入 Numexpr Python 时的错误
在Windows10Python3.7.9（IDLE）上，我成功安装了“pipinstallnumexpr”，但在“importnumexprasne”时出现错误：Traceback（最近一次调用）：文件“<pyshell#21>”，第267行，位于将numexpr导入为ne文件“C:\Python379\lib\site-packages\numexpr_init_.py”......
让 cpython 优化恒定条件
我正在用Python编写需要尽可能高效运行的代码，但有时我需要深入挖掘调试语句。不要注释这些输入或输出（或者使用外部预处理器来处理代码，就像这里建议的那样Python相当于#ifdefDEBUG或这里如何在python中实现“#ifdef”？|||)我想在模块的开头定义一个变量......
如何使用 for 循环在 python jupyter 笔记本中创建动态图？
我正在学习本课关于用Python求解热方程。该课程指出，在求解热方程后，我们可以通过在循环中简单地调用pyplot.plot()来可视化解的动画图，其中下面的代码将动态绘制每次每个点的温度，从而得到一个动画情节（课程帖子中提供了动画情节的示例）。importnumpyfrommatplotlibi......
Python:动态爱心代码
importrandomfrommathimportsin,cos,pi,logfromtkinterimport*CANVAS_WIDTH=640CANVAS_HEIGHT=480CANVAS_CENTER_X=CANVAS_WIDTH/2CANVAS_CENTER_Y=CANVAS_HEIGHT/2IMAGE_ENLARGE=11HEART_COLOR="#FF99CC"defcenter_......
如何在 PYTHON 中查找输入数字的千位、百位、十位和个位中的数字？例如：256 有 6 个一、5
num=int(input("Pleasegivemeanumber:"))print(num)thou=int((num//1000))print(thou)hun=int((num//100))print(hun)ten=int((num//10))print(ten)one=int((num//1))print(one)我尝试过这个，但它不起作用，我被困住了。代码几乎是正确的，但需......

使用 Polars 表达式将“eval()”应用于列

相关文章

赞助商

阅读排行