首页 > 编程问答 >使用 Polars 表达式将“eval()”应用于列

使用 Polars 表达式将“eval()”应用于列

时间:2024-07-21 00:33:38浏览次数:8  
标签:python dataframe validation eval python-polars

我想通过 Polars 表达式实现以下目标,而不是逐行映射元素,但我一直无法找到方法。

import polars

def foo():
    return 1 + 1

def bar():
    return 1 + 1

def baz():
    return 2 + 2

exprs = 1_000_000 * [
    "foo() == bar()",
    "bar() == baz()",
    "foo() == baz()",
    "foo() > bar()",
    "bar() < baz()",
    "foo() != baz()",
]

df = polars.DataFrame({"exprs": exprs})

df.with_columns(
    polars.col("exprs").map_elements(
        lambda x: eval(x), return_dtype=polars.datatypes.Boolean
    )
)
shape: (6_000_000, 1)
┌───────┐
│ exprs │
│ ---   │
│ bool  │
╞═══════╡
│ true  │
│ false │
│ false │
│ false │
│ true  │
│ …     │
│ false │
│ false │
│ false │
│ true  │
│ true  │
└───────┘

问题在于 foo() bar() 是这并不简单,因此 map_elements() 需要一些时间才能完成,因为 DataFrame 很大。


不幸的是,你无法使用 Polars 表达式直接实现 eval() 的功能。Polars 表达式旨在实现高效、向量化的操作,而 eval() 本质上依赖于 Python 解释器,这会导致性能瓶颈,尤其是在大型数据集上。

你正在使用的 map_elements() 方法实际上已经是处理此类情况的比较有效的方法了。但是,有一些方法可以优化代码以提高性能:

  1. 使用 apply 而不是 map_elements 对于非向量化操作, apply 方法通常比 map_elements 更快。
df.with_columns(
    polars.col("exprs").apply(lambda x: eval(x)).cast(polars.Boolean)
)
  1. 预编译表达式: 如果你反复使用相同的表达式,可以考虑使用 compile() 函数预编译它们,然后在 eval() 中使用编译后的代码对象。
compiled_exprs = [compile(expr, '<string>', 'eval') for expr in exprs]
df = polars.DataFrame({"exprs": compiled_exprs})

df.with_columns(
    polars.col("exprs").apply(lambda x: eval(x)).cast(polars.Boolean)
)
  1. 使用其他库进行动态代码执行: 如果你需要更高级的动态代码执行功能,可以考虑使用 eval() 的替代方案,例如 ast.literal_eval() (用于安全评估表达式)或 exec() (用于执行更复杂的代码块)。但是,请注意使用这些函数时要格外小心,因为它们可能会带来安全风险,尤其是在处理来自不受信任来源的输入时。

请记住,在 Polars 中执行动态代码评估总是会导致性能下降。如果可能,请尝试重新设计你的代码以避免使用 eval() ,并使用 Polars 表达式来实现最佳性能。

标签:python,dataframe,validation,eval,python-polars
From: 78769976

相关文章

  • 从 python 中的字符串列表中提取 def 定义函数的标签
    我想使用Python中的正常def过程创建函数,并将标签分配给从字符串列表中提取的命名空间。如何实现这一点?这个问题的动机:我正在创建一个与sympy兼容的python函数库,供数学家用于符号计算实验。许多函数需要初始化具有相关标签的多个对象的系统,这些标签分别由用户提供的字......
  • 在 Raspberry Pi 4 上使用 Python 从具有 SPI 连接的 MT6816 磁性编码器读取
    我对这个领域完全陌生,并不真正知道自己在做什么并且需要帮助。我正在尝试使用MT681614位磁性编码器通过RaspberryPi的SPI连接读取绝对角度。我有以下问题:在硬件方面,是否只是简单地连接必要的连接(3.3V、MOSI、MISO、SCK、GND、CE01)?对于编码......
  • PythonW 不运行脚本。严重地
    因此,使用Windows10和Python3.6。我创建了一个.py脚本,它可以使用命令pythonmyscript.py在命令提示符下正常运行,但是当我制作该脚本的精确副本并为其赋予扩展名.pyw,并尝试使用pythonw运行它时命令pythonwmyscript.pyw,什么也没有发生......
  • 如何使用Python和Selenium模拟产品购买以获取库存信息
    我正在开发一项网络抓取服务,主要针对时尚行业。我的目标是提供有关产品的全面数据,包括库存水平。为了实现这一目标,我需要模拟购买以确定每种尺寸的产品的最大可用数量。我一直在使用Python和Selenium进行网络抓取部分,但在准确模拟购买方面面临着挑战检索股票信息的过程。......
  • 连接Python套接字的问题
    当我写“关闭”时,我试图让我的电报机器人关闭计算机。我不想将机器人连接到网站上的托管。我选择我的手机(AndroidRedmiNote10)作为托管。我在上面安装了Termux和Pydroid。我写了两个文件:main到我的电脑,client到我的手机。通过在计算机上运行这两个文件,一切正常。但是,当我在......
  • 如何修复导入 Numexpr Python 时的错误
    在Windows10Python3.7.9(IDLE)上,我成功安装了“pipinstallnumexpr”,但在“importnumexprasne”时出现错误:Traceback(最近一次调用):文件“<pyshell#21>”,第267行,位于将numexpr导入为ne文件“C:\Python379\lib\site-packages\numexpr_init_.py”......
  • 让 cpython 优化恒定条件
    我正在用Python编写需要尽可能高效运行的代码,但有时我需要深入挖掘调试语句。不要注释这些输入或输出(或者使用外部预处理器来处理代码,就像这里建议的那样Python相当于#ifdefDEBUG或这里如何在python中实现“#ifdef”?|||)我想在模块的开头定义一个变量......
  • 如何使用 for 循环在 python jupyter 笔记本中创建动态图?
    我正在学习本课关于用Python求解热方程。该课程指出,在求解热方程后,我们可以通过在循环中简单地调用pyplot.plot()来可视化解的动画图,其中下面的代码将动态绘制每次每个点的温度,从而得到一个动画情节(课程帖子中提供了动画情节的示例)。importnumpyfrommatplotlibi......
  • Python:动态爱心代码
    importrandomfrommathimportsin,cos,pi,logfromtkinterimport*CANVAS_WIDTH=640CANVAS_HEIGHT=480CANVAS_CENTER_X=CANVAS_WIDTH/2CANVAS_CENTER_Y=CANVAS_HEIGHT/2IMAGE_ENLARGE=11HEART_COLOR="#FF99CC"defcenter_......
  • 如何在 PYTHON 中查找输入数字的千位、百位、十位和个位中的数字?例如:256 有 6 个一、5
    num=int(input("Pleasegivemeanumber:"))print(num)thou=int((num//1000))print(thou)hun=int((num//100))print(hun)ten=int((num//10))print(ten)one=int((num//1))print(one)我尝试过这个,但它不起作用,我被困住了。代码几乎是正确的,但需......