Polars：n_unique()，但作为窗口函数

时间：2024-07-25 07:49:13浏览次数：16

标签：python python-polars

我需要一种方法来找出特定上下文中两列中有多少个唯一的值对。基本上像 n_unique，但作为一个窗口函数。

用一个玩具示例来说明：

import polars as pl

dataframe = pl.DataFrame({
    'context': [1, 1, 1,  2, 2, 2,  3, 3, 3],
    'column1': [1, 1, 0,  1, 0, 0,  1, 0, 1],
    'column2': [1, 0, 0,  0, 1, 1,  1, 0, 1]
    # unique:   1  2  3   1  2  -   1  2  -
    # n_unique: -- 3 --   -- 2 --   -- 2 --
})

我想写：

dataframe = (
    dataframe
    .with_columns(
        pl.n_unique('column1', 'column2').over('context').alias('n_unique')
    )
)

从列 ' 的窗口内的列 1、列 2 获取唯一值对的数量语境'。但这不起作用。

我所做的一个尝试是：

(dataframe
    .with_columns(
        pl.concat_list('column1', 'column2').alias('pair')
    )
    .with_columns(
        pl.n_unique('pair').over('context')
    )
)

哪个有效，但是有更好的方法吗？

当然，可以使用 pl.struct 和 pl.n_unique 在 Polars 中实现这一点。与串联列列表不同，使用 pl.struct 应该具有更好的性能，因为它避免了创建中间列表。

以下是如何完成此操作的示例：

dataframe = (
    dataframe
    .with_columns(
        pl.struct(['column1', 'column2']).n_unique().over('context').alias('n_unique')
    )
)
print(dataframe)

这将生成以下输出：

shape: (9, 4)
┌────────┬────────┬────────┬─────────┐
│ context ┆ column1 ┆ column2 ┆ n_unique │
│ ---     ┆ ---     ┆ ---     ┆ ---      │
│ i64     ┆ i64     ┆ i64     ┆ u32      │
╞════════╪════════╪════════╪═════════╡
│ 1       ┆ 1       ┆ 1       ┆ 3        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 1       ┆ 1       ┆ 0       ┆ 3        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 1       ┆ 0       ┆ 0       ┆ 3        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 2       ┆ 1       ┆ 0       ┆ 2        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 2       ┆ 0       ┆ 1       ┆ 2        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 2       ┆ 0       ┆ 1       ┆ 2        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 3       ┆ 1       ┆ 1       ┆ 2        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 3       ┆ 0       ┆ 0       ┆ 2        │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 3       ┆ 1       ┆ 1       ┆ 2        │
└────────┴────────┴────────┴─────────┘

在这种方法中，我们首先使用 pl.struct 从 column1 和 column2 创建一个结构。这使我们能够将两列视为单个实体。然后，我们只需使用 n_unique 函数获取结构的唯一计数，并使用 over 语句将其应用于 context 列定义的每个窗口。

这种方法既高效又可读，使其成为在 Polars 中查找窗口内唯一值对数量的绝佳选择。

标签：python,python-polars
From： 74070007

有没有更好的方法来在存储库中的一组 python 程序之间共享公共代码
当我想要快速、轻松地做许多不同的事情时，我会选择Python-即我总是会得到许多Python“程序”-例如一组脚本-或者如果我正在玩一些东西，一堆测试程序等-即始终是许多不同程序的松散集合。但是，我会分享某些内容。例如，如果我正在使用AI-我可能有30个左右完全不相......
如何在Python中从两个不同长度的列表创建DataFrame，为第二个列表中的每个值重复第一个
我是一个超级初学者，所以请耐心等待。我觉得这应该很容易，但我无法弄清楚。我不确定是否应该创建两个列表，然后将它们组合起来，或者是否有办法以这种方式直接创建DataFrame。我需要一列包含这些值：df=pd.DataFrame({'x1':np.linspace(-2.47,2.69,num=101)})然后我将值A......
Python multiprocessing.connection.Connection 的行为不符合规范
根据python规范，recv()pythonConnection的方法，（从multiprocessing.Pipe()返回，当管道为空且管道的另一端关闭时抛出EOFError（这里参考：https://docs.python.org/3.9/library/multiprocessing.html#multiprocessing.connection.Connection.re......
使用 python Flask 发送邮件中的图像
我想发送一封包含html代码和图像的电子邮件但在gmail中它说图像已附加，我不想要这样，我只想要电子邮件正文中的图像。html_content=f"<imgsrc="cid:banner"alt=""style="width:80%;">"msg=MIMEMultipart('related')html_part=MIMEText(html_c......
在 python requests modul 中，如何检查页面是否使用“POST”方法或“GET”方法
如何使用python“requests”模块检查页面是否使用“GET”方法或“POST”方法。我期望输出为True或False，或者GET或Post预期代码：importrequestsurl=f"www.get_example.com"response=requests.get(url)ifresponse.check_get==True:print("get")你......
VS Code Python - 如果括号（括号、大括号等）未关闭，内联建议不起作用
我遇到的问题是，当我在未闭合的括号或方括号“内部”开始变量名称时，VSCode将不会显示任何建议。但是，如果在键入变量名称之前闭合括号，则建议效果很好。如果我可以避免它，我宁愿不将自动完成括号关闭设置为True也不使用TabOut扩展。第一个屏幕截图显示建议在闭括号/方......
在 Azure 上部署代码时使用 Python 的多处理模块是否有意义？
我们的团队在Azure机器学习(AML)上部署了一个Python脚本来处理存储在Azure存储帐户上的文件。我们的管道由一个ForEach活动组成，该活动调用每个或列出的文件的Python脚本。从Azure数据工厂(ADF)运行它会触发多个单独的管道同时运行......
我已成功安装 pypdf2 但无法将其导入到我的 python 文件中
我已经成功安装了pypdf2模块，但在导入它时，我发现该模块丢失了。我尝试使用fromPyPDF2importPdfReader导入，但它不起作用此问题的各种解决方案是什么？在尝试导入PyPDF2时遇到问题。以下是可能导致此问题的一些常见原因和解决方案：安......
Python3打开图片时请求ConnectionResetError(10054)
我试图从'http://xxx.jpg'之类的网站下载图片。代码：headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.139Safari/537.36'}url='http://xxx.jpg'resp......
Jupyter Notebook 环境中的 Python 版本不匹配
我遇到Jupyter笔记本启动横幅中报告的Python版本与我在笔记本中查询python--version时显示的版本之间的差异。启动横幅指示Python3.11.9，但是当我运行!python--version时，它返回Python3.11.7。我所做的步骤：basecondahas3.11.7versio......

Polars：n_unique()，但作为窗口函数

相关文章

赞助商

阅读排行