首页 > 编程问答 >如何查看Dask计算任务的进度?

如何查看Dask计算任务的进度?

时间:2024-07-30 04:34:49浏览次数:9  
标签:python jupyter-notebook dask distributed-computing

当我使用 Dask 运行计算任务时,我希望在 Jupyter 笔记本上看到进度条,我正在计算大型 csv 文件 +4GB 中 id 列的所有值,所以有什么想法吗?

import dask.dataframe as dd

df = dd.read_csv('data/train.csv')
df.id.count().compute()

可以使用 progress 方法来查看 Dask 计算任务的进度。此方法需要 dask.diagnostics 模块中的 ProgressBar 类。

以下是如何使用 ProgressBar 显示进度条的方法:

import dask.dataframe as dd
from dask.diagnostics import ProgressBar

# 读取 CSV 文件
df = dd.read_csv('data/train.csv')

# 创建 ProgressBar 对象
pbar = ProgressBar()

# 使用 `progress` 方法启动进度条
with pbar:
    result = df.id.count().compute()

# 打印结果
print(result)

这将在 Jupyter Notebook 中显示一个进度条,显示计算进度。

解释:

  1. 导入 ProgressBar dask.diagnostics 模块导入 ProgressBar 类。
  2. 创建 ProgressBar 对象: 创建一个 ProgressBar 对象,用于显示进度条。
  3. 使用 with 语句: 使用 with 语句确保在计算开始时启动进度条,并在计算结束后自动关闭进度条。
  4. compute() 方法: with 语句块内,调用 compute() 方法执行计算,并确保进度条能够跟踪计算进度。

其他提示:

  • 如果的计算任务包含多个阶段,则可以在每个阶段使用单独的 ProgressBar 对象,以便更详细地跟踪进度。
  • 还可以使用 dask.diagnostics 模块中的其他工具(例如 Profiler ResourceProfiler )来分析 Dask 计算任务的性能。

希望这可以帮助在 Jupyter Notebook 中查看 Dask 计算任务的进度!

标签:python,jupyter-notebook,dask,distributed-computing
From: 49039750

相关文章

  • python - 面板库 - PasswordInput 不会对回车做出反应
    我试图避免需要提交按钮。以下代码当前正在远程jupyter实验室运行。仅当光标焦点从密码小部件中移除后,才会打印该消息。我想要回车来触发消息打印。有什么线索吗?frompanel.widgetsimportPasswordInput,TextInputpn.extension()defon_enter(event=None):message_p......
  • 即使安装了软件包,也找不到 python 模块句子转换器
    对于我的python脚本(如下所示),我使用句子转换器包,其中包含SBERT模型。即使在执行“piplist”时明确列出该软件包,并且还安装了torch,所有内容都更新到最新版本,但仍然找不到该模块。脚本:importnumpyasnpimportpandasaspdfromsentence_transformersimportSenten......
  • 有没有办法在 python 中返回类实例的布尔属性?
    我想组织我玩的游戏中的汽车数据。为此,我创建了一个“Car”类。我希望将此类实例的一些属性作为布尔值,这样我就可以将此类的所有实例放入列表中并过滤它们。我当前的解决方案不起作用,因为,我收到以下错误消息:TypeError:__repr__returnednon-string(typeCar)我使用......
  • python 正则表达式匹配一行中的多个单词而不转到下一行
    我正在编写一个解析器来解析以下输出:admin@str-s6000-on-5:~$showinterfacestatusEthernet4InterfaceLanesSpeedMTUAliasVlanOperAdminTypeAsymPFC------------------------------------------......
  • 使用 Python 平滑和对称不规则形状和曲线
    我需要完成三项任务:正则化曲线曲线的对称性完成不完整的曲线例如,这里是输入和预期的输出图像:输入输出|||在一般设置中,形状可以由任何SVG曲线基元(贝塞尔曲线、直线、弧线)表示。为了统一表示,示例包含曲线的折线近似。这些折线保存为......
  • 在Python中通过绝对路径引用数据文件夹
    我有一个大型python项目,其中数据太大,无法每次都以相同的方式共享。不同的人可能会使用网络位置或将某些内容复制到本地驱动器。该路径由不同子文件夹中的脚本和笔记本使用。例如,我将创建一个config.py来定义数据文件夹的路径。importsyssys.path.append('../'......
  • python三天速成记(看完你就会)day3 满满干货~
    续上文啦~EXCEL表的操作上一篇文章讲了怎么读取和操作txt和csv文档,但其实我们生活中还有一个常用的文本格式那就是excel文件,特别是在对大量数据进行处理的时候。excel文件的用处和广泛。其实在python中有很多库可以处理excel文件,但是本文主要介绍使用最实用最广泛的库pan......
  • Python输入验证改进的其他方式
    题目[题目来源:Python编程快速上手——让繁琐工作自动化(第二版)第三章实践项目,下面的解答程序为我自己完成的,仅供参考。]编写一个名为collatz()的函数,他有一个名为number的参数。如果参数是偶数,那么collatz()就输出number//2,并返回该值。如果参数是奇数,那么collatz()就......
  • Python的PyInputPlus模块
    PyInputPlus模块简介PyInputPlus模块的功能:PyInputPlus模块是一个Python第三方模块,需要自己对它进行安装。包含与input()函数类似的、用于多种数据(如日期、数字、电子邮箱地址等)的函数。如果,用户输入了无效的内容,例如格式错误的日期或超过预期范围的数字,那么PyInputPlus模......
  • 用Python实现二进制搜索(二分查找)
    二进制搜索(binarysearch,又称二分搜索)是一种快速有效的搜索方法,用于搜索有序列表中的元素。importmathdefbinary_search(sorted_list,target):"""在有序列表sorted_list中查找目标值target的位置使用二分查找算法"""lower_bound=0#初始......