首页 > 其他分享 >HPC中常见的调度器介绍

HPC中常见的调度器介绍

时间:2023-08-03 17:35:31浏览次数:46  
标签:PBS Torque 常见 作业 调度 Grid HPC

本文分享自天翼云开发者社区《HPC中常见的调度器介绍》 作者:土豆炒肉丝

在高性能计算(HPC)环境中,调度器是负责管理和分配计算资源(如计算节点、处理器核心、内存等)给待执行任务的重要组件。不同的HPC系统可能使用不同的调度器,根据系统架构和用户需求的不同,调度器有各自的特点和区别。以下是一些常见的HPC调度器及其区别:

1.SLURM(Simple Linux Utility for Resource Management):

SLURM是一个开源的HPC调度器,广泛应用于高校、超算中心等HPC集群。它提供了丰富的功能,包括作业提交、资源分配、优先级管理、任务监控等。SLURM支持多种作业调度策略,如先进先出(FIFO)、公平共享(Fairshare)、优先级调度等。它还支持作业数组,可以一次性提交多个相似的任务。

2、PBS(Portable Batch System):

PBS是另一个流行的HPC调度器,有商业版本PBS Professional和开源版本Open PBS。它具有强大的灵活性和可扩展性,适用于各种规模的HPC环境。PBS支持多种调度策略,如最短作业优先(SJF)、先来先服务(FCFS)、优先级调度等。PBS还可以根据用户和组织的需求进行自定义配置。

3.LSF(Load Sharing Facility):

LSF是一种商业化的HPC调度器,由IBM开发。它在大规模集群中表现出色,支持多种调度算法,如公平调度、资源回收、优先级调度等。LSF还提供了高度可定制的作业调度规则和策略。

4.Torque/Maui:

Torque是一个开源的HPC调度器,Torque源于PBS的分支版本,用于管理和调度计算资源。Maui是一个与Torque配套的作业调度器,它提供了更高/级的作业调度功能。Torque/Maui组合被广泛用于中小规模的HPC集群。

5.Grid Engine:

Grid Engine是一种开源的HPC调度器,可以在分布式计算环境中进行资源管理和作业调度。Grid Engine支持多种调度策略和作业优先级管理。Grid Engine调度器最早由SUN公司开发,Oracle将其收购后,出现了多个分支版本,如Univa Grid Engine、Oracle Grid Engine、Open Grid Schedule等。

这些HPC调度器之间的区别主要体现在以下方面:

1.源VS商业:一些调度器是开源的,免费使用,如SLURM、Open PBS和Torque,而其他调度器是商业化的,需要购买授权,如LSF。

2.功能和灵活性:不同的调度器提供不同的功能和灵活性,某些调度器可能更适合特定类型的HPC环境或应用场景,如PBS在汽车行业大量应用,LSF对EDA软件支持较好,在电子芯片设计行业应用广泛。

3.性能和可扩展性:调度器的性能和可扩展性可能因集群规模和资源管理复杂性而有所不同。

4.配置和管理:调度器的配置和管理过程也可能有所不同,一些调度器可能需要更多的手动设置和维护。

在选择HPC调度器时,需要根据自己的HPC环境和需求来做出合适的选择。无论使用哪种调度器,良好的作业调度和资源管理都是高性能计算集群运行的关键因素。

标签:PBS,Torque,常见,作业,调度,Grid,HPC
From: https://www.cnblogs.com/developer-tianyiyun/p/17603942.html

相关文章

  • 恒创科技:网站无法访问的常见原因
    ​有多种问题可能会阻止用户访问您的网站。本文将解决无法访问网站,且没有错误消息指示确切问题的情况,希望对您有所帮助。无法访问网站的常见原因有:(1)DNS设置不正确。(2)域名已过期。(3)空白或没有索引文件。(4)网络连接问题。DNS设置不正确......
  • Django常见出错解决方案汇总
    一、模板类型错误:错误原因:在models中漏掉了return:classUserProfile(models.Model):"""功能说明:扩展用户---------------------------------------------------------------------------修改人修改时间修改原因......
  • curl常见用法以及查看响应时间
    curl是一个很强大的工具,支持模拟http请求,语法如下:curl[options][URL...]最简单的用法➜~curlhttp://www.baidu.com最常用法-H:代表header头-X:是指定什么类型请求(POST/GET/HEAD/DELETE/PUT/PATCH)-d:代表传输数据curl-H"Content-Type:application/json"-XPOST......
  • Linux的组成及常见发行版本
    Linux的组成通过上节总结可知,linux由以下3部分组成:内核(linustorvalds开发)GNU组件(如gcc、bash、gawk等)外围应用程序(如MIT的X-windows图形化用户界面、其他成千上万程序员开发的免费应用等等)Linux的三大应用领域:服务器领域在中国,Linux服务器领域占80%(CentOS6+5+U......
  • linux 运维常见错误
    一、系统故障此处以Linux系统为主No.1linux系统无法启动原因1:文件系统配置不当,比如/etc/fstab文件等配置错误或丢失,导致系统错误无法启动。一般是人为修改错误或者文件系统故障。排查方法:系统配置/etc/fstab错误或丢失而无法启动,当启动的时候,出现startingsystemlogger后停止了;解......
  • 常见距离计算的Python实现
    常见的距离有曼哈顿距离、欧式距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离等,用Python实现计算的方式有多种,可以直接构造公式计算,也可以利用内置线性代数函数计算,还可以利用scipy库计算。1.曼哈顿距离也叫城市街区距离,是两点差向量的L1范数,也就是各元素的绝对值之和......
  • 数仓调度辅助功能效率提升
    调度是数仓数据生成的执行者,好的调度可以事半功倍,目前市面上的调度很多,比如DolphinScheduler、Oozie、Azkaban等调度工具,当然也可自行开发适合自己企业个性化的调度工具。调度工具怎么实现这里暂且不谈,核心谈一下调度除了基本的核心功能外,在实际工作中还需要具备哪些功能,可以提升......
  • 全域调度:云边协同在视频场景下的探索实践
    随着多媒体业务越来越多的涌现,每个业务都有不同的差异性特征。各大视频云厂商遇到的最大挑战是如何打造多媒体分发网络,使用最低成本为多业务提供最优质网络体验。本次分享邀请到了华为云算法专家——杨昌鹏老师,为我们介绍云边协同在视频场景下的探索实践。文/杨昌鹏整理/LiveVi......
  • 12个常见idea快捷键 记录
    sout:快速生成System.out.println();psvm:快速生成main方法;Ctrl+Alt+V:补全等号左边的变量类型和变量名;Ctrl+Shift+Enter/Alt+Enter :补全当前行的结束分号,或者在方法名、if后使用可补全小括号和花括号;Shift+Enter:在当前行的下一行创建新行,相当于光标跳转到......
  • 常见文件Content-Type汇总
    ApplicationType文件扩展名Content-Type(Mime-Type)描述.application/x- .*application/octet-stream二进制流,不知道下载文件类型.pdfapplication/pdfPDF(PortableDocumentFormat的简称,意为“便携式文件格式”).aiapplicat......