首页 > 其他分享 >升级slurm,从18.08到23.02

升级slurm,从18.08到23.02

时间:2024-01-16 21:22:31浏览次数:22  
标签:-- 18.08 slurm 23.02 yum 64 rpm

前言

本笔记是大致流程,给有一定管理经验的slurm cluster管理员参考,还是建议大家少折腾。

环境

CentOS7, openHPC1.3.9全家桶(附带slurm18.08),xcat集群管理(没有xcat的话,用for循环ssh代替psh和pscp)

slurm版本

Slurm最近的大版本如下(年.月)
18.08, 19.05, 20.02, 20.11, 21.08, 22.05, 23.02, 23.11
Slurm升级时要求不能超过两个大版本,所以策略是:
18.08->20.02->21.08->23.02

软件仓库

本次需要的20.02,21.08,23.02都需要自行下载rpm包

wget --mirror --no-parent https://depot.galaxyproject.org/yum/package/slurm/23.11/7/x86_64/18.08

下载下来就能当仓库,我们只取最后的文件夹,mysql有现成的,应该不需要额外安装

|-- 18.08
|   |-- _archive
|   |-- index.html
|   |-- munge-0.5.14-1.el7.x86_64.rpm
|   |-- munge-devel-0.5.14-1.el7.x86_64.rpm
|   |-- munge-libs-0.5.14-1.el7.x86_64.rpm
|   |-- repodata
|   |-- slurm-18.08.9-1.el7.x86_64.rpm
|   |-- slurm-contribs-18.08.9-1.el7.x86_64.rpm
|   |-- slurm-devel-18.08.9-1.el7.x86_64.rpm
|   |-- slurm-slurmd-18.08.9-1.el7.x86_64.rpm
|   |-- slurm-slurmdbd-18.08.9-1.el7.x86_64.rpm
...
|   `-- _staging
|-- 20.02
|   |-- _archive
|   |-- index.html
...
|-- 21.08
...
|-- 22.05
...
|-- 23.02
...

升级操作

参考

https://wiki.fysik.dtu.dk/Niflheim_system/Slurm_installation/#upgrading-slurm

首先备份数据库(如果不需要计费,也没有特殊规则,问题不大,正常升级不会损坏数据库)
升级顺序是->slurmdbd -> slurmctld -> slurmd
18.08似乎不能把任务扔下而升级slurm(我这里的bug?),我直接停了全部的slurm服务后开始操作

由于slurm与slurm-openHPC不兼容,所以要先在所有节点上卸载openHPC中slurm和相关软件包(比如munge)

psh compute yum remove -y munge-ohpc munge-libs-ohpc slurm-example-configs-ohpc;
yum remove -y slurmdbd slurmctld

创建一个repo

[slurm20.02]
name=Slurm 20.02 Repository
baseurl=file:///root/slurm20.02/
enabled=1
gpgcheck=0

分发到各个计算节点

psh compute mkdir /etc/yum.repos.d/bak/
psh compute mv /etc/yum.repos.d/*.repo /etc/yum.repos.d/bak/
pscp /etc/yum.repos.d/slurm20.02.repo compute:/etc/yum.repos.d/slurm20.02.repo
# 分发软件包,如果有合适的共享存储,放在共享存储也行
pscp ~/slurm20.02 compute:

管理节点安装slurmctld和slurmdbd

#把其他所有repo放在bak中,或者去对应文件夹安装rpm全称
yum install -y slurm-slurmcdbd slurm-slurmctld
不要使用systemd启动slurmdbd,使用命令启动并转化数据库到新版。
slurmdbd -D -vvv

结束后slurmdbd不会结束,看到成功rollup就好,Ctrl+C结束即可。
计算节点安装slurmd和pam(如果需要pam的话)

psh compute yum install slurm-slurmd slurm-pam_slurm

可以启动所有服务了。
下一个版本升级按相似的顺序来。
升级过程中如果遇到数据库升级报错,服务无法启动的情况
也许需要journalctl -xeu service_name查看日志,排查错误。
距离升级过去了几天才有时间写笔记,有点儿记不清了,有问题再讨论。

标签:--,18.08,slurm,23.02,yum,64,rpm
From: https://www.cnblogs.com/HuaNeedsPills/p/17968536

相关文章

  • 使用Slurm集群进行分布式图计算:对Github网络影响力的系统分析
    本文分享自华为云社区《基于Slurm集群的分布式图计算应用实践:Github协作网络影响力分析》,作者:yd_263841138。1.引言Slurm(SimpleLinuxUtilityforResourceManagement)是一个针对小型Linux集群的开源、容错、高可扩展的集群管理及作业调度系统,它具备统一管理集群内的计算资源......
  • Slurm和K8S
     1、观点差异K8s专为管理长时间运行的流程而构建的      协调多个微服务,扩展、管理可用性,通常支持一个或多个web服务云原生系统假设有"infinite"可用资源        优先级不是云编排的核心,体现在调度语义上,"Affinity"与"Anti-Affinity"设置不能......
  • slurm 不支持--share 选项-解决方法
    提交脚本含有--share的会报错,反复安装slurm尝试都失败sbatchslurm_scriptsbatch:unrecognizedoption'--share'Try"sbatch--help"formoreinformation 结果是:slurm自从14.0后就不支持share了,改用--oversubscribe,这样就允许一个节点同......
  • Slurm 测试环境配置
    Slurm测试环境配置1.机器规划Host:HPC_Slurm_Main:192.168.141.135Clients:HPC_Slurm_Client01:192.168.141.136HPC_Slurm_Client02:192.168.141.137HPC_Slurm_Client03:192.168.141.1382.修改主机名 /etc/hosts, /etc/hostname192.168.141.136 node1-nfs192.168.141.137......
  • Slurm执行的CPU管理步骤
    Slurm使用四个基本步骤来管理一个job/step的CPU资源:步骤1:节点选择Slurm选择向作业或作业步骤分配CPU资源的节点集。节点选择受到许多控制CPU分配的配置和命令行选项的影响(下面的步骤2)。如果配置了SelectType=select/linear,则所选节点上的所有资源都将分配给job/step。如果Selec......
  • 谁在使用SLURM
    Slurm在世界上许多最强大的计算机上提供工作负载管理。在2013年11月的Top500榜单上,排名前十的系统中有五个使用Slurm,包括排名第一的系统。仅这五个系统就包含超过570万个核心。下面列出了一些使用Slurm的系统:天河二号由中国国防科技大学(NUDT)设计,拥有16000个节点,每个节点配备2......
  • 源码安装slurm
    一、源码安装munge1、下载munge下载地址:https://github.com/dun/munge/releases2、安装编译 tar-Jxvfmunge-0.5.15.tar.xz./bootstrap./configure--prefix=/usr/local/munge\--sysconfdir=/usr/local/munge/etc\--localstatedir=/usr/local/munge/local\--with-......
  • Slurm的命令
    sacct用于报告有关活动或已完成作业的作业或作业步的记账信息。salloc用于实时为作业分配资源。通常用于分配资源和生成shell。然后使用shell执行srun命令来启动并行......
  • 2023.02.17 模拟赛小结
    2023.02.17模拟赛小结目录2023.02.17模拟赛小结更好的阅读体验戳此进入赛时思路T1CodeT2CodeT3Code正解T1CodeT2UPD更好的阅读体验戳此进入赛时思路T1有一道类似的......
  • 2023.02.21 模拟赛小结
    2023.02.21模拟赛小结目录2023.02.21模拟赛小结更好的阅读体验戳此进入赛时思路T1CodeT2CodeT3CodeT4Code正解T1CodeT2CodeT3T4UPD更好的阅读体验戳此进入赛时思路T1......