集群-------多台设备
HPC集群----多台用于计算的设备
集群调度-LSF:LSF 是一种强大的工作负载管理平台,提供基于各种策略的智能调度功能,利用分布式的基础架构资源来提高整体的系统性能。用户通过 LSF可以实现集群间的负载均衡,扩展集群构架和资源,最大限度的提高集群的使用效率。
主要命令:
bsub 命令提交
bqueues 队列查看
bhosts 节点查看
bjobs 作业查看
运行bqueues:
QUEUE_NAME:队列名称
PRIO:优先级
NJOBS:几个作业在并行
PEND:阻塞的作业数量
RUN:正在运行的作业数量
SUSP:挂起的作业数量
提交作业:bsub < demo.sh
demo.sh:
#BSUB -J testJob
#BSUB -n 28
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -q normal
echo "111"
-J 作业名称
-n 作业至少需要的CPU核数(28的倍数),也可以是范围(表示方法如[28,56])
-o 标准输出文件
-i 标准输入文件
-e 标准错误输出文件
-q 作业所提交队列名
-o -i -e 三个参数的文件名中可以包含%J用于表示JOBID;如果没有指定标准输出文件,那么系统会自动设定为 output_%J;如不想要输出文件请设置 -o /dev/null。
执行 bsub < demo.sh 后,成功加入队列将显示:
Job <175039> is submitted to queue <normal>.
查看作业运行情况:bjobs
查看作业详情:bjobs -l 作业号
终止指定的作业:bkill 作业号
查看任务日志,显示处于运行时作业的标准输出和标准错误输出信息:
bpeek -f 作业号
显示节点当前负载:lsload
module av 查看可用软件
module load xxx 加载所需软件
lsload -gpuload 查看gpu各个卡的信息
标签:LSF,输出,查看,作业,调度,集群,BSUB From: https://blog.51cto.com/u_13946099/6081321