首页 > 其他分享 >大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——官方的运行配置文件中的错误修正——MPI启动配置

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC——官方的运行配置文件中的错误修正——MPI启动配置

时间:2023-08-25 09:33:14浏览次数:51  
标签:container 配置文件 default 平台 agent e01 21302 dlhpcshare MPI

官方的HPC运行配置文件:

#!/usr/bin/env bash
echo ----- print env vars -----

if [ "${CCS_ALLOC_FILE}" != "" ]; then
    echo "   "
    ls -la ${CCS_ALLOC_FILE}
    echo ------ cat ${CCS_ALLOC_FILE}
    cat ${CCS_ALLOC_FILE}
fi

export HOSTFILE=/tmp/hostfile.$$
rm -rf $HOSTFILE
touch $HOSTFILE

# parse CCS_ALLOC_FILE
## node name,  cores, tasks, task_list
#  hpcbuild002 8 1 container_22_default_00001_e01_000002
#  hpctest005 8 1 container_22_default_00000_e01_000001

ntask=`cat ${CCS_ALLOC_FILE} | awk -v fff="$HOSTFILE" '{}
{
    split($0, a, " ")
    if (length(a[1]) >0 && length(a[3]) >0) {
        print a[1]" slots="a[2] >> fff
        total_task+=a[3]
    }
}END{print total_task}'`

echo "openmpi hostfile $HOSTFILE generated:"
echo "-----------------------"
cat $HOSTFILE
echo "-----------------------"
echo "Total tasks is $ntask"
echo "mpirun -hostfile $HOSTFILE -n $ntask <your application>"

 

 

 

 

相关知识已在前文给出具体介绍,这里不再讨论,有需要可以翻阅之前blog。

 

 

===========================================

 

启动HPC上MPI的命令:

/opt/batch/cli/bin/dsub  -n xxxxxxx -A xxxxxxxxxxxx --priority 9999 --job_retry 10 --job_type hmpi -R "cpu=10;mem=128" -N 100  -eo error.txt -oo output.txt    xxxxxxxx.sh

可以看到,上面的命令是启动100个任务(-N 100),每个任务需要的资源为10个CPU和128MB的内存(-R "cpu=10;mem=128")。

 

用华为官方给出的HPC启动配置文件并将配置输出:

 

----- print env vars -----
   
-rw-rw----+ 1 ccs_agent ccs_agent 4777 Aug 25 08:40 /tmp/.ccscheduler/LiuHan/mpi/allocFile_container_21302_default_00000_e01_000001
------ cat /tmp/.ccscheduler/LiuHan/mpi/allocFile_container_21302_default_00000_e01_000001
dlhpcshare-agent-46 40 4 container_21302_default_00000_e01_000001 container_21302_default_00022_e01_000023 container_21302_default_00074_e01_000075 container_21302_default_00082_e01_000083
dlhpcshare-agent-25 10 1 container_21302_default_00039_e01_000040 
dlhpcshare-agent-49 30 3 container_21302_default_00060_e01_000061 container_21302_default_00009_e01_000010 container_21302_default_00054_e01_000055 
dlhpcshare-agent-28 70 7 container_21302_default_00047_e01_000048 container_21302_default_00023_e01_000024 container_21302_default_00094_e01_000095 container_21302_default_00053_e01_000054 container_21302_default_00018_e01_000019 container_21302_default_00079_e01_000080 container_21302_default_00013_e01_000014 
dlhpcshare-agent-21 10 1 container_21302_default_00067_e01_000068 
dlhpcshare-agent-44 20 2 container_21302_default_00099_e01_000100 container_21302_default_00077_e01_000078 
dlhpcshare-agent-61 10 1 container_21302_default_00069_e01_000070 
dlhpcshare-agent-40 10 1 container_21302_default_00033_e01_000034 
dlhpcshare-agent-41 20 2 container_21302_default_00042_e01_000043 container_21302_default_00003_e01_000004 
dlhpcshare-agent-42 30 3 container_21302_default_00034_e01_000035 container_21302_default_00037_e01_000038 container_21302_default_00015_e01_000016 
dlhpcshare-agent-20 80 8 container_21302_default_00011_e01_000012 container_21302_default_00056_e01_000057 container_21302_default_00093_e01_000094 container_21302_default_00002_e01_000003 container_21302_default_00076_e01_000077 container_21302_default_00087_e01_000088 container_21302_default_00092_e01_000093 container_21302_default_00031_e01_000032 
dlhpcshare-agent-8 60 6 container_21302_default_00050_e01_000051 container_21302_default_00058_e01_000059 container_21302_default_00030_e01_000031 container_21302_default_00055_e01_000056 container_21302_default_00012_e01_000013 container_21302_default_00014_e01_000015 
dlhpcshare-agent-6 10 1 container_21302_default_00044_e01_000045 
dlhpcshare-agent-2 20 2 container_21302_default_00081_e01_000082 container_21302_default_00064_e01_000065 
dlhpcshare-agent-14 60 6 container_21302_default_00084_e01_000085 container_21302_default_00086_e01_000087 container_21302_default_00043_e01_000044 container_21302_default_00071_e01_000072 container_21302_default_00098_e01_000099 container_21302_default_00052_e01_000053 
dlhpcshare-agent-36 100 10 container_21302_default_00095_e01_000096 container_21302_default_00038_e01_000039 container_21302_default_00061_e01_000062 container_21302_default_00091_e01_000092 container_21302_default_00090_e01_000091 container_21302_default_00001_e01_000002 container_21302_default_00078_e01_000079 container_21302_default_00085_e01_000086 container_21302_default_00066_e01_000067 container_21302_default_00007_e01_000008 
dlhpcshare-agent-59 10 1 container_21302_default_00065_e01_000066 
dlhpcshare-agent-15 40 4 container_21302_default_00051_e01_000052 container_21302_default_00072_e01_000073 container_21302_default_00073_e01_000074 container_21302_default_00068_e01_000069 
dlhpcshare-agent-39 10 1 container_21302_default_00080_e01_000081 
dlhpcshare-agent-17 40 4 container_21302_default_00057_e01_000058 container_21302_default_00070_e01_000071 container_21302_default_00075_e01_000076 container_21302_default_00028_e01_000029 
dlhpcshare-agent-54 30 3 container_21302_default_00083_e01_000084 container_21302_default_00010_e01_000011 container_21302_default_00059_e01_000060 
dlhpcshare-agent-12 50 5 container_21302_default_00097_e01_000098 container_21302_default_00096_e01_000097 container_21302_default_00048_e01_000049 container_21302_default_00063_e01_000064 container_21302_default_00089_e01_000090 
dlhpcshare-agent-34 120 12 container_21302_default_00027_e01_000028 container_21302_default_00016_e01_000017 container_21302_default_00032_e01_000033 container_21302_default_00036_e01_000037 container_21302_default_00020_e01_000021 container_21302_default_00029_e01_000030 container_21302_default_00019_e01_000020 container_21302_default_00040_e01_000041 container_21302_default_00024_e01_000025 container_21302_default_00004_e01_000005 container_21302_default_00017_e01_000018 container_21302_default_00045_e01_000046 
dlhpcshare-agent-57 30 3 container_21302_default_00006_e01_000007 container_21302_default_00049_e01_000050 container_21302_default_00088_e01_000089 
dlhpcshare-agent-13 30 3 container_21302_default_00005_e01_000006 container_21302_default_00041_e01_000042 container_21302_default_00035_e01_000036 
dlhpcshare-agent-53 60 6 container_21302_default_00021_e01_000022 container_21302_default_00062_e01_000063 container_21302_default_00046_e01_000047 container_21302_default_00008_e01_000009 container_21302_default_00025_e01_000026 container_21302_default_00026_e01_000027 

openmpi hostfile /tmp/hostfile.1217297 generated:
-----------------------
dlhpcshare-agent-46 slots=40
dlhpcshare-agent-25 slots=10
dlhpcshare-agent-49 slots=30
dlhpcshare-agent-28 slots=70
dlhpcshare-agent-21 slots=10
dlhpcshare-agent-44 slots=20
dlhpcshare-agent-61 slots=10
dlhpcshare-agent-40 slots=10
dlhpcshare-agent-41 slots=20
dlhpcshare-agent-42 slots=30
dlhpcshare-agent-20 slots=80
dlhpcshare-agent-8 slots=60
dlhpcshare-agent-6 slots=10
dlhpcshare-agent-2 slots=20
dlhpcshare-agent-14 slots=60
dlhpcshare-agent-36 slots=100
dlhpcshare-agent-59 slots=10
dlhpcshare-agent-15 slots=40
dlhpcshare-agent-39 slots=10
dlhpcshare-agent-17 slots=40
dlhpcshare-agent-54 slots=30
dlhpcshare-agent-12 slots=50
dlhpcshare-agent-34 slots=120
dlhpcshare-agent-57 slots=30
dlhpcshare-agent-13 slots=30
dlhpcshare-agent-53 slots=60
-----------------------
Total tasks is 100
mpirun -hostfile /tmp/hostfile.1217297 -n 100 <your application>

 

标签:container,配置文件,default,平台,agent,e01,21302,dlhpcshare,MPI
From: https://www.cnblogs.com/devilmaycry812839668/p/17656031.html

相关文章

  • Docker 安装Redis 无法使用配置文件设置密码问题
    背景最近开发需要使用各种组件,如果都到开发机上安装,会占用电脑资源较多。所以使用docker容器来安装这些组件。例如redis、mongodb、mysql、rabitmq、elasticsearch等等。遇到的问题用edis官方镜像启动容器后,发现没有加载配置文件。解决方案1.redis镜像拉下来......
  • 国标GB2818视频平台EasyGBS国标平台与车机设备连接显示未连接成功的问题解决方法
    EasyGBS平台可提供流媒体接入、处理、转发等服务,支持内网、公网的监控设备通过国标GB/T28181协议进行视频监控直播。平台兼容性强,只要设备支持国标GB28181协议,均能快速接入EasyGBS,实现视频的监控直播、视频录像、语音对讲、云存储、检索及回放、告警、级联等。​......
  • 国标视频云服务EasyGBS国标平台与海康4200平台级联后不能播放的问题解决方法
    国标视频云服务EasyGBS支持设备/平台通过国标GB28181协议注册接入,并能实现视频的实时监控直播、录像、检索与回看、语音对讲、云存储、告警、平台级联等功能。平台部署简单、可拓展性强,支持将接入的视频流进行全终端、全平台分发,分发的视频流包括RTSP、RTMP、FLV、HLS、WebRTC等......
  • 大咖论道|源启数据资产管理平台助力金融机构加速数据资产化过程(上)
    2023年1月4日,为进一步赋能数据要素价值释放,加强数据资产行业交流合作,由中国信息通信研究院、中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员会(CCSATC601)主办的第五届数据资产管理大会在线上召开。会上,中电金信商业分析事业部总经理、中电金信数据研发委员会主......
  • 视频云存储/安防监控AI视频智能分析平台——智慧煤矿解决方案
    一、方案背景煤矿业是一个高风险行业,存在着许多潜在的安全隐患和风险。互联网、物联网、人工智能等新兴技术高速发展,为传统行业带来颠覆性变革,将高新技术与传统技术装备、管理相融合,实现产业转型升级已经成为煤矿行业发展趋势。二、行业痛点1)煤矿作业环境复杂,存在瓦斯爆炸、......
  • linux的用户配置文件(4个用户文件)
    Linux中用户与组原创 凉兮 凉兮的运维日记 2023-08-2411:07 发表于北京收录于合集#linux11个#管理员1个#linux系统5个一、基本概念1、基本介绍    Linux作为一种多用户的操作系统(服务器系统),允许多个用户同时登录到系统上,并响应每个用户的请求。任何......
  • 浅谈视频汇聚平台EasyCVR中AI中台的应用功能
    AI中台是将人工智能技术如深度学习、计算机视觉、知识图谱、自然语言理解等模块化,集约硬件的计算能力、算法的训练能力、模型的部署能力、基础业务的展现能力等人工智能能力,结合中台的数据资源,封装成整体中台系统。在EasyCVR视频共享融合云平台中,AI中台是专门提供人工智能视频......
  • 国标视频云服务EasyGBS国标视频平台迁移服务器后无法启动的问题解决方法
    国标视频云服务EasyGBS支持设备/平台通过国标GB28181协议注册接入,并能实现视频的实时监控直播、录像、检索与回看、语音对讲、云存储、告警、平台级联等功能。平台部署简单、可拓展性强,支持将接入的视频流进行全终端、全平台分发,分发的视频流包括RTSP、RTMP、FLV、HLS、WebRTC等格......
  • 错过这5大AI绘画提示词平台,你会拍大腿!别问,直接收藏!
    如今,AI绘画已经不再是简单的技术展示,而是逐渐转向了商业化的运营。有的人利用AI生成的图片,再结合ChatGPT产生的文字,然后在平台上发布,这样就可以赚取平台的广告费。其他一些变现操作参考之前的文章:AI飞行家:AI头像壁纸号项目全流程深度拆解AI壁纸号一周增加上千粉丝,轻松变现的......
  • Springboot-配置文件
    1.SpringBoot配置文件格式1.properties2.ymlproperties优先级高于yml。自动识别的配置文件:bootstrap.yml和application.yml,bootstrap.yml先于application.yml加载,一般用于系统级别的配置,application.yml一般用于项目级别的配置Springboot官方的配置:https://docs......