首页 > 其他分享 >大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC平台异构计算——NVIDIA GPU

大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC平台异构计算——NVIDIA GPU

时间:2023-07-03 20:02:53浏览次数:41  
标签:容器 task 20 异构计算 AI 平台 GPU gpu

 

 

 

使用华为的超算平台已经好长时间了,一直有个疑问,那就是这个超算平台是否支持异构计算,于是用命令试验了一下,具体命令:

 

/opt/batch/cli/bin/dsub   -n task_test -A xxxxxxxxxxxx -eo error.txt -oo output.txt -R "gpu=1" /usr/bin/nvidia-smi -pm 1

 

 

 

 

 

-n 为此次的计算任务名;

-A 为扣费账号,这里用xxxxxxxxxxxxx 代替;

-eo 为error的log;

-oo 为output的log;

运行命令为:/usr/bin/nvidia-smi -pm 1

 

上面命令关键的地方为:-R "gpu=1"

在超算计算中一个运行的总计算任务叫做job,叫做“作业”,而一个job会运行多个副本(每个副本就是mpi中的并行进程),每个副本叫做“task”,即“任务”;

如果没有使用 -N 来指定job的task个数,那么就是一个job只有一个task,而我们使用 -R "gpu=1" 用来指定每个运行的task都必须运行在有一个gpu的主机上,因此使用 -R "gpu=1" 可以保证运行的task都是可以有一个gpu进行调用的。

 

 

 

在华为的超算平台中采用容器的概念对资源进行调配,这里的容器并不是一个真实物理机的概念,容器的这个概念更贴近于虚拟机;假设当前我们只有一个主机名为slave-32的主机,该主机有128个可用CPU,4个可用GPU,那么我们使用 -N 20 -R “cpu=120;gpu=1” 的命令运行mpi代码,我们实际上是将slave-32主机虚拟成了20个有着120个CPU和1个GPU的容器(虚拟主机),分别在20个容器中的20个进程在通信,看似像20个容器(虚拟主机)通信,实际上都是运行在slave-32主机上。

 

 

 

=======================================================

 

标签:容器,task,20,异构计算,AI,平台,GPU,gpu
From: https://www.cnblogs.com/devilmaycry812839668/p/17523846.html

相关文章

  • Check Point R81.20 Gaia - 下一代防火墙 (NGFW)
    CheckPointR81.20Gaia-下一代防火墙(NGFW)QuantumSecurityGateway请访问原文链接:https://sysin.org/blog/check-point-r81/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.orgQuantumSecurityGatewayandGaiaR81.20QuantumSecurityGatewayandGaiaR81.......
  • Eolink 全新一代「AI+API」协作管理平台,大模型驱动打造 API 研发管理与自动化测试!
    行业首发!Eolink全新一代「AI+API」协作管理平台,实现「AI+API」结合,大模型驱动打造API研发管理与自动化测试全新体验。Eolink「AI+API」为API带来什么?输入语义化指令即可生成API文档内容;在API文档测试页中可一键生成测试请求数据;可实现圈定API文档范围智能生......
  • 浅谈安科瑞EMS2.0能效管理平台在制药厂洁净室的电气设计与选型
    罗轩志安科瑞电气股份有限公上海嘉定201801摘要:从设计原则、动力配电、照明配电和通信等方面分析了在洁净室电气设计中应遵循的原则和应注意的问题,并通过附图详细表明了医药洁净室管线的密封处理方法。关键词:医药洁净室;药品生产质量管理规范;密封;照度;应急照明;防静电接地0引言随着......
  • 低代码应用开发平台 高效构建业务系统
    低代码是传统软件开发逐步优化和演变的产物,并非全新革命。传统的开发方法过于昂贵和僵化,无法为企业提供所需的高效和敏捷的开发流程,且交付周期长定制能力弱,难以应对不断变化的市场和客户期望,为提高软件开发效率,对代码进行模块化组装的低代码产品进入开发者视野。低代码是基于可视......
  • ps汉化插件套装|最新 Retouch4me ​史上最强AI修图神器来了!
    Retouch4me是由鼎鼎大名的3DLutCreator作者开发的一套基于神经网络的人像照片快速精修工具,它功能强大,同时它基于神经网络,使得操作简单易上手,是一套备受推崇的经典插件。Retouch4me无需对皮肤问题区域进行手动操作,只需按一下按钮即可获得高质量结果!而且还可以实现专业工作流......
  • App自动化测试工具 - AirTest
    App自动化测试工具-AirTest本次专题分享的系列目标AriTest简介AirTest能做什么AirTest搭建方式AirTestIDE工具下载AirTestIDE安装步骤AirTestIDE布局AirTestIDE链接Android设备远程设备连接兼容模式AirTest图像框架API新建脚本类型选择区别:Tips:运行脚本查看报......
  • LangChain:一个让你的LLM变得更强大的开源框架
    前言  你可能听说过,最近几个月出现了很多人工智能的应用程序。你可能也在用一些这样的应用。  比如ChatPDF和CustomGPTAI这些AI工具,它们可以帮我们省去很多麻烦,我们不用再翻来覆去地看文档,就能找到想要的答案。它们让AI为我们做了很多工作。  那么,开发这些......
  • 为什么LntonMedia视频平台按时间调用录像,但提示数据查询错误?
    LntonMedia能实现视频流媒体的上传、转码、存储、录像、推拉流、直播、点播等功能,具备超低延迟、超高画质、超大并发访问量等特点,可应用在多样化的场景中,如:在线课堂、教育直播、校园活动直播、企业培训、游戏直播等。为了便于用户二次开发、调用与集成,我们也提供了丰富的API接口供......
  • OGG-02912 Patch 17030189 is required on your Oracle mining database for trail fo
    Therewillbeascript"prvtlmpg.plb"undergghomedirectory[oracle@OGGR2-1ogg]$ls-lrtprvtlmpg.plb-rw-r-----1oracleoinstall9487May272015prvtlmpg.plb[oracle@OGGR2-1ogg]$pwd/ogg[oracle@OGGR2-1ogg]$Logintothedatabaseand......
  • AI_Pytorch_参数空间
    AI算法构成DatasetModelTrainInferDeploy解耦:模型训练过程中保存的模型文件是包含前向预测和反向传播的过程,在实际的工业部署则不需要反向传播,因此需要将模型进行导成部署需要的模型格式配置化:配置都会包含三个主要内容:数据配置、网络模型、训练策略Mod......