首页 > 其他分享 >多节点高性能计算GPU集群的构建

多节点高性能计算GPU集群的构建

时间:2023-07-27 13:00:11浏览次数:49  
标签:NCCL 78310 docs 高性能 集群 volcengine GPU IB 节点

建议参考原文:

https://www.volcengine.com/docs/6535/78310

 

=============================================

 

一直都在使用超算的GPU集群,但是从来没有实际操作过,虽然在自己的个人的三台主机上安装过小型的MPI集群,但是毕竟没有实际超算平台的构建经验,比如NCCL的超算平台上的安装及配置,InfiniBand高速网络的构建等等,这些都是没有实际搞过的,在网上无意间看到的配置资料,于是在这里记录一下。

 

下面内容源自:

https://www.volcengine.com/docs/6535/78310

 

 

使用NCCL Tests测试工具评估集群性能

mpirun -x NCCL_IB_HCA=mlx5_1:1 -x NCCL_IB_DISABLE=0 -x NCCL_SOCKET_IFNAME=eth1 -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TIMEOUT=23 -x NCCL_IB_RETRY_CNT=7 -hostfile hostfile -n 16 -N 8 --allow-run-as-root --mca btl tcp,self --mca btl_tcp_if_exclude lo,mlx5_0 ./build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100

 

 

--------------------------------------------------------

 

 

 

 

=========================================

 

 

完整的配置还需要参考原文:

https://www.volcengine.com/docs/6535/78310

标签:NCCL,78310,docs,高性能,集群,volcengine,GPU,IB,节点
From: https://www.cnblogs.com/devilmaycry812839668/p/17584669.html

相关文章

  • GPU的硬件组成及运行原理
    GPU的硬件组成GPU是一种专门为图形处理而设计的处理器,它的设计目标是在处理大规模、高并发的图形数据时提供高效的计算能力。与CPU相比,GPU的处理器数量更多,每个处理器的计算能力相对较弱,但它们可以同时处理大量的数据,从而提供更高的计算效率。GPU的硬件组成包括:处理器单......
  • 高性能、高扩展、高稳定:解读 EasyMR 大数据组件自定义可扩展能力
    随着互联网技术的不断发展以及大数据时代的兴起,企业对于数据分析和洞察的需求日益增长。大多数企业都积累了大量的数据,需要从这些数据中快速灵活地提取有价值的信息,以便为用户提供更好的服务或者帮助企业做出更明智的决策。然而在不同的数据场景中,企业往往会选择不同的大数据组件......
  • k8s上搭建elasticsearch单节点集群(固定存储)
    因为Elasticsearch需要保持数据在固定的磁盘上,属于有状态的应用服务,因此采用k8s的StatefulSet模式部署。创建PersistentVolumes和Claim#es-persistent-volume.yamlapiVersion:v1kind:PersistentVolumemetadata:name:es-nfs-pvlabels:pv:es-nfs-pvspec:......
  • (数据科学学习手札153)基于martin的高性能矢量切片地图服务构建
    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师,在日常研发地图类应用的场景中,为了在地图上快速加载大量的矢量要素,且方便快捷的在前端处理矢量的样式,且矢量数据可以携带对应的若干属性字段,目前主流的做法......
  • pytorch 选定多GPU训练
    PyTorch多GPU训练实现在本文中,我将向你介绍如何使用PyTorch进行多GPU训练。作为一名经验丰富的开发者,我将以表格的形式展示整个实现流程,并在每一步中提供需要使用的代码和对其意义的注释。实现流程步骤代码说明1importtorch导入PyTorch库2importtorch.nnasn......
  • (五) MdbCluster分布式内存数据库——数据迁移架构及节点扩缩容状态图
    (五)MdbCluster分布式内存数据库——数据迁移架构及节点扩缩容状态图 上一篇:(四)MdbCluster分布式内存数据库——业务消息处理本节主要讨论在系统扩容期间的数据迁移架构及节点的状态图。我们将通过介绍这两部分,慢慢展开复杂的扩缩容流程。下图从左到右,我们增......
  • 金融领域:产业链知识图谱包括上市公司、行业和产品共3类实体,构建并形成了一个节点10w+
    金融领域:产业链知识图谱包括上市公司、行业和产品共3类实体,构建并形成了一个节点10w+,关系边16w的十万级别产业链图谱包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。上市公司4,654家,行业511个,产品95,559条、上......
  • 排查mysql pxc集群故障节点
    排查MySQLPXC集群故障节点MySQLPXC(PerconaXtraDBCluster)是一个高可用性的数据库集群解决方案,它基于MySQL和GaleraCluster技术实现。在实际运行中,可能会遇到一些节点故障的情况,本文将介绍如何排查MySQLPXC集群的故障节点,并给出相应的代码示例。1.检查集群状态在排......
  • 博客加入多条镜像分流节点
    title:博客加入多条镜像分流节点author:枷锁云-星尘avatar:https://pic.rmb.bdstatic.com/bjh/4d0bc5251b0b8744c872e9021acea141.pngcomments:truedate:2023-05-2707:53:29categories:公告tags:公告top_img:cover:详细为优化博客部分地区使用体验,现加入以下节......
  • C++强大、高性能、易于使用的format库
     fmtlib/fmt:Amodernformattinglibrary(github.com) {fmt} isanopen-sourceformattinglibraryprovidingafastandsafealternativetoCstdioandC++iostreams. DocumentationCheatSheetsQ&A:askquestionson StackOverflowwiththetagfmt.......