建议参考原文:
https://www.volcengine.com/docs/6535/78310
=============================================
一直都在使用超算的GPU集群,但是从来没有实际操作过,虽然在自己的个人的三台主机上安装过小型的MPI集群,但是毕竟没有实际超算平台的构建经验,比如NCCL的超算平台上的安装及配置,InfiniBand高速网络的构建等等,这些都是没有实际搞过的,在网上无意间看到的配置资料,于是在这里记录一下。
下面内容源自:
https://www.volcengine.com/docs/6535/78310
使用NCCL Tests测试工具评估集群性能
mpirun -x NCCL_IB_HCA=mlx5_1:1 -x NCCL_IB_DISABLE=0 -x NCCL_SOCKET_IFNAME=eth1 -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TIMEOUT=23 -x NCCL_IB_RETRY_CNT=7 -hostfile hostfile -n 16 -N 8 --allow-run-as-root --mca btl tcp,self --mca btl_tcp_if_exclude lo,mlx5_0 ./build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100
--------------------------------------------------------
=========================================
完整的配置还需要参考原文:
https://www.volcengine.com/docs/6535/78310
标签:NCCL,78310,docs,高性能,集群,volcengine,GPU,IB,节点 From: https://www.cnblogs.com/devilmaycry812839668/p/17584669.html