NCCL

2024-08-05复现opendrivelab的“点云预测”项目
本文的主要工作就是复现下述论文中的算法。该论文全称：VisualPointCloudForecasting论文内容在此不做过多介绍，直接上项目。一、准备工作首先通读readme.md文件的内容，了解所需要的相关依赖和数据等内容。一定要多读几遍，不要扫一眼就过了。接下来就是部署环境，根据readme
2024-07-23NCCL测试
./build/all_reduce_perf-b8-e256M-f2-g2#nThread1nGpus2minBytes8maxBytes268435456step:2(factor)warmupiters:5iters:20aggiters:1validation:1graph:0##Usingdevices#Rank0Group0Pid60407ongpu003device0[0x26]
2024-07-09NCCL拓扑管理 - Topo模块
Topo模块提供System拓扑和Graph拓扑的构建接口，依赖XML模块。链路链路带宽NCCL对不同链接进行建模，但数值的绝对值看起来并不准，笔者估计代码开源时做了保密处理，但只要数值的相对值不影响拓扑搜索便对执行逻辑没有影响，所以无需较真这些带宽数值。#defineLOC_BW5000.0#de
2024-06-22集合通信库初步调研 NCCL、BCCL、TCCL、ACCL、HCCL
幕后黑手是否基于NCCL扩展是否支持异构通信核心设计目标是否开源BCCL百度是是故障诊断容错性能优化否TCCL腾讯是是为腾讯星脉网络定制通信库极致优化性能否ACCL阿里不详不详面向阿里云灵骏架构设计优化性能否HCCL华为不详否基于昇腾硬件否不同厂商的集合通信库，就是针对他们网
2024-04-18deepspeed 训练多机多卡报错 ncclSystemError Last error
最近在搞分布式训练大模型，踩了两个晚上的坑今天终于爬出来了我们使用2台8*H100遇到过错误110.255.19.85:ncclSystemError:Systemcall(e.g.socket,malloc)orexternallibrarycallfailedordeviceerror.10.255.19.85:Lasterror:10.255.19.85:socketStartCo
2024-04-04deepspeed学习-多机all_reduce
deepspeed学习-多机all_reduce一.安装nvidia-docker二.构建容器1.创建容器2.更新apt源3.安装依赖4.安装cuda12.1(编译deepspeed需要)5.设置ssh端口和密码(为避免跟hostsshd冲突,修改了容器里sshd端口)6.运行sshd服务7.安装pytorch8.测试nccl9.安装deepspeed10.退出容器
2024-03-14容器集群实现多机多卡分布式微调大模型chatglm2-6b（deepseed + LLaMA + NCCL）
环境信息2台物理机（187.135,187.136），各两张p4显卡，安装好docker=20.10.0,安装好nvidia驱动(driverversion=470.223.02,cudaversion=11.4）构造容器集群（dockerswarm187.136节点作为manager节点，187.135节点作为worker节点）[root@host-136~]#dockerswarminit--advertise-addr
2024-02-25RDMA网络
在Kubernetes的标准框架里，容器是只有1个网络平面的。即容器里面，只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络，还是underlay实现容器网络直通，其目的都是解决容器网络“通与不通”的问题。而大规模AI集群中，百亿、千亿级别参数量的大模型通常需要做分布式训练，这时参数梯
2023-11-16NCCL下载及安装教程
1、查看cuda版本whichcuda12、在确定cuda版本之后，注册并登录英伟达官网，查找指定cuda版本的NCCL软件；管网链接：https://developer.nvidia.com/nccl/nccl-legacy-downloads指定版本为：不确定系统，本地安装 3、下载到本地之后，压缩包文件名为：nccl_2.6.4-1+cuda10.0_ppc64le.txz解
2023-09-23从安卓模拟器中获取 expo-av 库录音得到的音频文件 file:///data/user/0/mo.com.nccl.xxx/cache/Audio
在使用expo-av录制音频时，录制结束通过recording.getURI()可以获取得到的音频文件的地址。想要获取该文件可以通过发送请求的方式：consturi=recording.getURI();letresponse=awaitfetch(uri);letblob=awaitresponse.blob();如果想直接根据文件路径找到这个文
2023-08-16NCCL接口测试
准备知识PyTorch分布式通信的程序包相关的API。torch.distributed.init_process_group()，初始化进程组。torch.distributed.get_rank()，可以获得当前进程的rank，rank%torch.torch.cuda.device_count()可以得到当前节点的ranklocal_rank。torch.distributed.get_world_size()
2023-07-27多节点高性能计算GPU集群的构建
建议参考原文：https://www.volcengine.com/docs/6535/78310 ============================================= 一直都在使用超算的GPU集群，但是从来没有实际操作过，虽然在自己的个人的三台主机上安装过小型的MPI集群，但是毕竟没有实际超算平台的构建经验，比如NCCL的超算平台上的
2023-07-18ubuntu 22.04离线安装cuda 11.7.1、cudnn 8.9.3.28、nccl 2.18.3、tensorrt 8.6.1
最近在使用飞桨OCR，有几个特殊的符号需要进行识别，手上只有两台机器，一台1080TI单卡(windows11)，一台1080Ti双卡(linux22.04)，习惯性追新到飞桨最高支持的cuda11.7，其实1080Ti到cuda10就够用了，后面的新版本差没有明显的性能提升。windows上无脑安装，linux上安装比较麻烦，记录下安装过程