• 2024-08-05复现opendrivelab的“点云预测”项目
    本文的主要工作就是复现下述论文中的算法。该论文全称:VisualPointCloudForecasting论文内容在此不做过多介绍,直接上项目。一、准备工作首先通读readme.md文件的内容,了解所需要的相关依赖和数据等内容。一定要多读几遍,不要扫一眼就过了。接下来就是部署环境,根据readme
  • 2024-07-23NCCL测试
    ./build/all_reduce_perf-b8-e256M-f2-g2#nThread1nGpus2minBytes8maxBytes268435456step:2(factor)warmupiters:5iters:20aggiters:1validation:1graph:0##Usingdevices#Rank0Group0Pid60407ongpu003device0[0x26]
  • 2024-07-09NCCL拓扑管理 - Topo模块
    Topo模块提供System拓扑和Graph拓扑的构建接口,依赖XML模块。链路链路带宽NCCL对不同链接进行建模,但数值的绝对值看起来并不准,笔者估计代码开源时做了保密处理,但只要数值的相对值不影响拓扑搜索便对执行逻辑没有影响,所以无需较真这些带宽数值。#defineLOC_BW5000.0#de
  • 2024-06-22集合通信库初步调研 NCCL、BCCL、TCCL、ACCL、HCCL
    幕后黑手是否基于NCCL扩展是否支持异构通信核心设计目标是否开源BCCL百度是是故障诊断容错性能优化否TCCL腾讯是是为腾讯星脉网络定制通信库极致优化性能否ACCL阿里不详不详面向阿里云灵骏架构设计优化性能否HCCL华为不详否基于昇腾硬件否不同厂商的集合通信库,就是针对他们网
  • 2024-04-18deepspeed 训练多机多卡报错 ncclSystemError Last error
     最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了我们使用2台8*H100遇到过错误110.255.19.85:ncclSystemError:Systemcall(e.g.socket,malloc)orexternallibrarycallfailedordeviceerror.10.255.19.85:Lasterror:10.255.19.85:socketStartCo
  • 2024-04-04deepspeed学习-多机all_reduce
    deepspeed学习-多机all_reduce一.安装nvidia-docker二.构建容器1.创建容器2.更新apt源3.安装依赖4.安装cuda12.1(编译deepspeed需要)5.设置ssh端口和密码(为避免跟hostsshd冲突,修改了容器里sshd端口)6.运行sshd服务7.安装pytorch8.测试nccl9.安装deepspeed10.退出容器
  • 2024-03-14容器集群实现多机多卡分布式微调大模型chatglm2-6b(deepseed + LLaMA + NCCL)
    环境信息2台物理机(187.135,187.136),各两张p4显卡,安装好docker=20.10.0,安装好nvidia驱动(driverversion=470.223.02,cudaversion=11.4)构造容器集群(dockerswarm187.136节点作为manager节点,187.135节点作为worker节点)[root@host-136~]#dockerswarminit--advertise-addr
  • 2024-02-25RDMA网络
    在Kubernetes的标准框架里,容器是只有1个网络平面的。即容器里面,只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络,还是underlay实现容器网络直通,其目的都是解决容器网络“通与不通”的问题。而大规模AI集群中,百亿、千亿级别参数量的大模型通常需要做分布式训练,这时参数梯
  • 2023-11-16NCCL下载及安装教程
    1、查看cuda版本whichcuda12、在确定cuda版本之后,注册并登录英伟达官网,查找指定cuda版本的NCCL软件;管网链接:https://developer.nvidia.com/nccl/nccl-legacy-downloads指定版本为:不确定系统,本地安装 3、下载到本地之后,压缩包文件名为:nccl_2.6.4-1+cuda10.0_ppc64le.txz解
  • 2023-09-23从安卓模拟器中获取 expo-av 库录音得到的音频文件 file:///data/user/0/mo.com.nccl.xxx/cache/Audio
    在使用expo-av录制音频时,录制结束通过recording.getURI()可以获取得到的音频文件的地址。想要获取该文件可以通过发送请求的方式:consturi=recording.getURI();letresponse=awaitfetch(uri);letblob=awaitresponse.blob();如果想直接根据文件路径找到这个文
  • 2023-08-16NCCL接口测试
    准备知识PyTorch分布式通信的程序包相关的API。torch.distributed.init_process_group(),初始化进程组。torch.distributed.get_rank(),可以获得当前进程的rank,rank%torch.torch.cuda.device_count()可以得到当前节点的ranklocal_rank。torch.distributed.get_world_size()
  • 2023-07-27多节点高性能计算GPU集群的构建
    建议参考原文:https://www.volcengine.com/docs/6535/78310 ============================================= 一直都在使用超算的GPU集群,但是从来没有实际操作过,虽然在自己的个人的三台主机上安装过小型的MPI集群,但是毕竟没有实际超算平台的构建经验,比如NCCL的超算平台上的
  • 2023-07-18ubuntu 22.04离线安装cuda 11.7.1、cudnn 8.9.3.28、nccl 2.18.3、tensorrt 8.6.1
    最近在使用飞桨OCR,有几个特殊的符号需要进行识别,手上只有两台机器,一台1080TI单卡(windows11),一台1080Ti双卡(linux22.04),习惯性追新到飞桨最高支持的cuda11.7,其实1080Ti到cuda10就够用了,后面的新版本差没有明显的性能提升。windows上无脑安装,linux上安装比较麻烦,记录下安装过程