PyTorch中的多GPU训练：DistributedDataParallel

时间：2022-10-27 10:37:17浏览次数：124

标签：DistributedDataParallel DDP PyTorch 使用 GPU 多线程

在pytorch中的多GPU训练一般有2种DataParallel（DP）和DistributedDataParallel（DDP），DataParallel是最简单的的单机多卡实现，但是它使用多线程模型，并不能够在多机多卡的环境下使用，所以本文将介绍DistributedDataParallel，DDP 基于使用多进程而不是使用多线程的 DP，并且存在 GIL 争用问题，并且可以扩充到多机多卡的环境，所以他是分布式多GPU训练的首选。

这里使用的版本为：python 3.8、pytorch 1.11、CUDA 11.4

如上图所示，每个 GPU 将复制模型并根据可用 GPU 的数量分配数据样本的子集。

对于 100 个数据集和 4 个 GPU，每个 GPU 每次迭代将处理 25 个数据集。

DDP 上的同步发生在构造函数、正向传播和反向传播上。在反向传播中梯度的平均值被传播到每个 GPU。

有关其他同步详细信息，请查看使用 PyTorch 官方文档：Writing Distributed Applications with PyTorch。

完整文章：

https://avoid.overfit.cn/post/278382575559496e844634b6671330e4

标签：DistributedDataParallel,DDP,PyTorch,使用,GPU,多线程
From： https://www.cnblogs.com/deephub/p/16831266.html

windows使用nvidia-smi查看gpu信息
需要在path添加如下路径才可以直接在cmd中使用nvidia-smi命令等。C:\ProgramFiles\NVIDIACorporation\NVSMIFan：显示风扇转速，数值在0到100%之间，是计算机的期望转......
PyTorch内置模型detection的resnet50使用,使用本地的权重文件
1##完全使用本地权重,识别时根据识别准确率来确定是否绘制2importmatplotlib.pyplotasplt3importtorch4importtorc......
pytorch+Unet图像分割:将图片中的盐体找出来
向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx 什么是图像分割问题呢？简单的来讲就是给一张图像，检测是用框出框出物体，而图像分割分出一......
安装pytorch遇到的OS电脑注册表报错及解决办法
今天在单位安装pytorch的时候，遇到了一个OS报错问题。我安装的是在CPU上的，虽然我安装了anaconda，但是我还是习惯性的选择用pip安装。所以我就直接去pytorch的官网h......
GPU高性能编程CUDA实战电子书 pdf
作者:JasonSanders/EdwardKandrot出版社:机械工业出版社原作名:CUDAbyExample:anIntroductiontoGeneral-PurposeGPUProgramming 链接：GPU高性能编程CUDA......
学习pytorch day02
NumPy数组数组对象是NumPy中最核心的组成部分，这个数组叫做ndarray，是“N-dimensionalarray”的缩写。其中的N是一个数字，指代维度，例如你常常能听到的1-D数组、2-......
学习PyTorch Day01
PyTorch设计得更科学，无需像TensorFlow那样，要在各种API之间切换，操作更加便捷。PyTorch能够帮你快速实现模型与算法的验证，快速完成深度学习模型部署，提供高并发服务，还......
《PyTorch 深度学习实践》-刘二大人第十三讲
同样的参数，CPU跑15min，GPU2min43s1#根据地名分辨国家2importmath3importtime4importtorch5#绘图6importmatplotlib.pyplotasplt7impo......
《PyTorch 深度学习实践》-刘二大人第十二讲
1'''2inputhello3outputohloluseRNNcell4'''5importtorch67input_size=48hidden_size=49batch_size=110#准备数据11idx2char=['e'......
Docker 使用GPU 错误之Error could not select device driver ““ with capabilities
Docker使用GPU错误之Errorcouldnotselectdevicedriver““withcapabilities:[[gpu]]错误之Errorresponsefromdaemon:couldnotselectdevicedriver““......

PyTorch中的多GPU训练：DistributedDataParallel

相关文章

赞助商

阅读排行