分布式机器学习中的数据并行(Data Parallelism)和模型并行(model parallelism)
前言:
现在的模型越来越复杂,参数越来越多,其训练集也在剧增。在一个很大的数据集集中训练一个比较复杂的模型往往需要多个GPU。现在比较常见的并行策略有:数据并行和模型并行,本文主要讨论这两个并行策略。
数据并行(Data Parallelism):
在现在的深度学习中,有时候因为数据集太大而无法装在一个节点上,所以我们就会把数据进行划分。
在数据并行中,每一个节点都有一份模型,各个节点取不同的数据(通常是一个batch_size),然后各自完成前向和后向的计算得到梯度,这些计算梯度的进程成为worker,还有一个参数服务器,简称ps server。 worker会将计算得到的梯度送到ps server, 然后 ps server 会按照某种方式进行合并梯度【such as: 所有梯度的加权平均值】, 然后再将得到的梯度传回worker。
缺点: 在这个过程中每一次迭代需要梯度同步,也就是说每一次迭代都要等待所有的worker计算完它的梯度才能进行下一次迭代。
模型并行(model parallelism)
在现在的深度学习中,模型越来越复杂,其层数越来越多、参数也越来越多,有时候无法将一个模型装入一个节点中,所以需要模型并行。
在模型并行中,会将模型分成几个部分,将连续的一些层放入一个节点中,该节点单独计算其梯度。
比如:用10个GPU来训练ResNet50,可以将第一个5层分配给GPU1,第二个5层分配给GPU2,以此类推,最后5层分配给GPU10。那么在模型的训练中,forward阶段:首先是GPU1进行训练,GPU2等待GPU1的输出作为输入进行训练,是一个串行的方式。当forward结束,在GPU10计算梯度并更新参数,然后梯度往后传递给GPU9。每一个节点就像流水线上的产品,等待前一个的输入,并且处理完毕之后将输出送给下一个节点。
缺点:节点之间的通信开销很大。
参考:
Data Parallelism VS Model Parallelism in Distributed Deep Learning Training
标签:梯度,模型,并行,Parallelism,Data,节点 From: https://www.cnblogs.com/EchoZQN/p/16742234.html