【知识点】分布式系统相关名词/概念/知识点

标签：知识点 reduce 名词 Reduce Gather 并行分布式系统数据节点

通信原语[1]

BroadCast

Scatter

Gather

All-Gather

Reduce

Reduce-Scatter

All-Reduce

All-to-All

Ring-Base Collectives[2]

参考文献与帖子

通信原语[1]

BroadCast

1对多，广播方式。主节点0将数据发送到其他节点，且数据内容相同。

【知识点】分布式系统相关名词/概念/知识点_应用场景

应用场景：

数据并行的参数初始化，确保每张卡上的初始参数是一致的；
allReduce里的 broadcast + reduce组合里的broadcast操作；
分布式训练parameter server 参数服务器结构里的 master节点 broadcast 数据到worker节点，再从worker节点reduce数据回master节点里的broadcast操作；

Scatter

1对多，广播方式。主节点0将数据发送到其他节点，且数据内容不相同。

【知识点】分布式系统相关名词/概念/知识点_分布式_02

应用场景有：

ReduceScatter组合里的 Scatter操作；
模型并行里初始化时将模型scatter到不同的XPU上；

Gather

多对1。把多个节点的数据汇聚到一个节点上。

【知识点】分布式系统相关名词/概念/知识点_数据_03

应用场景有：

ReduceScatter组合里的 Scatter操作；

All-Gather

多对多。收集所有的数据到所有的节点上。把多个节点的数据收集到一个主节点上（Gather），再把这个收集到的数据分发到其他节点上（broadcast）。

【知识点】分布式系统相关名词/概念/知识点_开发语言_04

应用场景有：

All-Gather可应用于模型并行；
模型并行里前向计算里的参数全同步，需要用all-gather把模型并行里将切分到不同的XPU上的参数全同步到一张XPU上才能进行前向计算。

Reduce

多对1。把多个节点的数据规约运算到一个主节点上。

常用的规约操作符有：求累加和SUM、求累乘积PROD、求最大值MAX、求最小值MIN、逻辑与 LAND、按位与BAND、逻辑或LOR、按位或BOR、逻辑异或LXOR、按位异或BOXR、求最大值和最小大的位置MAXLOC、求最小值和最小值的位置MINLOC等，这些规约运算也需要加速卡支持对应的算子才能生效。

【知识点】分布式系统相关名词/概念/知识点_分布式_05

应用场景有：

AllReduce里的 broadcast + reduce组合里的reduce操作；
ReduceScatter组合里的 reduce操作；
分布式训练parameter server 参数服务器结构里的 master节点 broadcast 数据到worker节点，再从worker节点reduce数据回master节点里的reduce操作；