优雅谈大模型：白话ZeRO 下

时间：2024-09-01 21:22:10浏览次数：21

机器学习模型的复杂性和规模不断增长，分布式训练变得比以往任何时候都更加重要。训练具有数千亿参数的大型语言模型（ LLMs ）将是机器学习基础设施面临的挑战。与传统的分布式计算框架不同的地方在于GPU的分布式训练需要将数据传递给GPU芯片等物理硬件层。GPU设备之间会进行频繁、大规模的数据交换以进行高效训练，今天将揭开分布式训练的神秘面纱。

上图为基本的机器学习训练框架，数据准备占据1/3，训练占据1/3，将中间版本进行保存以及调整参数占据1/3。在模型的训练过程中，若读者拥有多片GPU，那么如何让这些GPU同时工作，目前有数据并行，模型并行以及管道并行。

数据并行

数据并行是跨多个 GPU 扩展模型训练最常用的方法之一。在这种方法中，每个GPU设备都需要存储全尺寸模型并处理不同批次的训练数据。除了存储模型和训练数据之外，每个GPU设备还保存临时结果，其中包括前向传播输出和梯度下降结果。

每个副本完成前向传递阶段后， NCCL All Reduce<白话ZeRO>会跨GPU节点同步模型参数，确保模型更新就像单个节点处理过所有批次数据。

ZeRO数据并行<白话ZeRO>是对传统数据并行的增强，旨在减少 GPU内存使用。与每个GPU存储完整模型不同，ZeRO跨GPU分割模型参数。这种方法仍然是数据并行的一种形式，因为每一层的张量计算不会跨GPU分割。GPU负责持久化模型分片，并可以在完成必要的计算后丢弃它们。

这种方法显着减少了内存消耗，使得可以在相同的硬件上训练更大的模型。PyTorch 提供完全分片数据并行 ( FSDP )，它将模型参数、优化器状态和跨分布式数据并行 ( DDP ) 等级的梯度进行分片，因此进一步减少内存消耗。

模型并行

数据并行简单直接，同时可以将训练分布在多GPU。特别大的模型而言，即便仅仅加载大型模型的单层也会对GPU的内存带来很大的压力。

在单GPU上训练模型时，若模型超过GPU内存，则训练过程中需要频繁地通过HostToDevice操作在主机内存和GPU内存之间不断地交换模型参数。这种频繁的I/O操作会导致GPU空闲，从而拖累了整个训练过程。

张量并行是模型并行的一种，模型参数被分割到多个GPU，从而实现并行计算。模型参数具备矩阵运算特点，可以切分按行或按列划分，允许每个 GPU独立执行乘法操作。最终通过将不同的GPU计算的子结果合并就可以得到最终的运算结果，也可以充分的利用所有的GPU设备。下图很直观的展示将矩阵分割，两路并行计算。

管道并行

除了数据并行和张量并行之外，管道并行可以进一步提高训练期间的GPU利用率。在管道并行性中，模型根据其层被分为块，允许前向传播和后向传播分布在不同的GPU上。这种方法可能会导致GPU出现空闲等待时间。

若模型足够小，单个GPU能够搞定，则可以使用数据并行将其扩展到多个节点。随着模型大小的增加，可能需要张量并行才能将模型分布到单个节点内的多个 GPU 上。如果模型变得更大，可以在同一节点内应用张量并行，而在不同节点之间使用管道并行。

当然需要确保参与管道并行的节点位于同一网络等级内以实现最佳 I/O 性能至关重要。对于读者而言，小编建议先从数据并行入手，熟悉和感受下分布式训练方法。目前随着分布式计算越发的成熟，涌现出许多流行的训练框架，例如PyTorch Distributed Data Parallel ( DDP )、 DeepSpeed和Megatron-LM ，这些框架都提供并行方法的实现。

标签：训练,白话,模型,并行,ZeRO,内存,GPU,数据,谈大
From： https://blog.csdn.net/Janexjy/article/details/141778975

【初出江湖】大白话解释集中式、分布式、微服务的区别？
目录标题什么是集中式？什么是分布式？分布式系统的架构一般构成模块分布式的优点分布式的缺点什么是分布式集群？什么是微服务？微服务和分布式系统有什么主要区别？微服务架构与分布式系统在开发过程中有何不同？为什么选择微服务架构而不是传统的分布式系统？什么是集中式？所谓......
美团面试：10Wtps，Kafka为啥那快？kafka 零复制 Zero-copy 如何实现？
文章很长，且持续更新，建议收藏起来，慢慢读！疯狂创客圈总目录博客园版为您奉上珍贵的学习资源：免费赠送:《尼恩Java面试宝典》持续更新+史上最全+面试必备2000页+面试必备+大厂必备+涨薪必备免费赠送:《尼恩技术圣经+高并发系列PDF》，帮你实现技术自由，完成职业升级，薪......
ZeroTier-异地组网
目录ZeroTier介绍脚本安装环境要求安装docker下载项目源码执行安装脚本下载planet文件新建网络创建网络分配网络客户端配置linux下载客户端安装包更换planet重启zerotier-one加入网络查看加入的网络信息管理后台同意加入请求查看角色windows下载安装更换planet重启服务加入网络......
Rust‘s “zero-cost abstraction“
Rust's"zero-costabstraction"Iteratorsvs.ForLoopsGenericsandMonomorphizationTrait-basedAbstractionClosuresvs.FunctionPointersEnumsandPatternMatchingSmartPointers(e.g.,Box,Rc,Arc)OwnershipandBorrowingStaticDispatchvs.......
大白话【8】WindowsServer2016搭建DNS服务
1.DNS服务功能介绍2.DNS服务器搭建2.0准备环境2.1把该DNS服务器设置成静态IP2.2修改主机名（可省略）2.3安装DNS服务DNS服务器名为www；IP为192.168.2.1003.客户机测试在网内可网络连通的客户机如何验证DNS服务器域名解析有效性？3.1可以ping不通，只要看到解析就行。......
AlphaGo Zero论文《Mastering the game of Go without human knowledge》阅读笔记
AlphaGoZero论文阅读笔记原论文：《MasteringthegameofGowithouthumanknowledge》简述：论文提出了一种新的围棋人工智能算法AlphaGoZero，该算法可以在完全无监督的情况下进行训练，并且超越了之前的AlphaGoFan和AlphaGoLee的表现。该算法具有如下特点：在无监督的情况......
大白话【7】windows server2016共享目录配置
1.windows权限模型案列共享目录搭建过程1.创建共享目录2.为人力资源部，销售部，IT部，等创建工作组3.创建用户关联用户组4.修改共享目录权限，允许xx工作组用户进入目录5.根据需求设置XX目录权限6.开启目录共享打开本地用户和组Win+R 输入lusrmgr.msc引申-普通用户想要使......
大白话单元测试之mock测试
文章目录一、什么是Mock测试二、传统的单元测试JunitTest三、Mock测试（对比junit测试）四、Mock详解1.@InjectMocks和@Mock用法2.when用法3.verify用法五、Mock其他常用用法1.如何初始化数据2.初始化service类中的Apollo配置3.Assert.assertEquals用法一、什么是Mo......
大白话讲【3.1】redhat 9 -LVM
LVM技术出现由来说白了，就是文件系统容量怎么实现无感伸缩。定义：LVM(LogicalvolumeManager）逻辑卷管理通过将底层物理硬盘抽象封装起来，以逻辑卷的形式表现给上层系统，逻辑卷的大小可以动态调整，而且不会丢失现有数据。新加入的硬盘也不会改变现有上层的逻辑卷。 L......

优雅谈大模型：白话ZeRO 下

数据并行

模型并行

管道并行

相关文章

赞助商

阅读排行