【NLP高频面题 - 分布式训练】ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？

时间：2024-11-26 13:22:26浏览次数：9

标签：NLP 高频宝典面试 ZeRO3 ZeRO2 要会面题

【NLP高频面题 - 分布式训练】ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？

重要性：★★

NLP Github 项目：

NLP 项目实践：fasterai/nlp-project-practice

介绍：该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验
AI 藏经阁：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
AI 算法面经：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
NLP 剑指Offer：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题

ZeRO被分为了三个级别：

ZeRO1：对优化器状态进行拆分。显存消耗减少 4 倍，通信量与数据并行相同。
ZeRO2：在ZeRO1的基础上，对梯度进行拆分。显存消耗减少 8 倍，通信量与数据并行相同。
ZeRO3：在ZeRO2的基础上，对模型参数进行拆分。模型占用的显存被平均分配到每个 GPU 中，显存消耗量与数据并行的并行度成线性反比关系，但通信量会有些许增加。

论文中给出了三个阶段的显存消耗分布情况：

ZeRO1

模型训练中，正向传播和反向传播并不会用到优化器状态，只有在梯度更新的时候才会使用梯度和优化器状态计算新参数。因此每个进程单独使用一段优化器状态，对各自进程的参数更新完之后，再把各个进程的模型参数合并形成完整的模型。

假设我们有

标签：NLP,高频,宝典,面试,ZeRO3,ZeRO2,要会,面题
From： https://www.cnblogs.com/fasterai/p/18569921

超详细！！传统NLP算法结合大模型私有化部署简易知识问答体系工程实践
作者：京东物流郭卓勋一、业务背景在物流私域体系构建中，形成了多个微信群生态，需要投放自动回复机器人来自动化回复用户问题，希望能够用最小的成本满足基本问答。由于需要从头开始自建全流程算法问答体系，需要面临一下几个问题：1.数据不外流：用户数属于隐私数据，不可以直接调用外部API......
nlp文本匹配任务
传统文本匹配方法编辑距离:两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。代码实现思路(动态规划思想)defminDistance(self,word1:str,word2:str)->int:n=len(word1)......
NLP论文速读（ECCV2024）|面向文生图的Parrot优化的多奖励强化学习
论文速读|Parrot:Pareto-optimalMulti-RewardReinforcementLearningFrameworkforText-to-ImageGeneration论文信息：简介: 本文背景是文本到图像（Text-to-Image，T2I）生成领域，这是一个旨在根据给定的文本提示生成相应图像的技术领域。尽管该领域取得了显著进......
【NLP高频面题 - LLM架构篇】什么是旋转位置编码（RoPE）？
【NLP高频面题-LLM架构篇】什么是旋转位置编码（RoPE）？重要性：★★★......
CritiCS：智能协作下的创意长篇故事生成框架 | EMNLP'24
来源：晓飞的算法工程笔记公众号，转载请注明出处论文:CollectiveCriticsforCreativeStoryGeneration论文地址：https://arxiv.org/abs/2410.02428创新点提出了\({\ttCritiCS}\)的框架，旨在通过基于创造力标准的集体评议，创造性地增强故事计划和文本表现力。通过实......
字节 NLP 算法岗一面面试题7道（含解析）
最近这一两周不少互联网公司都已经开始秋招提前批面试了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。总结如下：《大模型面......
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习（BPTT）的？
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习（BPTT）的？重要性：★★本题主要考察面试者有有以下几点：①理解RNN循环的概念，认识到截断的BPTT的必要性②理解深度学习框架在处理反向传播时需要在保存各个时刻的中间（前向计算）数据，会消耗大量的显存这是我常用......
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习（BPTT）的？
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习（BPTT）的？重要性：★★本问题主要考察面试者有有以下几点：①理解RNN循环的概念，认识到截断的BPTT的必要性②理解深度学习框架在处理反向传播时需要在保存各个时刻的中间（前向计算）数据，会消耗大量的显存这是我常用......
解锁NLP新境界：免费语料库资源大揭秘！
欢迎关注我......
【NLP自然语言处理】Attention机制原理揭秘：赋予神经网络‘聚焦’与‘理解’的神奇力量
目录......

【NLP高频面题 - 分布式训练】ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？

ZeRO1

相关文章

赞助商

阅读排行