首页 > 其他分享 >【论文阅读】TBA Faster Large Language Model Training Using SSD Based Activation Offloading

【论文阅读】TBA Faster Large Language Model Training Using SSD Based Activation Offloading

时间:2024-08-25 10:15:00浏览次数:8  
标签:Training Based Faster 激活 张量 内存 卸载 TBA GPU

摘要

GPU内存容量的增长速度跟不上大型语言模型(llm)的增长速度,阻碍了模型的训练过程。特别是,激活——在前向传播过程中产生的中间张量,并在后向传播中重用——主导着GPU内存的使用。为了应对这一挑战,我们建议TBA将激活有效地卸载到高容量NVMe ssd上。这种方法通过自适应地将数据传输与计算重叠来减少GPU内存的使用,而不会影响性能。TBA与流行的深度学习框架(如PyTorch、Megatron和DeepSpeed)兼容,并采用了张量重复数据删除、转发和自适应卸载等技术来进一步提高效率。我们在流行的LLMs如GPT、BERT和T5上进行了广泛的实验。结果表明,TBA有效地减少了47%的激活峰值内存使用。同时,TBA完美地将I/O与计算重叠,并且产生的性能开销可以忽略不计。我们引入了recompute-offloadkeep (ROK)曲线来比较TBA卸载与其他两种张量放置策略:将激活保持在GPU内存中和分层完全重新计算。我们发现TBA比分层完全重计算获得更好的内存节省,同时保留了将激活保存在内存中的性能。

1 介绍

GPU内存容量已成为llm持续成长的瓶颈。如图1所示,GPU内存容量的增长速度比LLM尺寸扩展速度和GPU FP16吞吐量的提高速度慢60%左右。大约80%用于训练最近llm的GPU内存由激活组成[35,41],激活是由前向传播产生的中间张量,并在后向传播中重用。此外,激活所需的内存比任何其他内存使用增长得更快,使GPU内存成为未来LLM训练的更严重约束(详见2.2节)。
图1
图1:用于深度学习训练的GPU的FP16吞吐量(右纵轴)增长与llm的模型大小(左纵轴)一致,但GPU内存容量(左纵轴)落后[84]。横轴显示发布日期。点代表Nvidia 100级gpu自K100和谷歌tpu。辅助并行的绿色虚线增长速度为FP16吞吐量增长率(黄色虚线)的50%,前者增长速度快于内存容量增长率(红色虚线)。

常见的缓解措施是减少批大小或通过梯度累积。通过梯度累积 (gradient accumulation),一个批被分成微批micro-batch,在梯度更新之间分别处理。虽然梯度积累已经被许多llm采用[28,77,90],但GPU计算堆栈并不是为小输入而设计的,这两种缓解措施都会导致设备利用率不足[4,8]和数学库性能次优[2]。直观地说,较小的批大小可以通过更快的收敛来减少总训练计算。然而,LLM训练者已经为每个模型确定了一个关键批大小,低于该批大小收敛速度可以忽略不计甚至降低[31,45]。值得注意的是,随着训练损失的减少,关键批大小在训练期间会增加。
另一种减少GPU内存使用的常见方法是激活检查点active checkpointing。使用此策略,只有一些激活保留在GPU内存中,而其他激活被刷新,然后在反向传播期间重新计算。对于具有

标签:Training,Based,Faster,激活,张量,内存,卸载,TBA,GPU
From: https://www.cnblogs.com/world-explorer/p/18378703

相关文章

  • [Paper Reading] Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusi
    EgocentricWhole-BodyMotionCapturewithFisheyeViTandDiffusion-BasedMotionRefinementlink时间:CVPR2024机构:马普所&SaarlandInformaticsCampus&Google&UniversityofPennsylvaniaTL;DR使用第一人称RGB单目鱼眼相机进行全身动捕的算法,融合了FisheyeVit&3......
  • 读论文《Behavior Pattern Mining-based Multi-Behavior Recommendation》
    论文地址:arxiv.org/pdf/2408.12152v1项目地址:GitHub-rookitkitlee/BPMR基于行为模式挖掘的多行为推荐:论文提出了一种新颖的多行为推荐算法(BPMR),旨在通过分析用户和项目之间的复杂交互模式来提高推荐系统的有效性。这种方法特别关注于用户除了购买之外的其他行为,例如页面浏览......
  • 【论文解读】Macroblock Level Rate Control for Low Delay H.264/AVC based Video Co
    级别:IEEE时间:2015作者:MinGao等机构:哈尔滨工业大学下载:MacroblockLevelRateControlforLowDelayH.264/AVCbasedVideoCommunication摘要算法目的:提出了一种针对低延迟H.264/AVC视频通信的宏块(MB)级别速率控制算法。算法基础:基于ρ域速率模型,该模型涉......
  • S2 - Lesson 56 Faster than sound
     Content Howfastdidthewinningcargo?Onceayear,araceisheldforoldcars.Alotofcarsenteredforthisracelastyearandtherewasagreatdealofexcitementjustbeforeitbegan.OneofthemosthandsomecarswasaRolls-RoyceSilverGhost......
  • 多模态学习之论文阅读:《Systematic comparison of deep-learning based fusion strate
    《Systematiccomparisonofdeep-learningbasedfusionstrategiesfor multi-modal ultrasoundindiagnosisof liver cancer》 -2024.10 NEUROCOMPUTING 影响因子7.9(一)多模态数据构成研究设计了“病变配对”方法来构建数据集,包括B模式超声、剪切波弹性成像(SWE)和......
  • A 12nm 121-TOPS/W 41.6-TOPS/mm2 All Digital Full Precision SRAM-based Compute-in
    1b*4b的操作是通过4b或非门乘法器完成,然后再通过4b加法器两两相加。但是从真值表上来看,2个4b或非门乘法器加1个4b加法器完成的工作实际上可以通过一个由加法器和两比特IN控制的四选一Mux(或者说LUT)来完成。这样做的话可以直接节省掉21%的功耗。提出的这个并行多位输入结构下(即并......
  • A 4nm 6163-TOPS/W/b 4790-TOPS/mm2/b SRAM Based Digital-Computing-in-Memory Macro
    SRAMarray和Localadder耦合在一起形成一个块,两个块share一个semi-global-adder,四个块再去shareGlobaladder和移位累加器。这样的floorplan使得整体结构上不存在一大块独立的巨型多级加法树,使得布局变得更加的规整。这里讨论了mix-Vt设计的问题,即混用高Vt管子和低Vt管子,高Vt......
  • An 89TOPS/W and 16.3TOPS/mm2 All-Digital SRAM-Based Full-Precision Compute-In Me
    权重是4bit的CIM结构图:激活值是4bit的做法是:以MSB-first的方式串性送入,然后通过移位加计算不同数位的和累加器就是一个移位累加结构,其中具有对符号位的处理机制,这里是补码机制。如果符号位是0,直接原码做符号位拓展加进去,如果符号位是1,取反加1原码转成补码之后加进去。减少......
  • InstructGPT: Training language models to follow instructions with human feedback
    文章目录1.InstructGPT目标2.数据集2.1SFT数据集2.2RM数据集2.3PPO数据集3.训练细节3.1SFT训练3.2RM训练3.3RLHF训练4.结论1.InstructGPT目标InstructGPT探讨了如何通过人类反馈来训练语言模型以更好地遵循用户的意图。通过对模型进行监督学习和强化......
  • 【公式推导】Elucidating the Design Space of Diffusion-Based Generative Models 【
    ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels论文精读关注B站可以观看更多实战教学视频:hallo128的个人空间【更新中】EDM论文精读论文链接(1)论文:ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels(2)引用:KarrasT,Aittala......