网站首页
编程语言
数据库
系统相关
其他分享
编程问答
TBA
2024-08-25
【论文阅读】TBA Faster Large Language Model Training Using SSD Based Activation Offloading
摘要GPU内存容量的增长速度跟不上大型语言模型(llm)的增长速度,阻碍了模型的训练过程。特别是,激活——在前向传播过程中产生的中间张量,并在后向传播中重用——主导着GPU内存的使用。为了应对这一挑战,我们建议TBA将激活有效地卸载到高容量NVMessd上。这种方法通过自适应地将数据传