TBA

2024-08-25【论文阅读】TBA Faster Large Language Model Training Using SSD Based Activation Offloading
摘要GPU内存容量的增长速度跟不上大型语言模型(llm)的增长速度，阻碍了模型的训练过程。特别是，激活——在前向传播过程中产生的中间张量，并在后向传播中重用——主导着GPU内存的使用。为了应对这一挑战，我们建议TBA将激活有效地卸载到高容量NVMessd上。这种方法通过自适应地将数据传