GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection

时间：2024-08-27 16:06:37浏览次数：17

标签：mathbb Training Projection Efficient GaLore times rho tilde hat

概
符号说明
GaLore

Zhao J., Zhang Z., Chen B., Wang Z., Anandkumar A. and Tian Y. GaLore: Memory-efficient llm training by gradient low-rank projection. ICML, 2024.

概

本文提出了一种优化器中高效的缓存策略.

符号说明

\(W_t \in \mathbb{R}^{m \times n}\), 参数;
\(\varphi_t\), 损失函数;
\(G_t = -\nabla_W \varphi_t (W_t) \in \mathbb{R}^{m \times n}\);

GaLore

一般的优化器更新可以归结为:

\[W_{t+1} = W_t - \eta \tilde{G}_t, \]
其中 \(\tilde{G}_t = \rho_t\) 是对梯度 \(G_t\) 进行的一个处理, 在 Adam 中涉及两种动量:

\[M_t = \beta_1 M_{t-1} + (1 - \beta_1) G_t, \\ V_t = \beta_2 V_{t-1} + (1 - \beta_2) G_t^2, \\ \rho_t(G_t) = M_t / \sqrt{V_t + \epsilon}. \]
像 Adam 这种带 momentum 的, 我们需要缓存 2x 模型大小的量用于更新, 这是非常恐怖的消耗.

作者通过理论分析发现, \(G_t\) 随着梯度更新会逐渐趋于低秩, 本文建议一种 gradient low-rank projection (GaLore) 的方式更新:

\[W_{t+1} = W_t - \eta \tilde{G}_t, \quad \tilde{G}_t = P_t \:\rho_t (P_t^T G_t Q_t) \: Q_t^T, \]
其中 \(P_t \in \mathbb{R}^{m \times r}, Q_t \in \mathbb{R}^{n \times r}, r \ll m, n\).
即梯度转移到低秩空间 -> 在低秩空间中完成 \(\rho_t\) -> 恢复到原空间. 于是在整个训练过程中, 我们只需要缓存这些投影矩阵即可. 如下是 Adam 的一个例子 (只用了一半的投影):

收敛性是容易理解的, 每一步更新都相当于:

\[\varphi_t(\hat{W}_t), \quad \hat{W}_t = \text{stop-gradient}(W_t) + P \tilde{W}_t Q^T, \quad \tilde{W}_t \in \mathbb{R}^{r \times r}. \]
则

\[\nabla_{\tilde{W}_t} \varphi_t = P^T G_t Q, \]
此时便有:

\[\hat{W}_{t+1} = \hat{W}_t + P \Delta \tilde{W} Q^T = \hat{W}_t - \eta P \: \rho_t (P^T G_t Q) Q^T. \]

标签：mathbb,Training,Projection,Efficient,GaLore,times,rho,tilde,hat
From： https://www.cnblogs.com/MTandHJ/p/18382905

BAdam A Memory Efficient Full Parameter Optimization Method for Large Language M
目录概BAdam代码LuoQ.,YuH.andLiX.BAdam:Amemoryefficientfullparameteroptimizationmethodforlargelanguagemodels.arXivpreprint,2024.概本文介绍了一种Blockcorrdinatedescent(BCD)的训练方式.BAdam当模型本身很大的时候,训练它会成为一......
Efficient Prompting Methods for Large Language Models: A Survey
本位是LLM系列文章，针对《EfficientPromptingMethodsforLargeLanguageModels:ASurvey》的翻译。大型语言模型的高效提示方法综述摘要1引言2概述3高效计算提示4高效设计提示5未来提示：理论分析6结论摘要提示已成为使大型语言模型（LLM）适应特定自然......
【论文阅读】TBA Faster Large Language Model Training Using SSD Based Activation
摘要GPU内存容量的增长速度跟不上大型语言模型(llm)的增长速度，阻碍了模型的训练过程。特别是，激活——在前向传播过程中产生的中间张量，并在后向传播中重用——主导着GPU内存的使用。为了应对这一挑战，我们建议TBA将激活有效地卸载到高容量NVMessd上。这种方法通过自适应地将数据传......
YOLOv5改进 | 融合改进 | C3 融合Efficient Multi-Scale Conv提升检测效果
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......
ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,
ControlNeXt:PowerfulandEfficientControlforImageandVideoGeneration(2024,8)paperGithub进一步在ControlNet上进行了改进,主要针对一下两点对于每一个模块添加一个Zero-Conv也会占用很多显存.Zero-Conv两个模态的输出的mean、var具有差异,导致收敛很慢.针对1,......
EfficientMod：微软出品，高效调制主干网络 | ICLR 2024
EfficientModulation(EfficientMod)融合了卷积和注意力机制的有利特性，同时提取空间上下文并对输入特征进行投影，然后使用简单的逐元素乘法将其融合在一起。EfficientMod的设计保证了高效性，而固有的调制设计理念则保证了其强大的表示能力来源：晓飞的算法工程笔记公众号论文:E......
2024年图像配准最新算法EfficientLoFTR(cvpr2024) 【补丁For 双鱼眼全景视频拼接】
前言对于双鱼眼全景拼接这个项目来说,单应性矩阵是最重要的一环。单应性矩阵中它既包含了相机的内参，也包含了相机的外参。因此就算你的相机没有特别好的定位，也能通过好的单应性矩阵救回来。2024最新DNN配准算法在双鱼眼相机拼接中，特征点检测与匹配是影响单应性矩阵最......
Spark MLlib 特征工程系列—特征提取LSH(BucketedRandomProjectionLSH)
SparkMLlib特征工程系列—特征提取LSH(BucketedRandomProjectionLSH)在这篇文章中，我们将深入探讨Spark中的BucketedRandomProjectionLSH，这是一种用于近似最近邻搜索的技术。文章将覆盖其工作原理、应用场景、Scala代码示例、参数调优以及使用效果分析，确保内容全面、......
InstructGPT: Training language models to follow instructions with human feedback
文章目录1.InstructGPT目标2.数据集2.1SFT数据集2.2RM数据集2.3PPO数据集3.训练细节3.1SFT训练3.2RM训练3.3RLHF训练4.结论1.InstructGPT目标InstructGPT探讨了如何通过人类反馈来训练语言模型以更好地遵循用户的意图。通过对模型进行监督学习和强化......
Efficient DETR：别再随机初始化了，旷视提出单解码层的高效DETR | CVPR 2021
EfficientDETR结合密集检测和稀疏集合检测的优点，利用密集先验来初始化对象容器，弥补单层解码器结构与6层解码器结构的差距。在MSCOCO上进行的实验表明，仅3个编码器层和1个解码器层即可实现与最先进的目标检测方法竞争的性能，在CrowdHuman密集数据集上的性能也远远优于其它检......

GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection

概

符号说明

GaLore

相关文章

赞助商

阅读排行