BAdam A Memory Efficient Full Parameter Optimization Method for Large Language Models

时间：2024-08-27 10:16:16浏览次数：10

标签：Full Language Efficient 更新 block theta pi ldots BAdam

概
BAdam
代码

Luo Q., Yu H. and Li X. BAdam: A memory efficient full parameter optimization method for large language models. arXiv preprint, 2024.

概

本文介绍了一种 Block corrdinate descent (BCD) 的训练方式.

BAdam

当模型本身很大的时候, 训练它会成为一个很大的问题, 所以现在会流行一些 LoRA 等低质方法用于更快速地更新模型.
这个问题其实很大程度上是因为常用地 Adam 至少需要缓存 2x 模型的量, 所以本文提出的 BAdam 就是希望能够每次仅更新其中的一个 block.

BAdam 将整个模型分成 \(D\) 份: \(\pi_1, \ldots, \pi_i, \ldots, \pi_D\), 并假设其中的参数为 \(\theta = \{\theta_{\pi_1}, \ldots, \theta_{\pi_i}, \ldots, \theta_{\pi_D}\}\).
每一次那个更新, 仅更新其中的某一个 block:

\[\theta_{\pi_i}^{t+1} \in \mathop{\text{argmin}} \limits_{\theta_{\pi_i} \in \mathbb{R}^{d_i}} \frac{1}{n} \sum_{j=1}^n \ell_j ( \theta_{\pi_1}^{t+1}, \ldots, \theta_{\pi_{i-1}}^{t+1}, \theta_{\pi_i}, \theta_{\pi_{i+1}}^t, \ldots \theta_{\pi_{D}}^t ). \]
具体的算法如下, 注意到, 对每个 block 会更新 K 次:

代码

[official]

标签：Full,Language,Efficient,更新,block,theta,pi,ldots,BAdam
From： https://www.cnblogs.com/MTandHJ/p/18382137

SwapPrompt(论文解读): Test-Time Prompt Adaptation for Vision-Language Models
2023(NeuralIPS)摘要测试自适应（TTA）是无监督域自适应（UDA）中一种特殊且实用的设置，它允许源域中的预训练模型去适应另一个目标域中的未标记测试数据。为了避免计算密集型的骨干网络微调过程，因此利用预训练视觉语言模型（例CLIP、CoOp）zero-shot的泛化潜力，仅对未见测试域的运行时......
MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of
本文是LLM系列文章，针对《MIXLORA:EnhancingLargeLanguageModelsFine-TuningwithLoRA-basedMixtureofExperts》的翻译。MIXLORA：通过基于LoRA的专家混合来增强大型语言模型的微调摘要1引言2相关工作3MIXLORA4实验5结论摘要微调大型语言模型（LLM）......
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large
本文是LLM系列文章，针对《LogicBench:TowardsSystematicEvaluationofLogicalReasoningAbilityofLargeLanguageModels》的翻译。LogicBench：大型语言模型逻辑推理能力的系统评价摘要1引言2相关工作3LogicBench4结果和分析5结论局限性摘要最近......
Efficient Prompting Methods for Large Language Models: A Survey
本位是LLM系列文章，针对《EfficientPromptingMethodsforLargeLanguageModels:ASurvey》的翻译。大型语言模型的高效提示方法综述摘要1引言2概述3高效计算提示4高效设计提示5未来提示：理论分析6结论摘要提示已成为使大型语言模型（LLM）适应特定自然......
Exploring the Nexus of Large Language Models and Legal Systems: A Short Survey
本文是LLM系列文章，针对《ExploringtheNexusofLargeLanguageModelsandLegalSystems:AShortSurvey》的翻译。探索大型语言模型与法律制度的联系：一个简短的调查摘要1引言2大型语言模型在法律任务中的应用3不同国家和地区的微调大型语言模型4大型语言......
【论文阅读】TBA Faster Large Language Model Training Using SSD Based Activation
摘要GPU内存容量的增长速度跟不上大型语言模型(llm)的增长速度，阻碍了模型的训练过程。特别是，激活——在前向传播过程中产生的中间张量，并在后向传播中重用——主导着GPU内存的使用。为了应对这一挑战，我们建议TBA将激活有效地卸载到高容量NVMessd上。这种方法通过自适应地将数据传......
【0316】Postgres内核之VACUUM （FULL）运行 portal multi query （11）
上一篇文章：【0315】Postgres内核之VACUUM（FULL）运行portalquery（10）1.执行portalmultiquery在【0315】Postgres内核之VACUUM（FULL）运行portalquery（10）一文中讲解了Postgres内核运行portal查询的实现。之后通过判断portal->strategy的值（PORTAL_MULTI_QUERY）走到了Po......
YOLOv5改进 | 融合改进 | C3 融合Efficient Multi-Scale Conv提升检测效果
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......
A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory M
1、强调存储密度（StorageDensity）Mb/mm2，存算一体的主要目的是减少数据搬运的开销，如果一味的堆计算单元而损失存储密度，那么虽然整体的计算吞吐率（TOPS）可以做到很大，相应的对计算密度也会有提升，但是由于需要频繁给CIMMacro刷新数据，从系统能效的角度上来说反而是下降的。这次的SRAMArr......
A 12nm 121-TOPS/W 41.6-TOPS/mm2 All Digital Full Precision SRAM-based Compute-in
1b*4b的操作是通过4b或非门乘法器完成，然后再通过4b加法器两两相加。但是从真值表上来看，2个4b或非门乘法器加1个4b加法器完成的工作实际上可以通过一个由加法器和两比特IN控制的四选一Mux（或者说LUT）来完成。这样做的话可以直接节省掉21%的功耗。提出的这个并行多位输入结构下（即并......

BAdam A Memory Efficient Full Parameter Optimization Method for Large Language Models

概

BAdam

代码

相关文章

赞助商

阅读排行