首页 > 其他分享 >MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts

MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts

时间：2024-08-26 09:52:23浏览次数：17

标签：Mixture based Enhancing 模型 MIXLORA GPU LoRA MoE 内存

本文是LLM系列文章，针对《MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts》的翻译。

MIXLORA：通过基于LoRA的专家混合来增强大型语言模型的微调

摘要
1 引言
2 相关工作
3 MIXLORA
4 实验
5 结论

摘要

微调大型语言模型（LLM）是一种常见的做法，可以使预训练模型适应特定的应用程序。虽然像LoRA这样的方法在微调过程中有效地解决了GPU内存限制，但它们的性能往往不足，特别是在多任务场景中。相比之下，混合专家（MoE）模型，如Mixtral 8x7B，在多任务学习场景中表现出卓越的性能，同时保持了减少的参数数量。然而，这些MoE的资源需求仍然具有挑战性，特别是对于内存小于24GB的消费级GPU。为了应对这些挑战，我们提出了MIXLORA，这是一种基于LoRA构建资源高效稀疏MoE模型的方法。MIXLORA在冻结的预训练密集模型的前馈网络块中插入多个基于LoRA的专家，并采用常用的top-k路由器。与其他基于LoRA的MoE方法不同，MIXLORA通过利用独立的注意力层LoRA适配器来提高模型性能。此外，采用辅助负载平衡损耗来解决路由器的不平衡问题。我们的评估表明，在多任务学习场景中，与最先进的PEFT方法相比，MIXLORA的准确率提高了约9%。我们还提出了一种新的高通量框架，以缓解MOE模型训练和推理过程中的计算和内存瓶颈。该框架在训练和推理过程中将GPU内存消耗减少了40%，token计算延迟减少了30%。

1 引言

2 相关工作

3 MIXLORA

4 实验

标签：Mixture,based,Enhancing,模型,MIXLORA,GPU,LoRA,MoE,内存
From： https://blog.csdn.net/c_cpp_csharp/article/details/141552325

相关文章

【大模型理论篇】Mixture of Experts(混合专家模型, MOE)
1.MoE的特点及为什么会出现MoE1.1MoE特点 MixtureofExperts（MoE，专家混合）【1】架构是一种神经网络架构，旨在通过有效分配计算负载来扩展模型规模。MoE架构通过在推理和训练过程中仅使用部分“专家”（子模型），优化了资源利用率，从而能够处理复杂任务。 ......
【论文阅读】TBA Faster Large Language Model Training Using SSD Based Activation
摘要GPU内存容量的增长速度跟不上大型语言模型(llm)的增长速度，阻碍了模型的训练过程。特别是，激活——在前向传播过程中产生的中间张量，并在后向传播中重用——主导着GPU内存的使用。为了应对这一挑战，我们建议TBA将激活有效地卸载到高容量NVMessd上。这种方法通过自适应地将数据传......
[Paper Reading] Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusi
EgocentricWhole-BodyMotionCapturewithFisheyeViTandDiffusion-BasedMotionRefinementlink时间：CVPR2024机构：马普所&SaarlandInformaticsCampus&Google&UniversityofPennsylvaniaTL;DR使用第一人称RGB单目鱼眼相机进行全身动捕的算法，融合了FisheyeVit&3......
读论文《Behavior Pattern Mining-based Multi-Behavior Recommendation》
论文地址：arxiv.org/pdf/2408.12152v1项目地址：GitHub-rookitkitlee/BPMR基于行为模式挖掘的多行为推荐：论文提出了一种新颖的多行为推荐算法（BPMR），旨在通过分析用户和项目之间的复杂交互模式来提高推荐系统的有效性。这种方法特别关注于用户除了购买之外的其他行为，例如页面浏览......
【论文解读】Macroblock Level Rate Control for Low Delay H.264/AVC based Video Co
级别：IEEE时间：2015作者：MinGao等机构：哈尔滨工业大学下载：MacroblockLevelRateControlforLowDelayH.264/AVCbasedVideoCommunication摘要算法目的：提出了一种针对低延迟H.264/AVC视频通信的宏块（MB）级别速率控制算法。算法基础：基于ρ域速率模型，该模型涉......
多模态学习之论文阅读：《Systematic comparison of deep-learning based fusion strate
《Systematiccomparisonofdeep-learningbasedfusionstrategiesfor multi-modal ultrasoundindiagnosisof liver cancer》 -2024.10 NEUROCOMPUTING 影响因子7.9（一）多模态数据构成研究设计了“病变配对”方法来构建数据集，包括B模式超声、剪切波弹性成像(SWE)和......
A 12nm 121-TOPS/W 41.6-TOPS/mm2 All Digital Full Precision SRAM-based Compute-in
1b*4b的操作是通过4b或非门乘法器完成，然后再通过4b加法器两两相加。但是从真值表上来看，2个4b或非门乘法器加1个4b加法器完成的工作实际上可以通过一个由加法器和两比特IN控制的四选一Mux（或者说LUT）来完成。这样做的话可以直接节省掉21%的功耗。提出的这个并行多位输入结构下（即并......
A 4nm 6163-TOPS/W/b 4790-TOPS/mm2/b SRAM Based Digital-Computing-in-Memory Macro
SRAMarray和Localadder耦合在一起形成一个块，两个块share一个semi-global-adder，四个块再去shareGlobaladder和移位累加器。这样的floorplan使得整体结构上不存在一大块独立的巨型多级加法树，使得布局变得更加的规整。这里讨论了mix-Vt设计的问题，即混用高Vt管子和低Vt管子，高Vt......
An 89TOPS/W and 16.3TOPS/mm2 All-Digital SRAM-Based Full-Precision Compute-In Me
权重是4bit的CIM结构图：激活值是4bit的做法是：以MSB-first的方式串性送入，然后通过移位加计算不同数位的和累加器就是一个移位累加结构，其中具有对符号位的处理机制，这里是补码机制。如果符号位是0，直接原码做符号位拓展加进去，如果符号位是1，取反加1原码转成补码之后加进去。减少......
【公式推导】Elucidating the Design Space of Diffusion-Based Generative Models 【
ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels论文精读关注B站可以观看更多实战教学视频：hallo128的个人空间【更新中】EDM论文精读论文链接（1）论文：ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels（2）引用：KarrasT,Aittala......

赞助商

阅读排行