使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B

时间：2024-01-13 09:55:36浏览次数：33

标签：缓存 offloading 模型专家 8x7B Mixtral 加载

Mixtral-8x7B是最好的开放大型语言模型(LLM)之一，但它是一个具有46.7B参数的庞大模型。即使量化为4位，该模型也无法在消费级GPU上完全加载(例如，24 GB VRAM是不够的)。

Mixtral-8x7B是混合专家(MoE)。它由8个专家子网组成，每个子网有60亿个参数。8位专家中只有2位在解码期间有效，因此可以将其余6位专家移动或卸载到另一个设备，例如CPU RAM，可以释放一些GPU VRAM。但在实践中这种操作是非常复杂的。

选择激活哪个专家是在对每个输入令牌和模型的每个层进行推理时做出的决定。如果暴力的将模型的某些部分移到CPU RAM中，会在CPU和GPU之间造成通信瓶颈。

Mixtral-offloading提出了一个更有效的解决方案，以减少VRAM消耗，同时保持合理的推理速度。

在本文中，我将解释Mixtral-offloading的工作过程，使用这个框架可以节省内存并保持良好的推理速度，我们将看到如何在消费者硬件上运行Mixtral-8x7B，并对其推理速度进行基准测试。

缓存和Speculative Offloading

MoE语言模型通常为子任务分配不同的专家，但在长标记序列上的专家并不唯一。一些专家在短的2-4个令牌序列中激活，而另一些专家则在剩下的令牌激活。下图可以看到这一点:

为了利用这种模式，Mixtral-offloading的作者建议将活跃的专家保存在GPU内存中，作为未来令牌的“缓存”。这确保了如果再次需要相同的专家时可以快速获得帮助。GPU内存限制了存储专家的数量，并使用了一个简单LRU(Least Recently Used )缓存，在所有层上统一维护k个最近使用的专家。

尽管它很简单，但LRU缓存策略显著加快了Mixtral-8x7B等MoE模型的推理速度。

尽管LRU缓存提高了专家的平均加载时间，但很大一部分推理时间仍然需要等待下一个专家加载。专家加载与计算之间缺乏有效的重叠。

在标准(非moe)模型中，有效的卸载包括在前一层运行时预加载下一层。这种方法对于MoE模型来说是不可行的，因为专家是在计算的时候选择的。在确定要加载哪些专家之前，系统无法预取下一层。尽管无法可靠地预取，但作者发现可以在处理前一层时猜测下一个专家，如果猜测是正确的，可以加速下一层的推理。

综上所述，LRU缓存和推测卸载可以节省VRAM。

https://avoid.overfit.cn/post/43ee6bb2c402448698fc7c67e2a9bd60

标签：缓存,offloading,模型,专家,8x7B,Mixtral,加载
From： https://www.cnblogs.com/deephub/p/17961979

Mixtral 8X7B MoE模型基于PAI的微调部署实践
作者：熊兮、求伯、一耘引言Mixtral8x7B是MixtralAI最新发布的大语言模型，在许多基准测试上表现优于GPT-3.5，是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台，提供了对于Mixtral8x7B模型的全面支持，开发者和企业用户可以基......
Mixtral 8X7B MoE模型基于阿里云人工智能平台PAI实践合集
作者：熊兮、贺弘、临在Mixtral8x7B大模型是MixtralAI推出的基于decoder-only架构的稀疏专家混合网络（Mixture-Of-Experts，MOE）开源大语言模型。这一模型具有46.7B的总参数量，对于每个token，路由器网络选择八组专家网络中的两组进行处理，并且将其输出累加组合，在增加模型参数总量的同时，优......
欢迎 Mixtral - 当前 Hugging Face 上最先进的 MoE 模型
最近，Mistral发布了一个激动人心的大语言模型:Mixtral8x7b，该模型把开放模型的性能带到了一个新高度，并在许多基准测试上表现优于GPT-3.5。我们很高兴能够在HuggingFace生态系统中全面集成Mixtral以对其提供全方位的支持......
mixtral 1
usetext-generation-inferencetosetupruncommandclicktoviewcommanddockerrun--gpusall--shm-size1g-p3000:80-v/data:/dataghcr.io/huggingface/text-generation-inference:1.3.3\--model-idmistralai/Mixtral-8x7B-Instruct-v0.1\--nu......
llama-factory fine-tuning 4 (mixtral fine-tuning)
introductionfine-tuningcommandclicktoviewthecodeCUDA_VISIBLE_DEVICES=0pythonsrc/train_bash.py\--stagesft\--do_train\--model_name_or_path../Mixtral-8x7B-v0.1/\--datasetalpaca_en\--templatemistral\--q......
高性能Mixtral：467亿参数MoE技术，逼近GPT-3.5与GPT-4
模型简介近日，MistralAI团队发布了全新的大型语言模型——Mixtral8x7B。这款以稀疏专家混合模型（SparseMixture-of-Experts，简称SMoE）为基础的语言模型，拥有467亿个参数，是当前市场上最强大的开源权重模型之一。不仅如此，Mixtral8x7B还在Apache2.0许可下开源，为开发者社区提供了一个全......

使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B

缓存和Speculative Offloading

相关文章

赞助商

阅读排行