【LLM】为什么最新的 LLM 采用 MoE（专家混合）架构

标签：架构模型专家 LLM 门控 MoE

EXX-Blog-为什么最新的 LLM 使用 MoE 架构.jpg

专业化必不可少

医院里挤满了专家和医生，他们各有专长，解决着独特的问题。外科医生、心脏病专家、儿科医生——各种专家齐心协力提供护理，经常合作为患者提供所需的护理。我们可以通过人工智能做到同样的事情。

人工智能中的混合专家 (MoE) 架构被定义为不同“专家”模型的混合或融合，这些模型共同处理或响应复杂的数据输入。在人工智能方面，MoE 模型中的每个专家都专注于更大的问题 - 就像每个医生都专注于他们的医学领域一样。这提高了效率并提高了系统功效和准确性。

Mistral AI 提供可与 OpenAI 相媲美的开源基础 LLM。他们已正式讨论了在其 Mixtral 8x7B 模型中使用 MoE 架构，这是尖端大型语言模型 (LLM) 的革命性突破。我们将深入探讨 Mistral AI 的 Mixtral 为何在其他基础 LLM 中脱颖而出，以及为什么当前的 LLM 现在采用 MoE 架构来突出其速度、大小和准确性。

升级大型语言模型 (LLM) 的常用方法

为了更好地理解 MoE 架构如何增强我们的 LLM，让我们讨论一下提高 LLM 效率的常用方法。AI 从业者和开发人员通过增加参数、调整架构或微调来增强模型。

增加参数：通过输入更多信息并对其进行解释，模型学习和表示复杂模式的能力会提高。然而，这可能会导致过度拟合和幻觉，因此需要大量从人类反馈中进行强化学习 (RLHF)。
调整架构：引入新层或模块可适应不断增加的参数数量并提高特定任务的性能。然而，对底层架构的更改很难实现。
微调：预先训练的模型可以根据特定数据或通过迁移学习进行微调，让现有的 LLM 无需从头开始即可处理新任务或领域。这是最简单的方法，不需要对模型进行重大更改。

什么是 MoE 架构？

混合专家 (MoE) 架构是一种神经网络设计，通过为每个输入动态激活一组称为专家的专用网络子集来提高效率和性能。门控网络确定要激活哪些专家，从而实现稀疏激活并降低计算成本。MoE 架构由两个关键组件组成：门控网络和专家。让我们来分解一下：

从本质上讲，MoE 架构就像一个高效的交通系统，根据实时条件和所需目的地将每辆车（或在本例中为数据）引导至最佳路线。每个任务都会被路由到最适合处理该特定任务的专家或子模型。这种动态路由可确保为每项任务使用最有能力的资源，从而提高模型的整体效率和有效性。MoE 架构利用了所有 3 种方法来提高模型的保真度。

通过实施多位专家，MoE 本质上提高了模型的
通过为每个专家添加更多参数来调整参数大小。
MoE 改变了经典的神经网络架构，该架构采用门控网络来确定雇用哪些专家来完成指定任务。
每个 AI 模型都有一定程度的微调，因此 MoE 中的每个专家都经过微调以按照预期执行，这是传统模型无法利用的额外调整层面。

MoE 门控网络

门控网络充当 MoE 模型中的决策者或控制器。它评估传入的任务并确定哪个专家适合处理它们。此决策通常基于学习到的权重，这些权重会随着时间的推移通过训练进行调整，从而进一步提高其将任务与专家进行匹配的能力。门控网络可以采用各种策略，从将软分配任务分配给多个专家的概率方法，到将每个任务路由到单个专家的确定性方法。

MoE 专家

MoE 模型中的每个专家都代表一个较小的神经网络、机器学习模型或针对问题域的特定子集进行优化的 LLM。例如，在 Mistral 中，不同的专家可能专注于理解某些语言、方言甚至查询类型。专业化确保每个专家都精通其专业领域，当与其他专家的贡献相结合时，将在各种任务中带来卓越的表现。

MoE 损失函数

尽管损失函数不被视为 MoE 架构的主要组成部分，但它在模型的未来性能中起着关键作用，因为它旨在优化单个专家和门控网络。

它通常结合为每个专家计算的损失，这些损失由门控网络分配给它们的概率或重要性加权。这有助于根据专家的具体任务对其进行微调，同时调整门控网络以提高路由准确性。

MoE 专家组合 LLM 建筑学

MoE流程开始至结束

现在让我们总结一下整个过程，并添加更多细节。

以下是路由过程从开始到结束的简要说明：

输入处理：对传入数据的初始处理。主要是针对法学硕士的提示。
特征提取：转换原始输入以进行分析。
门控网络评估：通过概率或权重评估专家的适用性。
加权路由：根据计算的权重分配输入。在这里，选择最合适的 LLM 的过程就完成了。在某些情况下，会选择多个 LLM 来回答单个输入。
任务执行：处理每个专家分配的输入。
专家输出整合：将各个专家的结果结合起来以获得最终输出。
反馈和调整：利用性能反馈来改进模型。
迭代优化：不断完善路线和模型参数。

采用 MoE 架构的热门模型

OpenAI 的 GPT-4 和 GPT-4o： GPT-4 和 GPT4o 为 ChatGPT 的高级版本提供支持。这些多模态模型利用 MoE 来摄取不同的源媒体，如图像、文本和语音。据传言，GPT-4 有 8 位专家，每位专家有 2200 亿个参数，整个模型的参数总数超过 1.7 万亿。
Mistral AI 的 Mixtral 8x7b： Mistral AI 提供非常强大的开源 AI 模型，并表示他们的 Mixtral 模型是一个 sMoE 模型或稀疏混合专家模型，以小封装形式提供。Mixtral 8x7b 总共有 467 亿个参数，但每个 token 仅使用 129 亿个参数，因此以这个成本处理输入和输出。他们的 MoE 模型始终优于 Llama2（70B）和 GPT-3.5（175B），同时运行成本更低。

MoE 的优势及其成为首选架构的原因

最终，MoE 架构的主要目标是实现复杂机器学习任务处理方式的范式转变。它具有独特的优势，并在多个方面展示了其优于传统模型的优势。

增强模型可扩展性
- 每个专家负责一部分任务，因此通过增加专家进行扩展不会导致计算需求成比例增加。
- 这种模块化方法可以处理更大、更多样化的数据集，并促进并行处理，从而加快操作速度。例如，将图像识别模型添加到基于文本的模型中可以集成额外的 LLM 专家来解释图片，同时仍能输出文本。或者
- 多功能性使得模型可以扩展其在不同类型的数据输入中的能力。
提高效率和灵活性
- MoE 模型非常高效，可以选择性地仅让必要的专家参与特定输入，这与不顾一切地使用所有参数的传统架构不同。
- 该架构减少了每次推理的计算负荷，使得模型能够适应不同的数据类型和专门任务。
专业化和准确性：
- MoE 系统中的每个专家都可以针对整体问题的特定方面进行微调，从而提高这些领域的专业知识和准确性
- 这样的专业化对于医学成像或财务预测等领域很有帮助，因为精准是关键
- 由于 MoE 具有细致的理解、详细的知识以及在专门任务上胜过通才模型的能力，因此它可以从狭窄的领域中产生更好的结果。

以动态方式聘用多位专家可提高 LLM 能力

MoE 架构的缺点

虽然 MoE 架构具有显著的优势，但它也面临着可能影响其采用和有效性的挑战。

模型复杂性：管理多个神经网络专家和用于引导流量的门控网络使 MoE 开发和运营成本具有挑战性
训练稳定性：门控网络和专家之间的交互引入了不可预测的动态，阻碍了实现统一的学习率，并需要大量的超参数调整。
不平衡：让专家闲置对于 MoE 模型而言是一种糟糕的优化，会将资源花在未使用的专家身上，或者过于依赖某些专家。平衡工作量分配和调整有效门控对于高性能 MoE AI 至关重要。

值得注意的是，随着 MoE 架构的改进，上述缺点通常会随着时间的推移而减少。

MoE 未来

回顾 MoE 方法及其与人类的相似之处，我们发现，正如专业团队比一般劳动力取得更大成就一样，专业模型在 AI 模型中的表现也优于单一模型。优先考虑多样性和专业知识可将大型问题的复杂性转化为专家可以有效解决的可管理部分。

展望未来，我们需要考虑专业系统对推动其他技术发展的更广泛影响。MoE 的原则可能会影响医疗保健、金融和自动化系统等领域的发展，从而促进更高效、更准确的解决方案。

MoE 的旅程才刚刚开始，其持续发展有望推动 AI 及其他领域的进一步创新。随着高性能硬件的不断进步，这种专家 AI 组合可以驻留在我们的智能手机中，能够提供更智能的体验。但首先，需要有人训练一个。

标签：架构,模型,专家,LLM,门控,MoE
From： https://blog.csdn.net/sikh_0529/article/details/143673646

【LLM】为什么最新的 LLM 采用 MoE（专家混合）架构

专业化必不可少

升级大型语言模型 (LLM) 的常用方法

什么是 MoE 架构？

MoE 门控网络

MoE 专家

MoE 损失函数

MoE流程开始至结束

采用 MoE 架构的热门模型

MoE 的优势及其成为首选架构的原因

MoE 架构的缺点

MoE 未来

相关文章

赞助商

阅读排行

​​【LLM】为什么最新的 LLM 采用 MoE（专家混合）架构

专业化必不可少

升级大型语言模型 (LLM) 的常用方法

什么是 MoE 架构？

MoE 门控网络

MoE 专家

MoE 损失函数

MoE流程开始至结束

采用 MoE 架构的热门模型

MoE 的优势及其成为首选架构的原因

MoE 架构的缺点

MoE 未来

相关文章

赞助商

阅读排行

【LLM】为什么最新的 LLM 采用 MoE（专家混合）架构