首页 > 其他分享 >​​【LLM】为什么最新的 LLM 采用 MoE(专家混合)架构

​​【LLM】为什么最新的 LLM 采用 MoE(专家混合)架构

时间:2025-01-13 17:28:58浏览次数:3  
标签:架构 模型 专家 LLM 门控 MoE

EXX-Blog-为什么最新的 LLM 使用 MoE 架构.jpg

专业化必不可少

医院里挤满了专家和医生,他们各有专长,解决着独特的问题。外科医生、心脏病专家、儿科医生——各种专家齐心协力提供护理,经常合作为患者提供所需的护理。我们可以通过人工智能做到同样的事情。

人工智能中的混合专家 (MoE) 架构被定义为不同“专家”模型的混合或融合,这些模型共同处理或响应复杂的数据输入。在人工智能方面,MoE 模型中的每个专家都专注于更大的问题 - 就像每个医生都专注于他们的医学领域一样。这提高了效率并提高了系统功效和准确性。

Mistral AI 提供可与 OpenAI 相媲美的开源基础 LLM。他们已正式讨论了在其 Mixtral 8x7B 模型中使用 MoE 架构,这是尖端大型语言模型 (LLM) 的革命性突破。我们将深入探讨 Mistral AI 的 Mixtral 为何在其他基础 LLM 中脱颖而出,以及为什么当前的 LLM 现在采用 MoE 架构来突出其速度、大小和准确性。

升级大型语言模型 (LLM) 的常用方法

为了更好地理解 MoE 架构如何增强我们的 LLM,让我们讨论一下提高 LLM 效率的常用方法。AI 从业者和开发人员通过增加参数、调整架构或微调来增强模型。

  • 增加参数:通过输入更多信息并对其进行解释,模型学习和表示复杂模式的能力会提高。然而,这可能会导致过度拟合和幻觉,因此需要大量从人类反馈中进行强化学习 (RLHF)。
  • 调整架构:引入新层或模块可适应不断增加的参数数量并提高特定任务的性能。然而,对底层架构的更改很难实现。
  • 微调:预先训练的模型可以根据特定数据或通过迁移学习进行微调,让现有的 LLM 无需从头开始即可处理新任务或领域。这是最简单的方法,不需要对模型进行重大更改。

什么是 MoE 架构?

混合专家 (MoE) 架构是一种神经网络设计,通过为每个输入动态激活一组称为专家的专用网络子集来提高效率和性能。门控网络确定要激活哪些专家,从而实现稀疏激活并降低计算成本。MoE 架构由两个关键组件组成:门控网络和专家。让我们来分解一下:

从本质上讲,MoE 架构就像一个高效的交通系统,根据实时条件和所需目的地将每辆车(或在本例中为数据)引导至最佳路线。每个任务都会被路由到最适合处理该特定任务的专家或子模型。这种动态路由可确保为每项任务使用最有能力的资源,从而提高模型的整体效率和有效性。MoE 架构利用了所有 3 种方法来提高模型的保真度。

  • 通过实施多位专家,MoE 本质上提高了模型的
  • 通过为每个专家添加更多参数来调整参数大小。
  • MoE 改变了经典的神经网络架构,该架构采用门控网络来确定雇用哪些专家来完成指定任务。
  • 每个 AI 模型都有一定程度的微调,因此 MoE 中的每个专家都经过微调以按照预期执行,这是传统模型无法利用的额外调整层面。

MoE 门控网络

门控网络充当 MoE 模型中的决策者或控制器。它评估传入的任务并确定哪个专家适合处理它们。此决策通常基于学习到的权重,这些权重会随着时间的推移通过训练进行调整,从而进一步提高其将任务与专家进行匹配的能力。门控网络可以采用各种策略,从将软分配任务分配给多个专家的概率方法,到将每个任务路由到单个专家的确定性方法。

MoE 专家

MoE 模型中的每个专家都代表一个较小的神经网络、机器学习模型或针对问题域的特定子集进行优化的 LLM。例如,在 Mistral 中,不同的专家可能专注于理解某些语言、方言甚至查询类型。专业化确保每个专家都精通其专业领域,当与其他专家的贡献相结合时,将在各种任务中带来卓越的表现。

MoE 损失函数

尽管损失函数不被视为 MoE 架构的主要组成部分,但它在模型的未来性能中起着关键作用,因为它旨在优化单个专家和门控网络。 

它通常结合为每个专家计算的损失,这些损失由门控网络分配给它们的概率或重要性加权。这有助于根据专家的具体任务对其进行微调,同时调整门控网络以提高路由准确性。

MoE 专家组合 LLM 建筑学

MoE流程开始至结束

现在让我们总结一下整个过程,并添加更多细节。 

以下是路由过程从开始到结束的简要说明:

  • 输入处理:对传入数据的初始处理。主要是针对法学硕士的提示。
  • 特征提取:转换原始输入以进行分析。
  • 门控网络评估:通过概率或权重评估专家的适用性。
  • 加权路由:根据计算的权重分配输入。在这里,选择最合适的 LLM 的过程就完成了。在某些情况下,会选择多个 LLM 来回答单个输入。
  • 任务执行:处理每个专家分配的输入。
  • 专家输出整合:将各个专家的结果结合起来以获得最终输出。
  • 反馈和调整:利用性能反馈来改进模型。
  • 迭代优化:不断完善路线和模型参数。

采用 MoE 架构的热门模型

  • OpenAI 的 GPT-4 和 GPT-4o: GPT-4 和 GPT4o 为 ChatGPT 的高级版本提供支持。这些多模态模型利用 MoE 来摄取不同的源媒体,如图像、文本和语音。据传言,GPT-4 有 8 位专家,每位专家有 2200 亿个参数,整个模型的参数总数超过 1.7 万亿。
  • Mistral AI 的 Mixtral 8x7b: Mistral AI 提供非常强大的开源 AI 模型,并表示他们的 Mixtral 模型是一个 sMoE 模型或稀疏混合专家模型,以小封装形式提供。Mixtral 8x7b 总共有 467 亿个参数,但每个 token 仅使用 129 亿个参数,因此以这个成本处理输入和输出。他们的 MoE 模型始终优于 Llama2(70B)和 GPT-3.5(175B),同时运行成本更低。

MoE 的优势及其成为首选架构的原因

最终,MoE 架构的主要目标是实现复杂机器学习任务处理方式的范式转变。它具有独特的优势,并在多个方面展示了其优于传统模型的优势。

  • 增强模型可扩展性
    • 每个专家负责一部分任务,因此通过增加专家进行扩展不会导致计算需求成比例增加。
    • 这种模块化方法可以处理更大、更多样化的数据集,并促进并行处理,从而加快操作速度。例如,将图像识别模型添加到基于文本的模型中可以集成额外的 LLM 专家来解释图片,同时仍能输出文本。或者
    • 多功能性使得模型可以扩展其在不同类型的数据输入中的能力。
  • 提高效率和灵活性
    • MoE 模型非常高效,可以选择性地仅让必要的专家参与特定输入,这与不顾一切地使用所有参数的传统架构不同。 
    • 该架构减少了每次推理的计算负荷,使得模型能够适应不同的数据类型和专门任务。
  • 专业化和准确性:
    • MoE 系统中的每个专家都可以针对整体问题的特定方面进行微调,从而提高这些领域的专业知识和准确性
    • 这样的专业化对于医学成像或财务预测等领域很有帮助,因为精准是关键
    • 由于 MoE 具有细致的理解、详细的知识以及在专门任务上胜过通才模型的能力,因此它可以从狭窄的领域中产生更好的结果。

以动态方式聘用多位专家可提高 LLM 能力

MoE 架构的缺点

虽然 MoE 架构具有显著的优势,但它也面临着可能影响其采用和有效性的挑战。

  • 模型复杂性:管理多个神经网络专家和用于引导流量的门控网络使 MoE 开发和运营成本具有挑战性
  • 训练稳定性:门控网络和专家之间的交互引入了不可预测的动态,阻碍了实现统一的学习率,并需要大量的超参数调整。
  • 不平衡:让专家闲置对于 MoE 模型而言是一种糟糕的优化,会将资源花在未使用的专家身上,或者过于依赖某些专家。平衡工作量分配和调整有效门控对于高性能 MoE AI 至关重要。

值得注意的是,随着 MoE 架构的改进,上述缺点通常会随着时间的推移而减少。

MoE 未来

回顾 MoE 方法及其与人类的相似之处,我们发现,正如专业团队比一般劳动力取得更大成就一样,专业模型在 AI 模型中的表现也优于单一模型。优先考虑多样性和专业知识可将大型问题的复杂性转化为专家可以有效解决的可管理部分。

展望未来,我们需要考虑专业系统对推动其他技术发展的更广泛影响。MoE 的原则可能会影响医疗保健、金融和自动化系统等领域的发展,从而促进更高效、更准确的解决方案。 

MoE 的旅程才刚刚开始,其持续发展有望推动 AI 及其他领域的进一步创新。随着高性能硬件的不断进步,这种专家 AI 组合可以驻留在我们的智能手机中,能够提供更智能的体验。但首先,需要有人训练一个。

标签:架构,模型,专家,LLM,门控,MoE
From: https://blog.csdn.net/sikh_0529/article/details/143673646

相关文章

  • 万字图文:SaaS业务架构、价值流、业务能力、业务流程、业务对象、组织架构
    大家好,我是汤师爷~本文为读者提供一个SaaS业务架构的系统性框架,探讨业务架构分析的核心要素,帮助SaaS企业深入剖析目标客户的业务模式,全面理解他们的业务架构。无论你是SaaS创业者、产品经理还是架构师,本文内容都将为你的系统设计和决策提供帮助。1目标与步骤SaaS业务架构需要......
  • 软件架构中的CS架构和BS架构
    Client/Server        Client/Server,即客户端/服务器架构,是一种典型的两层架构,在计算机网络和软件开发领域有着广泛的应用。    主要特点        -专用客户端应用程序                -C/S架构的客户端通常是安装在用户设备上的......
  • 一个企业如何搭建品牌架构?
    品牌框架搭建,即品牌架构规划,是一个涉及品牌组合的组织结构明确、品牌角色界定以及品牌间关系梳理的过程。以下是对品牌框架搭建的详细分析:一、品牌架构概述品牌架构是品牌组合的管理方式,它决定了不同品牌如何相互关联,以及它们在市场上的定位。一个清晰、有效的品牌架构有助于......
  • LLM大模型实践10-聊天机器人
    大型语言模型带给我们的激动人心的一种可能性是,我们可以通过它构建定制的聊天机器人(Chatbot),而且只需很少的工作量。在这一章节的探索中,我们将带你了解如何利用会话形式,与具有个性化特性(或专门为特定任务或行为设计)的聊天机器人进行深度对话。像ChatGPT这样的聊天模型实际......
  • 读书记录--架构
    2024-12-31记录架构师成长第一步:如何做需求分析(方法经验总结,纯干货系列)-云飞龙行2021-博客园(cnblogs.com)1:理解业务,要准确、全面、深入这是需求分析阶段最最重要的工作。准确的意思就是:对每个功能点的理解,要没有歧义,不可再分。如果一个功能点,不同的人有不......
  • 【HarmonyOS Next NAPI 深度探索2】N-API 的工作机制与架构
    【HarmonyOSNextNAPI深度探索2】N-API的工作机制与架构如果你听说过N-API,但还不太了解它的作用和背后的工作机制,那这篇文章会帮你捋清楚它的结构和原理。N-API是Node.js提供的一个强大工具,专门用于开发高性能、可维护的原生模块。接下来,我们一起看看N-API是如何......
  • 百万架构师第十六课:源码分析:Spring 源码分析:手写SpringAOP核心原理|JavaGuide
    已完成SpringIOCSpringDISpringMVC继续完善:SpringAOP的功能,基于SpringIOC和DI去完成未完成:SpringAOP、SpringTransaction、SpringJDBC、自己手写ORM框架。​SpringIOC入口,DispatcherServlet,通过DispatcherServlet启动一个ApplicationContext容......
  • 人工智能(Artificial Intelligence)是什么?人工智能有什么好处?AI应用架构的关键组成?人工
    AI人工智能(ArtificialIntelligence)概念与历程了解人工智能向何处去,首先要知道人工智能从何处来。1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(ArtificialIntelligence,简称AI)”这一概念,标志着人工智能学科的......
  • 为AI聊天工具添加一个知识系统 之30 概念整体运营平台:中间架构层的broker service的AP
    本文要点本项目(为AI聊天工具增加知识系统)通过完善“公路”的整体概念框架 最终(在外部)为三类公共运营性交通工具((高速-轿车taxi/中速--公交车bus/低速-卡车truck))提供运营平台。该平台对内通过明确交通路线上的三种“端”(end/stop/start)的一般术语框架作为程序的形式化规......
  • ⭐MySQL的底层原理与架构
    前言了解MySQL的架构和原理对于很多的后续很多的操作会有很大的帮助与理解。并且很多知识都与底层架构相关联。了解MySQL架构通过上面的架构图可以得知,Server层中主要由连接器、查询缓存、解析器/分析器、优化器、执行器几部分组成的,下面将主要描述下这几部分。1、连......