首页 > 其他分享 >大型语言模型的 MOE 和 MOA

大型语言模型的 MOE 和 MOA

时间:2024-07-18 18:58:41浏览次数:16  
标签:模型 专家 代理 LLM MOA MOE

AI生成

     欢迎来到雲闪世界。大型语言模型 (LLM) 无疑席卷了科技行业。它们的迅速崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大量数据。数据和计算密集型模型一直在狂热地整合来自音频和视频库的多模态数据,并且数月来一直使用数万个Nvidia GPU 来训练最先进的 (SOTA) 模型。所有这些都让我们怀疑这种指数级增长能否持续。

希望得到专家们的一些建议,但让我们在这里仅探讨其中的一些内容。

  • 成本和可扩展性:大型模型的训练和服务成本可能高达数千万美元,这成为日常应用采用该模型的障碍。
  • 训练数据饱和:公开可用的数据集很快就会耗尽,可能需要依赖缓慢生成的用户内容。只有拥有稳定新内容来源的公司和机构才能实现改进。
  • 幻觉:生成虚假和未经证实的信息的模型将对用户产生威慑作用,因为用户在将其用于敏感应用程序之前会期望得到权威来源的验证。
  • 探索未知领域:现在的应用范围已经超出了其最初的意图。例如,法学硕士在游戏、科学发现和气候建模方面表现出了强大的能力。我们需要新的方法来解决这些复杂的情况。

在我们开始过于担心未来之前,让我们先来看看人工智能研究人员是如何不知疲倦地研究如何确保持续进步的。混合专家 (MoE) 和混合代理 (MoA) 创新表明,希望就在眼前。

      专家混合技术于 2017 年首次推出,该技术表明,多个专家和一个可以挑选稀疏专家集的门控网络可以产生显著改善的结果,同时降低计算成本。门控决策允许关闭网络的大部分部分,从而实现条件计算,而专业化可以提高语言建模和机器翻译任务的性能。

Outrageously Large Neural Networks 的 MoE 层

       上图显示了混合专家层被纳入循环神经网络。门控层只激活两个专家来完成任务,然后合并他们的输出。

虽然这已在选定的基准上得到证明,但条件计算开辟了一条途径,可以在不依赖不断增长的模型规模的情况下实现持续改进。

      受 MOE 的启发,混合代理技术利用多个 LLM 来改善结果。问题通过多个 LLM(即代理)进行路由,这些代理在每个阶段都会增强结果,作者已经证明,与较大的 SOTA 模型相比,较小的模型可以产生更好的结果。

混合代理增强大型语言模型功能

       该图显示了 4 个混合代理层,每层有 3 个代理。为每层选择合适的 LLM 对于确保适当的协作和产生高质量的响应非常重要。

       MOA 依赖于这样一个事实:LLM 协作可以产生更好的输出,因为它们可以组合来自其他模型的响应。LLM 的角色分为生成不同输出的提议者和可以组合它们以产生高质量响应的聚合器。多阶段方法可能会增加首次令牌时间 (TTFT),因此需要开发缓解方法以使其适用于广泛的应用。

MOE 和 MOA 具有相似的根本要素,但行为方式不同。MOE 的理念是挑选一组专家来完成一项工作,而门控网络的任务是挑选合适的专家。MOA 的理念是让团队在之前团队的工作基础上继续发展,并在每个阶段改进成果。

MOE 和 MOA 的创新开辟了一条创新之路,其中专门的组件或模型的组合、协作和交换信息可以继续提供更好的结果,即使模型参数和训练数据集的线性缩放不再简单。

虽然我们只有事后才知道法学硕士的创新是否能持续下去,但我一直在关注该领域的研究以寻求见解。看到大学和研究机构的成果,我对接下来的发展非常乐观。我确实觉得我们只是在为即将改变我们生活的新功能和应用程序的冲击做准备。我们不知道它们是什么,但我们可以相当肯定,未来的日子一定会让我们感到惊讶。

“我们倾向于高估一项技术的短期效应,而低估其长期效应。”——阿玛拉定律

感谢关注雲闪世界(亚马逊云AWS和谷歌云GCP协助)


 订阅频道(https://t.me/awsgoogvps_Host)


 TG交流群(t.me/awsgoogvpsHost)

标签:模型,专家,代理,LLM,MOA,MOE
From: https://blog.csdn.net/2401_85233349/article/details/140484559

相关文章

  • Datawhale AI 夏令营——CPU部署大模型(LLM天池挑战赛)——Task2与3学习笔记
        Task2的任务是组队+寻找灵感,这里不作阐述;Task3的任务是实现RAG应用,阅读文档并观看卢哥的直播后,结合个人经验做个分享。    运行大语言模型,对LLM使用的加深,我们发现,在使用过程中,大模型会有很多幻觉出现。为了解决幻觉,科研人员提出了各种各样的方案......
  • 【大模型私有化部署:手把手教你部署并使用清华智谱GLM大模型】
    部署一个自己的大模型,没事的时候玩两下,这可能是很多技术同学想做但又迟迟没下手的事情,没下手的原因很可能是成本太高,近万元的RTX3090显卡,想想都肉疼,又或者官方的部署说明过于简单,安装的时候总是遇到各种奇奇怪怪的问题,难以解决。本文就来分享下我的安装部署经验,包括本地和租......
  • 【6!使用本地大模型调用代码,根本就是一场骗局!】
    通过大模型调用其他工具到底可不可行?ChatGPT或许能轻松搞定一切,但同样的需求落在本地大模型上,恐怕就要打个问号了。法国开发工程师EmilienLancelot尝试了多款号称具备工具调用功能的agent框架,来看看本地大模型到底能不能完成任务,但结果就像他总结的“一无所获”。是......
  • 模型训练中出现loss为NaN怎么办?
    文章目录一、模型训练中出现loss为NaN原因1.学习率过高2.梯度消失或爆炸3.数据不平衡或异常4.模型不稳定5.过拟合二、针对梯度消失或爆炸的解决方案1.使用`torch.autograd.detect_anomaly()`2.使用torchviz可视化计算图3.检查梯度的数值范围4.调整梯度剪裁......
  • AI Earth——基于决策树模型淮河流域冬小麦提取应用app
    应用介绍:本应用依据利用Landsat-8数据,基于潘力、夏浩铭、王瑞萌等研究论文(基于GoogleEarthEngine的淮河流域越冬作物种植面积制图)中提出的利用作物在不同物候期内卫星影像的光谱存在差异的特征,通过计算作物时间序列的皈依化植被指数(NDVI),选取越冬作物生长旺盛期NDVI最大......
  • LLM大模型新手训练指南
    基础用于语言建模的最常见架构是Transformer架构,由Vaswani等人在著名论文《AttentionIsAllYouNeed》中提出。我们不会在这里讨论该架构的具体细节,因为我们必须讨论导致并促成其创建的所有旧技术。Transformer使我们能够训练具有惊人推理能力的大型语言模型(LLM......
  • 隐马尔可夫模型之概率计算问题
    前向算法    算法目标:计算给定隐马尔可夫模型和观测序列的概率。    算法步骤:通过递归计算前向概率来实现,其中表示在时刻状态为并且观测到部分序列的概率。初始化在初始时刻,计算所有状态的初始前向概率:,其中,是初始状态概率,是状态生成观测的概率。递归计......
  • 【LLM大模型】《开源大模型食用指南》全网发布,轻松助你速通llm大模型!
    前言《开源大模型食用指南》是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用......
  • 大模型网信办备案全网最详细说明【附流程+附件】
    本文共分为以下几个章节一、大模型算法备案的强制性二、生成式人工智能(大语言模型)安全评估要点三、大模型备案必备材料+重点说明四、大模型备案填报流程五、大模型备案时间成本对比六、备案建议附录、过程性材料一、大模型算法备案的强制性1、强制要求备案(1)《办法》第六条......
  • 多进程模型
    多进程模型基于最原始的阻塞网络I/O,如果服务器要支持多个客户端,其中比较传统的方式,就是使用多进程模型,也就是为每个客户端分配一个进程来处理请求。服务器的主进程负责监听客户的连接,一旦与客户端连接完成,accept()函数就会返回一个「已连接Socket」,这时就通过fork()函数创......