首页 > 其他分享 >Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE

Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE

时间:2025-01-06 11:33:52浏览次数:3  
标签:1280 模型 扩展 Meta 记忆 密集 Memory 参数 MoE

预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说,参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。虽然前馈网络原则上(给定足够的规模)可以学习任何函数,但使用联想记忆(associative memory)会更高效。

记忆层(memory layers)使用可训练的键值查找机制向模型添加额外的参数,而不会增加 FLOP。从概念上讲,稀疏激活的记忆层补充了计算量大的密集前馈层,提供了廉价地存储和检索信息的专用容量。

最近,Meta 的一项新研究使记忆层超越了概念验证,证明了它们在大型语言模型(LLM)扩展中的实用性。

图片

  • 论文标题:Memory Layers at Scale

  • 论文地址:https://arxiv.org/pdf/2412.09764

  • 项目地址:https://github.com/facebookresearch/memory


 

在下游任务中,通过改进的记忆层增强的语言模型的性能优于计算预算两倍以上的密集模型,以及在计算和参数相当的专家混合(MoE)模型。


 

这项工作表明,当记忆层得到充分改进和扩展时,可以用于增强密集神经网络,从而带来巨大的性能提升。通过用记忆层替换一个或多个 transformer 层的前馈网络(FFN)来实现这一点(保持其他层不变)。这些优势在各种基本模型大小(从 1.34 亿到 80 亿参数)和内存容量(最多 1280 亿参数)中都是一致的。这意味着存储容量实现了两个数量级的飞跃。


 

记忆增强架构


 

可训练的记忆层类似于注意力机制。给定一个查询 

图片

,一组键 

图片

,以及值 

图片

。输出是值的软组合,根据 q 和相应键之间的相似性进行加权。


 

在使用时,记忆层与注意力层之间存在两个区别。


 

  • 首先,记忆层中的键和值是可训练参数,而不是激活参数;

  • 其次,记忆层在键和值的数量方面通常具有更大的规模,因此稀疏查询和更新是必需的。


 

该研究将键-值对的数量扩展到数百万。在这种情况下,只有 top-k 最相似的键和相应的值被输出。一个简单的记忆层可以用下面的等式来描述:

图片

其中,I 是一组指标, 

图片

,输出 

图片


 

扩展记忆层


 

扩展记忆层时面临的一个瓶颈是「查询 - 键」检索机制。简单的最近邻搜索需要比较每一对查询 - 键,这对于大型记忆来说很快就变得不可行。虽然可以使用近似向量相似性技术,但当键正在不断训练并需要重新索引时,将它们整合起来是一个挑战。相反,本文采用了可训练的「product-quantized」键。


 

并行记忆。记忆层是记忆密集型的,主要是由于可训练参数和相关优化器状态的数量庞大导致的。该研究在多个 GPU 上并行化嵌入查找和聚合,记忆值在嵌入维度上进行分片。在每个步骤中,索引都从进程组中收集,每个 worker 进行查找,然后将嵌入的部分聚合到分片中。此后,每个 worker 收集与其自身索引部分相对应的部分嵌入。该过程如图 2 所示。

图片

共享记忆。深度网络在不同层上以不同的抽象级别对信息进行编码。向多个层添加记忆可能有助于模型以更通用的方式使用其记忆。与以前的工作相比,该研究在所有记忆层中使用共享记忆参数池,从而保持参数数量相同并最大化参数共享。


 

该研究通过引入具有 silu 非线性的输入相关门控来提高记忆层的训练性能。等式 (1) 中的输出变为:

图片

其中 silu (x) = x sigmoid (x),⊙是元素的乘法(参见图 3)。

图片

实验及结果


 

首先,该研究固定记忆大小,并与密集基线以及参数大致匹配的 MOE 和 PEER 模型进行比较。


 

从表 1 中我们可以看出,Memory 模型比密集基线模型有了大幅改进,在 QA 任务上的表现通常与密集参数数量为其两倍的模型相当。


 

Memory+ (有 3 个记忆层)比 Memory 有了进一步的改进,其性能通常介于计算能力高出其 2 到 4 倍的密集模型之间。


 

对于相同数量的参数,PEER 架构的表现与 Memory 模型相似,但落后于 Memory+。MOE 模型的表现远不及 Memory 变体。

图片

图 4 显示了不同大小的 Memory、MOE 和密集模型在 QA 任务上的扩展性能。

图片

图 1 表明 Memory+ 模型的实际 QA 性能随着记忆大小的增加而不断的增加。

图片

在 6400 万个键(1280 亿个记忆参数)下,1.3B Memory 模型的性能接近 Llama2 7B 模型,后者使用了 10 倍以上的 FLOPs(见表 2)。

图片

最后,本文在 8B 基础模型和 4096^2 个记忆值的基础上 (64B 记忆参数)扩展了 Memory+ 模型,表 2 报告了结果,发现记忆增强模型的表现明显优于密集基线。

 更多内容可以访问我的博客 https://ai.tmqcjr.com

标签:1280,模型,扩展,Meta,记忆,密集,Memory,参数,MoE
From: https://blog.csdn.net/2404_89475218/article/details/144943432

相关文章

  • 【详解】Metasploit渗透MSSQL
    目录Metasploit渗透MSSQL环境准备工具安装目标环境渗透步骤1.扫描目标2.加载MSSQL模块3.配置模块4.设置凭证字典5.运行模块6.分析结果7.利用漏洞8.后渗透测试安全建议结论前提条件示例代码示例脚本解释注意事项结论常见的MSSQL渗透模块使用步骤......
  • Meta 的新策略,将 AI 生成的角色整合到其社交媒体平台
    一、Meta新年规划及引人注目的举措多元规划背景:在新的一年,Meta制定了多维度的战略规划,旨在巩固并拓展其在科技领域的影响力。增强现实与元宇宙是其长期布局的重点方向,期望借此塑造未来互联网的交互形态;面对TikTok可能被禁的潜在情况,提前做好准备以吸纳其用户,显示出对用户流量......
  • Java反射导致Metaspace OOM分析方式、工具与解决方法
    1.前言MetaspaceOOM是Java应用常见的异常,出现MetaspaceOOM时,大部分情况是因为反射生成的类占用了Metaspace太多空间导致的以下主要包含四个部分的内容:Java反射导致MetaspaceOOM的原因及分析方式与工具Java反射导致MetaspaceOOM的解决方式解决Java反......
  • Deepseek V3 —— 6850亿参数混合专家(MoE)架构开源大模型!Deepseek V3全方位客观评测
    地址:https://www.youtube.com/watch?v=BnoMTeKxwBQ......
  • Metaflow
    Metaflowhttps://docs.metaflow.org/introduction/what-is-metaflowWhatisMetaflowMetaflowisahuman-friendlyPythonlibrarythatmakesitstraightforwardtodevelop,deploy,andoperatevariouskindsofdata-intensiveapplications,inparticularthose......
  • 颠覆认知!Meta 发布全新“概念模型”,或将迎来“乐高式”进化
    最近科技圈又迎来一项重磅突破!Meta悄然发布了一篇名为"LargeConceptModels:LanguageModelinginaSentenceRepresentationSpace"的论文,直接提出了一个颠覆性的AI模型架构,很有可能把我们带入NLP(自然语言处理)的下一个时代!https://arxiv.org/pdf/2412.08821你可能对......
  • Metal RT压缩
    iOS设备的屏幕分辨率越来越高,渲染时需要的RT的分辨率和内存的开销都更高了。苹果官方在2021年发布的A15Bonic芯片中支持了RT的lossy压缩,可以减少50%的内存footprint。MetalRT压缩是什么?Apple在2018年就已经提供了RT的lossless压缩方案,可以节省带宽,从而降低功耗。在A15Bonic芯......
  • 基于Cecil源码的IL练级攻略(2)Metadata存储结构
    目录简介什么是元数据MetadataHeader参考文献简介上文提到CLRRuntimeHeader中包含metadatadirectory,我们可以通过这个字段访问对应的元数据信息。本篇文章会大致介绍一下元数据metadata以及它的存储结构。后续的文章都将基于本篇文章,因此如果有不理解的地方,推荐重新再看一......
  • html5中的meta标签keywords有什么作用?
    在HTML5中,<meta>标签的keywords属性曾经被用来为网页提供关键词,以便搜索引擎能够更好地理解和索引网页内容。然而,这个属性的实际作用在近年来已经大大减弱。过去,搜索引擎会依赖keywords属性来了解网页的主题和内容。网站开发者会在keywords属性中填入一系列与网页内容相关的关键......
  • html5中的meta标签revised有什么作用?
    在HTML5中,并没有一个官方定义的revised属性或meta标签。可能你是指的meta标签中的content属性被用来表示页面的修订日期或版本号,但这并不是HTML5标准中的一部分。通常,meta标签被用于提供有关HTML文档的元数据。这些元数据不会显示在页面上,但是对于机器是可读的。它可用于浏览器(如......