首页 > 其他分享 >谷歌泰坦:Transformer之后的AI时代?

谷歌泰坦:Transformer之后的AI时代?

时间:2025-01-23 21:22:02浏览次数:1  
标签:Transformer AI 模型 记忆 序列 泰坦 惊讶

介绍

2017年,谷歌发布了一篇具有革命性意义的论文,题为《Attention is All You Need》(注意力是你所需要的一切)。这篇论文引发了我们今天所经历的AI革命,并引入了Transformer模型。Transformer已经成为如今几乎所有顶级大型语言模型(LLM)的核心架构。

Transformer的优势与成本

Transformer的强大主要归功于其注意力机制。面对一个令牌序列时,Transformer能够一次性处理整个序列,利用注意力机制捕捉整个序列中的依赖关系,从而提供高质量的输出。然而,这种强大能力的代价是:输入序列长度的二次方复杂度。这一成本限制了Transformer在处理更长序列时的扩展能力。

循环模型

另一方面,循环模型(Recurrent Models)不存在这种二次方复杂度的问题。它们并非一次性处理整个序列,而是逐步进行,将序列中的数据压缩到一个被称为“隐藏状态”的压缩记忆中。这种线性复杂度提升了循环模型的可扩展性。然而,循环模型的性能并未能超越Transformer。

引入泰坦模型

本文我们将探讨谷歌研究团队的一篇新论文《Titans: Learning to Memorize at Test Time》(泰坦:在测试时学习记忆),它提出了一种新的模型架构——泰坦(Titans)。该模型在缓解Transformer二次方复杂度问题的同时,显示出了令人期待的性能。泰坦模型的设计灵感来源于人类大脑的记忆工作方式。论文中提到一句有趣的话:“记忆是一个基本的心理过程,也是人类学习不可分割的组成部分。没有一个正常运作的记忆系统,人类和动物将被限制在基础的反射和刻板行为中。”

深度神经长期记忆模块

泰坦论文的一项关键贡献是深度神经长期记忆模块。首先,我们来理解什么是长期记忆模块,然后探讨它如何整合到泰坦模型中。

与循环神经网络中将记忆编码为固定向量不同,神经长期记忆模块是一个神经网络模型,包含多层结构,将过去的抽象历史编码到模型参数中。训练这种模型的一种方法是让模型记住其训练数据。然而,记忆化(memorization)已知会限制模型的泛化能力,并可能导致性能下降。

记忆化但不过拟合

研究人员设计了一种独特的方法,创建了一个能够记忆但不会过拟合于训练数据的模型。该方法借鉴了人类记忆的类比。当我们遇到令人意外的事件时,我们更有可能记住这个事件。神经长期记忆模块的学习过程正是为了反映这一点。

建模“惊讶”

研究人员如何建模“惊讶”,可以通过下图定义进行理解。

MtM_tMt 表示在时间 ttt 的神经长期记忆模块。它通过前一时间步的参数和一个“惊讶”元素(建模为梯度)进行更新。如果梯度较大,说明模型对输入更“惊讶”,从而导致模型权重更显著的更新。然而,这种定义并不完美,因为模型可能会错过“惊讶”发生后紧接着的重要信息。

建模“过去的惊讶”

从人类的角度来看,一个令人惊讶的事件不会长期持续令人惊讶,但它仍然是难忘的。我们通常会适应令人惊讶的事件。然而,这个事件可能足够令人惊讶以吸引我们的注意力,贯穿更长的时间段,从而记住整个时间段。

改进后的建模定义包括了“过去的惊讶”。现在,我们通过前一权重状态和一个惊讶组件(记作 StS_tSt)来更新神经长期记忆权重。惊讶组件现在是随着时间测量的,由前一惊讶(有衰减因子)和当前瞬间的惊讶组成。

建模“遗忘”

处理非常长的序列(例如,数百万个令牌)时,管理哪些过去信息应被遗忘是至关重要的。从下图的定义中可以看到最终的建模。这些定义与上一部分的定义相同,只是我们新增了一个自适应遗忘机制,记作 ααα,也称为“门控机制”。这允许记忆遗忘不再需要的信息。

损失函数

损失函数通过上述方程定义。损失的目标是建模关联记忆,通过将过去的数据存储为键值对,并教会模型在键和值之间建立映射。与Transformer类似,线性层将输入投射为键和值。然后,损失函数衡量记忆模块学习键值关联的效果。

需要澄清的是,模型不会一次性处理整个序列,而是逐步处理,在权重中累积记忆信息。

泰坦架构 #1 — 记忆作为上下文(MAC)

论文提出了几种不同的架构。第一种称为“记忆作为上下文”(MAC)。下图展示了该架构:

模型由三个组件组成:持久记忆、核心和上下文记忆。对于一个长输入序列,我们将其分割成较小的序列。图中的“核心”组件实际上是一个分块的序列。

持久记忆

我们通过向序列的开头添加可学习的与数据无关的权重来整合持久记忆。这实际上是可学习的令牌,存储全局信息,不受输入影响。

上下文记忆

上下文记忆依赖于上下文,由深度神经长期记忆模块组成。我们通过神经长期记忆模块的前向传播,将输入分块序列作为输入,检索记忆令牌。

核心组件

核心组件将所有内容结合在一起,利用一个注意力模块,输入包含持久记忆、上下文记忆和输入本身的信息扩展序列。

标签:Transformer,AI,模型,记忆,序列,泰坦,惊讶
From: https://www.cnblogs.com/jellyai/p/18688626

相关文章

  • 【LLM应用开发】 langchain框架的 4大组件
    在人工智能的浪潮中,大型语言模型(LLM)逐渐成为推动科技进步的重要力量。而LangChain,作为一个专为LLM应用开发设计的框架,凭借其模块化和高效性,受到了广泛关注。本文将深入浅出地讲解LangChain中的四个基础组件:PromptTemplate、LLMs、Chain和OutputParser,帮助入门者快速上手。一、Pro......
  • 【AI应用开发】 向量和向量数据
    一、什么是向量向量vector通常出现在自然语言NLP领域,NLP中称为词嵌入wordembedding,词嵌入的工作就是如何将人类语言中的词汇、短语或句子转化为计算机能够理解和操作的数学向量。具体的,词嵌入(WordEmbedding),是一种将词汇表中的每个单词或短语映射到一个固定大小的连续向量空......
  • 【AI论文】MMVU:衡量专家级多学科视频理解能力
    摘要:我们推出了MMVU,这是一个全面的专家级、多学科视频理解基准,用于评估基础模型在视频理解方面的表现。MMVU包含3000个由专家标注的问题,这些问题涵盖了四个核心学科领域的27个主题:科学、医疗保健、人文与社会科学以及工程学。与以往的基准相比,MMVU具有三大关键进步。首先,它要......
  • 【Milvus向量数据库】AI应用开发
    一、Milvus介绍上一小节中,全面介绍了向量和向量数据库,今天详细介绍下其中比较出名的开源数据库Milvus。希望对你有帮助Milvus是一个开源的、高性能的向量数据库,专为海量向量数据的快速检索而设计。在人工智能、计算机视觉、推荐系统和其他需要处理大规模向量数据的领域有着广......
  • 大腾智能CAD:基于云原生架构,融合AI技术的高效三维设计解决方案
    CAD(计算机辅助设计)技术自诞生以来,在工业设计中经历了从二维到三维、从单一功能到集成化、智能化的飞跃式发展。这一技术不仅极大地提高了设计效率,还使得设计精度和创新能力得到了前所未有的提升,已成为现代工业设计不可或缺的重要工具。随着“中国制造2025”等战略的实施,国产CA......
  • 深入解析 Spring AI 系列:解析请求参数处理
    大家在使用SpringAI项目开发Agent时,可能会发现,尽管外层的接口设计和调用逻辑比较统一,但实际上每个第三方接口在实现时都会有一些微妙的差异。这些差异可能体现在请求参数的构造、数据格式的处理,或者是某些接口特有的配置选项上。因此,今天我们主要聚焦于SpringAI在实际调用接口之......
  • 在使用prism的region跳转时,出现The region manager does not contain the MainViewReg
    在做新项目时,把原来的旧项目拷过来进行重构,上一个项目进行region填充是没有问题的,这次再次进行测试出现了这样的问题,于是在网上寻找答案。错误给出来的很明显,regionManager没有一个叫做MainViewRegionName的区域,想当然的就手动添加,进行刷新,这种方法参考Prism区域异常问题分析(......
  • 在Rust项目中,一般测试用例函数 #[(test)] 都写在哪里? 如果要测试 main.rs 文件中的函
    eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee在Rust项目中,测试用例通常放在以下两个位置:1.与源代码同文件中的模块测试用例函数一般写在与实现代码同一个文件中,放在一个名为tests的模块里,使用#[cfg(test)]注解。这种方式适用于对模块内的函数或逻辑进行单元测试。示......
  • 让万物「听说」:AI 对话式智能硬件方案和发展洞察
    本文整理自声网SDK新业务探索组技术负责人,IoT行业专家@吴方方1月18日在RTE开发者社区「VoiceAgent+硬件分享会」上的分享。本次主要介绍了AI对话式智能硬件的发展历程,新一波AI浪潮所带来的创新机遇、技术挑战以及未来的展望。 在语音交互浪潮的推动下,AIoT行业......
  • (一)一文读懂transformers库中常见组件PreTrainedModel,PretrainedConfig,AutoTokenizer
    文章目录一、训练管理大师:`Trainer`和`TrainingArguments``TrainingArguments`:训练的“魔法配方”`Trainer`:训练的“超级厨师”二、数据整理小能手:`DataCollatorWithPadding`三、因果语言模型的输出管家:`CausalLMOutputWithPast`四、模型加载与处理的智能助手:`AutoPro......