SUPRA：无须额外训练，将Transformer变为高效RNN，推理速度倍增

时间：2024-05-27 11:44:42浏览次数：29

标签：Transformer Transformers RNN 训练 SUPRA 推理

Transformers 已经确立了自己作为首要模型架构的地位，特别是因为它们在各种任务中的出色表现。但是Transformers 的内存密集型性质和随着词元数量的指数扩展推理成本带来了重大挑战。为了解决这些问题，论文“Linearizing Large Language Models”引入了一种创新的方法，称为UPtraining for Recurrent Attention (SUPRA)。该方法利用预训练的Transformers 并将其转换为递归神经网络，在保持预训练的好处的同时实现有效的推理。

SUPRA方法旨在将预训练的大型语言模型（LLMs）转化为RNNs，具体步骤包括替换softmax归一化为GroupNorm，使用一个小型MLP投影queries和keys。这种方法不仅降低了训练成本（仅为原来的5%），还利用了现有预训练模型的强大性能和数据。

Transformers 面临着与序列长度线性增长的高推理成本。相比之下，rnn提供固定成本推理，因为它们能够保持恒定大小的隐藏状态，这使得它们对于需要高效和可扩展推理的任务具有吸引力。

https://avoid.overfit.cn/post/40da3737629348ff9d151d5774554d93

标签：Transformer,Transformers,RNN,训练,SUPRA,推理
From： https://www.cnblogs.com/deephub/p/18215185

UVA11922 Permutation Transformer 题解
题目传送门前置知识无旋treap解法与luoguP3391【模板】文艺平衡树不同的是本题翻转后需要放到整个序列的末尾。由于需要翻转后放到末尾，故无旋Treap在维护文艺平衡树的过程中合并时跳着合并即可。代码#include<bits/stdc++.h>usingnamespacestd;#definelllong......
论文笔记：Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion
论文链接：[2405.04312]Inf-DiT:UpsamplingAny-ResolutionImagewithMemory-EfficientDiffusionTransformer(arxiv.org)论文代码：THUDM/Inf-DiT:OfficialimplementationofInf-DiT:UpsamplingAny-ResolutionImagewithMemory-EfficientDiffusionTransformer(gi......
Keras深度学习框架第二十五讲：使用KerasNLP预训练Transformer模型
1、KerasNPL预训练Transformer模型概念使用KerasNLP来预训练一个Transformer模型涉及多个步骤。由于Keras本身并不直接提供NLP的预训练模型或工具集，我们通常需要结合像TensorFlowHub、HuggingFace的Transformers库或自定义的Keras层来实现。以下是一个简化的步骤概述，用......
大模型最新黑书：大模型应用解决方案：基于GPT-3、ChatGPT、GPT-4等Transformer架构的自
今天给大家推荐一本丹尼斯·罗斯曼(DenisRothman)编写的关于大语言模型（LLM）权威教程<<大模型应用解决方案>基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理>！Google工程总监AntonioGulli作序，这含金量不用多说，在这里给大家强烈推荐一下这本黑书，下面直接开始介绍！......
Transformer产生的背景
在Transformer最初被提出时，主要是为了解决传统神经机器翻译模型中存在的下面三个问题：1、长距离依赖问题（Long-rangedependency）举个例子，在英文到中文的翻译中，句子中的主语和谓语动词可能之间相隔较远，但是需要正确地识别和翻译。比如：“ThecatthatIsawyesterdayatthepar......
5.14.6 TransMed：Transformer推进多模态医学图像分类
卷积神经网络（CNN）在医学图像分析任务中表现出了非常有竞争力的性能，例如疾病分类、肿瘤分割和病灶检测。CNN在提取图像局部特征方面具有很大的优势。然而，由于卷积运算的局部性，它不能很好地处理长程关系。多模态医学图像具有明确且重要的长程依赖性，有效的多模态融合策略可以极大......
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection an
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023. Abstract在本文中，我们提出了一个统一的对象检测和分割框架MaskDINO。MaskDINO通过添加一个支持所有图像分割任务（例如......
传统RNN网络及其案例--人名分类
传统RNN网络及其案例--人名分类传统的RNN模型简介RNN先上图这图看起来莫名其妙，想拿着跟CNN对比着学第一眼看上去有点摸不着头脑，其实我们可以把每一个时刻的图展开来，如下其中，为了简化计算，我们默认每一个隐层参数相同，这样看来RNN的结构就比较简单了，相比较CNN来说，RNN引入了更......
Restormer Efficient Transformer for High-Resolution Image Restoration——2022CVP
大佬链接：Restormer:EfficientTransformerforHigh-ResolutionImageRestoration-知乎(zhihu.com)一.Motivation1.CNN感受野有限，因此无法对长距离像素相关性进行建模；卷积滤波器在推理时具有静态权重，因此不能灵活地适应输入内容2.Transformer模型缓解了CNN的缺点（有限的感......
Transformers 加速的一些常用技巧
前言本文介绍了一些Transformers常用的加速策略。本文转载自DeephubImba仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、di......

SUPRA：无须额外训练，将Transformer变为高效RNN，推理速度倍增

相关文章

赞助商

阅读排行