Block Transformer：通过全局到局部的语言建模加速LLM推理

时间：2024-06-08 10:10:46浏览次数：12

在基于transformer的自回归语言模型（LMs）中，生成令牌的成本很高，这是因为自注意力机制需要关注所有之前的令牌，通常通过在自回归解码过程中缓存所有令牌的键值（KV）状态来解决这个问题。但是，加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。

在这篇论文中，作者提出了Block Transformer架构，该架构通过在较低层次之间的粗糙块（每个块代表多个令牌）的自注意力来模拟全局依赖性，并在较高层次的每个局部块内解码细粒度的令牌，如下图所示。

论文的主要贡献包括：

发现了在自回归变换器中，全局和局部建模在推理时的核心作用和好处，特别是局部模块的重要性。
利用这些见解可以优化架构中的推理吞吐量，与普通transformers相比，显著提高了性能与吞吐量

https://avoid.overfit.cn/post/6867c4c1e9f24d3fb5fef2cd2ecfd989

标签：令牌,局部,Transformer,LLM,全局,推理,Block
From： https://www.cnblogs.com/deephub/p/18238352

Pyramid Vision Transformer, PVT（ICCV 2021）原理与代码解读
paper：PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutionsofficialimplementation：GitHub-whai362/PVT:OfficialimplementationofPVTseries存在的问题现有的VisionTransformer(ViT)主要设计用于图像分类任务，难以直接用......
Transformer动画讲解：注意力计算Q、K、V
暑期实习基本结束了，校招即将开启。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC在变少，岗位要求还更高了。提前准备才是完全之策。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。总结链接如下：《大模......
spark存储体系——blockInfo管理(锁)
●BlockInfoManager：管理block的元数据，同时也提供了block加锁的功能。BlockInfo记录block信息的类。level：记录block的存储方式tellMaster：是否向master汇报size：block大小readerCount：记录当前有多少个同时读block的任务，一个block可以有多个任务同时读取。writerTask：记......
用 Sentence Transformers v3 训练和微调嵌入模型
SentenceTransformers是一个Python库，用于使用和训练各种应用的嵌入模型，例如检索增强生成(RAG)、语义搜索、语义文本相似度、释义挖掘(paraphrasemining)等等。其3.0版本的更新是该工程自创建以来最大的一次，引入了一种新的训练方法。在这篇博客中，我将向你展示如何使用它......
TextBox非编辑状态变成TextBlock
<Stylex:Key="tbStyle"TargetType="TextBox"><SetterProperty="Template"><Setter.Value><ControlTemplateTa......
每日AIGC最新进展(21)：清华大学提出从人体运动和视频中理解人类行为MotionLLM、武汉大
DiffusionModels专栏文章汇总：入门与实战MotionLLM:UnderstandingHumanBehaviorsfromHumanMotionsandVideos本研究提出了一种名为MotionLLM的新型框架，旨在通过结合视频和运动序列（如SMPL序列）的多模态数据，利用大型语言模型（LLMs）的能力来理解人类行为。与以往只针对视......
使用 vllm 本地部署 Qwen2-7B-Instruct
使用vllm本地部署Qwen2-7B-Instruct0.引言1.安装vllm2.本地部署Qwen2-7B-Instruct3.使用Qwen2-7B-Instruct0.引言此文章主要介绍使用使用vllm本地部署Qwen2-7B-Instruct。1.安装vllm创建虚拟环境，condacreate-nmyvllmpython=3.11-ycondaac......
LLM大语言模型算法特训，带你转型AI大语言模型算法工程师
LLM大语言模型算法特训，带你转型AI大语言模型算法工程师 LLM（大语言模型）是指大型的语言模型，如GPT（GenerativePre-trainedTransformer）系列模型。以下是《LLM大语言模型算法特训，带你转型AI大语言模型算法工程师》课程可能包含的内容：1.深入理解大语言模型：课程可能会介绍大......
Meta最新路径搜索算法 Beyond A*: Better Planning with Transformers via Search Dyn
这篇论文前两个月刚刚放出，研究了如何让人工智能(AI)更好地解决复杂的规划问题,比如在迷宫中寻找最短路径,或者推箱子游戏(Sokoban)中把箱子全部推到指定位置。传统上,这类问题通常使用专门的规划算法来解决,比如A*搜索算法。但是,训练AI模型(如Transformer)来解决这些问题......
一键云部署：资源编排 ROS 轻松部署 LLM 流程编排服务 Flowise
Flowise是一个开源的低代码工具，供开发者构建定制化的LLM流程编排和AI代理。资源编排服务（ResourceOrchestrationService,ROS）是阿里云提供基于基础设施即代码（InfrastructureasCode,IaC）理念的自动化部署服务，我们可以通过定义一个JSON/YAML/Terraform模板，轻松部署一套......

Block Transformer：通过全局到局部的语言建模加速LLM推理

相关文章

赞助商

阅读排行