首页 > 其他分享 >Block Transformer:通过全局到局部的语言建模加速LLM推理

Block Transformer:通过全局到局部的语言建模加速LLM推理

时间:2024-06-08 10:10:46浏览次数:12  
标签:令牌 局部 Transformer LLM 全局 推理 Block

在基于transformer的自回归语言模型(LMs)中,生成令牌的成本很高,这是因为自注意力机制需要关注所有之前的令牌,通常通过在自回归解码过程中缓存所有令牌的键值(KV)状态来解决这个问题。但是,加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。

在这篇论文中,作者提出了Block Transformer架构,该架构通过在较低层次之间的粗糙块(每个块代表多个令牌)的自注意力来模拟全局依赖性,并在较高层次的每个局部块内解码细粒度的令牌,如下图所示。

论文的主要贡献包括:

  • 发现了在自回归变换器中,全局和局部建模在推理时的核心作用和好处,特别是局部模块的重要性。
  • 利用这些见解可以优化架构中的推理吞吐量,与普通transformers相比,显著提高了性能与吞吐量

https://avoid.overfit.cn/post/6867c4c1e9f24d3fb5fef2cd2ecfd989

标签:令牌,局部,Transformer,LLM,全局,推理,Block
From: https://www.cnblogs.com/deephub/p/18238352

相关文章

  • Pyramid Vision Transformer, PVT(ICCV 2021)原理与代码解读
    paper:PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutionsofficialimplementation:GitHub-whai362/PVT:OfficialimplementationofPVTseries存在的问题现有的VisionTransformer(ViT)主要设计用于图像分类任务,难以直接用......
  • Transformer动画讲解:注意力计算Q、K、V
    暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC在变少,岗位要求还更高了。提前准备才是完全之策。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。总结链接如下:《大模......
  • spark存储体系——blockInfo管理(锁)
    ●BlockInfoManager:管理block的元数据,同时也提供了block加锁的功能。BlockInfo记录block信息的类。level:记录block的存储方式tellMaster:是否向master汇报size:block大小readerCount:记录当前有多少个同时读block的任务,一个block可以有多个任务同时读取。writerTask:记......
  • 用 Sentence Transformers v3 训练和微调嵌入模型
    SentenceTransformers是一个Python库,用于使用和训练各种应用的嵌入模型,例如检索增强生成(RAG)、语义搜索、语义文本相似度、释义挖掘(paraphrasemining)等等。其3.0版本的更新是该工程自创建以来最大的一次,引入了一种新的训练方法。在这篇博客中,我将向你展示如何使用它......
  • TextBox非编辑状态变成TextBlock
    <Stylex:Key="tbStyle"TargetType="TextBox"><SetterProperty="Template"><Setter.Value><ControlTemplateTa......
  • 每日AIGC最新进展(21):清华大学提出从人体运动和视频中理解人类行为MotionLLM、武汉大
    DiffusionModels专栏文章汇总:入门与实战MotionLLM:UnderstandingHumanBehaviorsfromHumanMotionsandVideos本研究提出了一种名为MotionLLM的新型框架,旨在通过结合视频和运动序列(如SMPL序列)的多模态数据,利用大型语言模型(LLMs)的能力来理解人类行为。与以往只针对视......
  • 使用 vllm 本地部署 Qwen2-7B-Instruct
    使用vllm本地部署Qwen2-7B-Instruct0.引言1.安装vllm2.本地部署Qwen2-7B-Instruct3.使用Qwen2-7B-Instruct0.引言此文章主要介绍使用使用vllm本地部署Qwen2-7B-Instruct。1.安装vllm创建虚拟环境,condacreate-nmyvllmpython=3.11-ycondaac......
  • LLM大语言模型算法特训,带你转型AI大语言模型算法工程师
    LLM大语言模型算法特训,带你转型AI大语言模型算法工程师 LLM(大语言模型)是指大型的语言模型,如GPT(GenerativePre-trainedTransformer)系列模型。以下是《LLM大语言模型算法特训,带你转型AI大语言模型算法工程师》课程可能包含的内容:1.深入理解大语言模型:课程可能会介绍大......
  • Meta最新路径搜索算法 Beyond A*: Better Planning with Transformers via Search Dyn
    这篇论文前两个月刚刚放出,研究了如何让人工智能(AI)更好地解决复杂的规划问题,比如在迷宫中寻找最短路径,或者推箱子游戏(Sokoban)中把箱子全部推到指定位置。传统上,这类问题通常使用专门的规划算法来解决,比如A*搜索算法。但是,训练AI模型(如Transformer)来解决这些问题......
  • 一键云部署:资源编排 ROS 轻松部署 LLM 流程编排服务 Flowise
    Flowise是一个开源的低代码工具,供开发者构建定制化的LLM流程编排和AI代理。资源编排服务(ResourceOrchestrationService,ROS)是阿里云提供基于基础设施即代码(InfrastructureasCode,IaC)理念的自动化部署服务,我们可以通过定义一个JSON/YAML/Terraform模板,轻松部署一套......