首页 > 其他分享 >KVCache原理简述

KVCache原理简述

时间:2023-09-21 12:57:28浏览次数:32  
标签:盖地 天王 生成 KVCache 简述 KV GPT 原理 提问

在GPT的推理过程中,它根据完整的提问和回答的已生成部分,来生测下一个词(的概率)。

例如,我们的提问是【天王盖地虎,】,回答是【宝塔镇河妖。】。

那么第一次,GPT根据【天王盖地虎,】生成【宝】,之后根据【天王盖地虎,宝】生成【塔】,以此类推,直到碰上终止符。

这里面提问【天王盖地虎,】的QKV实际上重复计算了很多遍。由于GPT是单向注意力,每层的提问的KV只根据上一层的提问的KV(或提问的嵌入向量)计算,不跟据回答中任何字符的KV计算,完全可以把它们缓存起来避免重复计算。

如下图所示:

在这里插入图片描述

改进之后,我们GPT根据【天王盖地虎,】生成【宝】,同时还有KV(天王盖地虎,),然后根据KV(天王盖地虎,)和【宝】生成【塔】以及KV(天王盖地虎,宝),以此类推。

至于为什么不缓存Q,因为推理场景下我们只取最后一个词,那么每层输出HS[-1]就可以了。HS[-1]根据全部的V和注意力矩阵的最后一行A[-1]计算,而A[-1]根据Q[-1]和全部的K计算,Q[-1]只根据输入最后一个字符X[-1]计算。

所以我们通过传入KVCache保证K和V是完整的,输入字符只传入最后一个,也就是上一次GPT生成出来的字符,就可以了。

标签:盖地,天王,生成,KVCache,简述,KV,GPT,原理,提问
From: https://www.cnblogs.com/apachecn/p/17719689.html

相关文章

  • chkconfig原理
    当给一个服务设置开机自启动时,就是在对应级别的脚本下面创建一个软链接,链接的名字S(启动)、K(关闭),数字是启动顺序,然后是服务名称,指向服务的位置;当更改某级别启动状态时,chkconfig会自动将相对应的目录下(各启动级别目录)的软连接删除重新创建;测试:[root@CentOS6~]#chkconfig--listsshd......
  • (笔记)机器人坐标系用法和算法原理
     机器人坐标系 一、基坐标系机器人都有一个不会变的坐标系,叫基坐标系或世界坐标系(每家叫法不同,原理一样)。基坐标系是怎么来的呢? 拿6轴机器人举例: 第一轴的旋转轴 一般都会定义机器人第一轴的旋转轴为基坐标系Z轴,旋转中心即是坐标系原点,X和Y的方向是的电机零点......
  • 2. MGI Pacbio ONT 测序原理
    本人的生物只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.1.总览2.MGI测序原理  MGI属于华大智造的专利技术,同样是用于测序.在解决下面三个问题上使用了不同的方法.(1)如何区分不同碱基:这里可以看作一致,是相似的技术.(2)荧光微弱:滚环扩增,形成DNA纳米......
  • MySQL高级12-事务原理
    一、事务概念事务是一组操作的集合,他是一个不可分割的工作单位,事务会把所有操作作为一个整体一起向系统提交或者撤销请求操作,即这些操作要么同时成功,要么同时失败。二、事务特性原子性(Atomicity):事务是不可分割的最小操作单元,要么全部成功,要么全部失败一致性(Consistency):事......
  • CAS实现SSO单点登录原理
    1.      CAS 简介1.1.  WhatisCAS ?CAS ( CentralAuthenticationService )是 Yale 大学发起的一个企业级的、开源的项目,旨在为 Web 应用系统提供一种可靠的单点登录解决方法(属于 WebSSO )。CAS 开始于 2001 年,并在 2004 年 12 月正式成为 JA-SIG 的......
  • MySQL运行原理与基础架构
    原始出处:http://harisxiong.blog.51cto.com/7513022/1351370 1.MySQL基础       MySQL是一个开放源代码的关系数据库管理系统。原开发者为瑞典的MySQLAB公司,最早是在2001年MySQL3.23进入到管理员的视野并在之后获得广泛的应用。 2008年MySQL公司被Sun公司收......
  • Tomcat原理详解和各种集群的实现
    转载,原始出处 :http://harisxiong.blog.51cto.com/7513022/1304746注意:本篇博文涉及的知识内容如下,实验中所用的系统环境为RHEL6.4。1.Java基础知识讲解2.Tomcat的安装和实现3.通过apache的mod_proxy模块代理并实现Tomcat负载均衡4.基于Tomcat集群的网上商城的实现-......
  • 布隆过滤器原理及实现
    大家好,我是蓝胖子,我一直相信编程是一门实践性的技术,其中算法也不例外,初学者可能往往对它可望而不可及,觉得很难,学了又忘,忘其实是由于没有真正搞懂算法的应用场景,所以我准备出一个系列,囊括我们在日常开发中常用的算法,并结合实际的应用场景,真正的感受算法的魅力。今天,我们就来学习......
  • TTS背后的技术原理——前端和后端系统
      就解锁了一个温柔又风趣的「女朋友」萨曼萨。不过,在现实生活中,和语音助手谈恋爱还是一件十分遥远的事情——刨去现阶段的语音助手们双商水平还有限,语音助手的语言表达能力还远远达不到我们理想状态。为啥你的机器人女友说话不像萨曼萨?本文中,RokidA-Lab语音合成算......
  • 逻辑漏洞挖掘之XSS漏洞原理分析及实战演练
    一、前言2月份的1.2亿条用户地址信息泄露再次给各大公司敲响了警钟,数据安全的重要性愈加凸显,这也更加坚定了我们推行安全测试常态化的决心。随着测试组安全测试常态化的推进,有更多的同事对逻辑漏洞产生了兴趣,本系列文章旨在揭秘逻辑漏洞的范围、原理及预防措施,逐步提升大家的安全......