KVCache原理简述

时间：2023-09-21 12:57:28浏览次数：35

标签：盖地天王生成 KVCache 简述 KV GPT 原理提问

在GPT的推理过程中，它根据完整的提问和回答的已生成部分，来生测下一个词（的概率）。

例如，我们的提问是【天王盖地虎，】，回答是【宝塔镇河妖。】。

那么第一次，GPT根据【天王盖地虎，】生成【宝】，之后根据【天王盖地虎，宝】生成【塔】，以此类推，直到碰上终止符。

这里面提问【天王盖地虎，】的QKV实际上重复计算了很多遍。由于GPT是单向注意力，每层的提问的KV只根据上一层的提问的KV（或提问的嵌入向量）计算，不跟据回答中任何字符的KV计算，完全可以把它们缓存起来避免重复计算。

如下图所示：

在这里插入图片描述

改进之后，我们GPT根据【天王盖地虎，】生成【宝】，同时还有KV(天王盖地虎，)，然后根据KV(天王盖地虎，)和【宝】生成【塔】以及KV(天王盖地虎，宝)，以此类推。

至于为什么不缓存Q，因为推理场景下我们只取最后一个词，那么每层输出HS[-1]就可以了。HS[-1]根据全部的V和注意力矩阵的最后一行A[-1]计算，而A[-1]根据Q[-1]和全部的K计算，Q[-1]只根据输入最后一个字符X[-1]计算。

所以我们通过传入KVCache保证K和V是完整的，输入字符只传入最后一个，也就是上一次GPT生成出来的字符，就可以了。

标签：盖地,天王,生成,KVCache,简述,KV,GPT,原理,提问
From： https://www.cnblogs.com/apachecn/p/17719689.html

chkconfig原理
当给一个服务设置开机自启动时，就是在对应级别的脚本下面创建一个软链接，链接的名字S（启动）、K（关闭），数字是启动顺序，然后是服务名称，指向服务的位置；当更改某级别启动状态时，chkconfig会自动将相对应的目录下（各启动级别目录）的软连接删除重新创建；测试：[root@CentOS6~]#chkconfig--listsshd......
(笔记)机器人坐标系用法和算法原理
机器人坐标系一、基坐标系机器人都有一个不会变的坐标系，叫基坐标系或世界坐标系（每家叫法不同，原理一样）。基坐标系是怎么来的呢？拿6轴机器人举例：第一轴的旋转轴一般都会定义机器人第一轴的旋转轴为基坐标系Z轴，旋转中心即是坐标系原点，X和Y的方向是的电机零点......
2. MGI Pacbio ONT 测序原理
本人的生物只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.1.总览2.MGI测序原理 MGI属于华大智造的专利技术,同样是用于测序.在解决下面三个问题上使用了不同的方法.(1)如何区分不同碱基:这里可以看作一致,是相似的技术.(2)荧光微弱:滚环扩增,形成DNA纳米......
MySQL高级12-事务原理
一、事务概念事务是一组操作的集合，他是一个不可分割的工作单位，事务会把所有操作作为一个整体一起向系统提交或者撤销请求操作，即这些操作要么同时成功，要么同时失败。二、事务特性原子性（Atomicity）：事务是不可分割的最小操作单元，要么全部成功，要么全部失败一致性（Consistency）：事......
CAS实现SSO单点登录原理
1. CAS 简介1.1. WhatisCAS ？CAS （ CentralAuthenticationService ）是 Yale 大学发起的一个企业级的、开源的项目，旨在为 Web 应用系统提供一种可靠的单点登录解决方法（属于 WebSSO ）。CAS 开始于 2001 年，并在 2004 年 12 月正式成为 JA-SIG 的......
MySQL运行原理与基础架构
原始出处：http://harisxiong.blog.51cto.com/7513022/1351370 1.MySQL基础 MySQL是一个开放源代码的关系数据库管理系统。原开发者为瑞典的MySQLAB公司，最早是在2001年MySQL3.23进入到管理员的视野并在之后获得广泛的应用。 2008年MySQL公司被Sun公司收......
Tomcat原理详解和各种集群的实现
转载，原始出处：http://harisxiong.blog.51cto.com/7513022/1304746注意：本篇博文涉及的知识内容如下，实验中所用的系统环境为RHEL6.4。1.Java基础知识讲解2.Tomcat的安装和实现3.通过apache的mod_proxy模块代理并实现Tomcat负载均衡4.基于Tomcat集群的网上商城的实现-......
布隆过滤器原理及实现
大家好，我是蓝胖子，我一直相信编程是一门实践性的技术，其中算法也不例外，初学者可能往往对它可望而不可及，觉得很难，学了又忘，忘其实是由于没有真正搞懂算法的应用场景，所以我准备出一个系列，囊括我们在日常开发中常用的算法，并结合实际的应用场景，真正的感受算法的魅力。今天，我们就来学习......
TTS背后的技术原理——前端和后端系统
就解锁了一个温柔又风趣的「女朋友」萨曼萨。不过，在现实生活中，和语音助手谈恋爱还是一件十分遥远的事情——刨去现阶段的语音助手们双商水平还有限，语音助手的语言表达能力还远远达不到我们理想状态。为啥你的机器人女友说话不像萨曼萨？本文中，RokidA-Lab语音合成算......
逻辑漏洞挖掘之XSS漏洞原理分析及实战演练
一、前言2月份的1.2亿条用户地址信息泄露再次给各大公司敲响了警钟，数据安全的重要性愈加凸显，这也更加坚定了我们推行安全测试常态化的决心。随着测试组安全测试常态化的推进，有更多的同事对逻辑漏洞产生了兴趣，本系列文章旨在揭秘逻辑漏洞的范围、原理及预防措施，逐步提升大家的安全......

KVCache原理简述

相关文章

赞助商

阅读排行