1、QKV作用？

1、QKV都是输入经过线性投影获得，假设句子为"good morning，sir",句子有4个token；通过这4个token线性投影获得的QKV的embeding长度都是4，维度可能不一样，即Q.shape=(4, dq), K.shape=(4,dk), V.shape=(4,dv); QKV这3个embeding的4个token均包含原句子中单词的意义。
2、K和Q的点乘为Q对K中不同的token的注意力得分，然后根据不同的注意力得分乘以每个token的value值，就获得的最终的值；而正式第一步中Q和K和V是通过不同的线性投影，获得不同空间上的投影，从而增强了表达能力和泛化性。

2、QKV的矩阵形状问题

Q和K的维度相等，dq=dk,因为需要点乘；假设Q.shape=(N,dq), K.shape=(token_len, dq), V.shape=(token_len,dv);
Q和K点积获得的attention score形状为(N, token_len), QKV值形状为(N,dv)

标签：Transformer,投影,token,shape,理解,dv,QKV,dq
From： https://www.cnblogs.com/pyclq/p/16804240.html

ICCV2021何恺明团队又一神作：Transformer仍有继续改善的空间
计算机视觉研究院专栏作者：Edison_G一个简单、渐进、但必须知道的基线：用于VisionTransformer的自监督学习。尽管标准卷积网络的训练方法已经非常成熟且鲁棒，然而ViT的训练方......
注意力机制【6】-transformer 和 Positional Encoding
transformer是最新的处理序列到序列问题的架构，单纯由self-attention组成，其优良的可并行性以及可观的表现提升，让它在NLP领域大受欢迎，并引入到cv领域。transformervs......
[答疑]以学生群体为研究组织，可不可以理解为学生为自己的前途学习
jpms2018-10-2819:05老师，存不存在无法描述业务用例的情况，例如以学生群体为研究组织，可不可以理解为学生为自己的前途学习呢？潘加宇：所有的个体和组织行为，根本的驱动力都是为......
面经：什么是Transformer位置编码？
Datawhale干货作者：陈安东，中央民族大学，Datawhale成员过去的几年里，Transformer大放异彩，在各个领域疯狂上分。它究竟是做什么，面试常考的Transformer位置编码暗藏什么玄机？本......
关于Spring的核心AOP和IOC理解
spring概念轻量级的开源的J2EE框架。它是一个容器框架，用来装javabean（java对象），中间层框架（万能胶）可以起一个连接作用，比如说把Struts和hibernate粘合在一起运用，可以让我们的企......
对软件工程的理解
软件工程是一门研究用工程化方法构建和维护有效的、实用的和高质量的软件的学科。它涉及程序设计语言、数据库、软件开发工具、系统平台、标准、设计件有电子邮件、嵌入式......
深入理解python面向对象编程（python基础语法004）
......
【753】Transformer模型
参考：李宏毅-Transformer【动画细致，有助于理解Self-Attention】参考：TheIllustratedTransformer【详细到一些参数，动画也很好】参考：Transformer论文逐段精读【论文精读】......
Yarn原理解析
Yarn介绍一，介绍yarn是一种通用的资源管理系统和调度平台。资源管理系统：管理集群内的硬件资源，和程序运行相关，比如内存，CPU等。调度平台：多个程序同时申请计算资源时提供......
【自然语言处理（NLP）】基于Transformer的英文自动文摘
【自然语言处理（NLP）】基于Transformer的英文自动文摘作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产......

Transformer理解

1、QKV作用？

2、QKV的矩阵形状问题

相关文章

赞助商

阅读排行