首页 > 其他分享 >Transformer理解

Transformer理解

时间:2022-10-18 21:22:33浏览次数:56  
标签:Transformer 投影 token shape 理解 dv QKV dq

目录

1、QKV作用?

1、QKV都是输入经过线性投影获得,假设句子为"good morning,sir",句子有4个token; 通过这4个token线性投影获得的QKV的embeding长度都是4,维度可能不一样,即Q.shape=(4, dq), K.shape=(4,dk), V.shape=(4,dv); QKV这3个embeding的4个token均包含原句子中单词的意义。
2、K和Q的点乘为Q对K中不同的token的注意力得分,然后根据不同的注意力得分乘以每个token的value值,就获得的最终的值; 而正式第一步中Q和K和V是通过不同的线性投影,获得不同空间上的投影,从而增强了表达能力和泛化性。

2、QKV的矩阵形状问题

Q和K的维度相等,dq=dk,因为需要点乘; 假设Q.shape=(N,dq), K.shape=(token_len, dq), V.shape=(token_len,dv);
Q和K点积获得的attention score形状为(N, token_len), QKV值形状为(N,dv)

标签:Transformer,投影,token,shape,理解,dv,QKV,dq
From: https://www.cnblogs.com/pyclq/p/16804240.html

相关文章

  • ICCV2021何恺明团队又一神作:Transformer仍有继续改善的空间
    计算机视觉研究院专栏作者:Edison_G一个简单、渐进、但必须知道的基线:用于VisionTransformer的自监督学习。尽管标准卷积网络的训练方法已经非常成熟且鲁棒,然而ViT的训练方......
  • 注意力机制【6】-transformer 和 Positional Encoding
    transformer是最新的处理序列到序列问题的架构,单纯由self-attention组成,其优良的可并行性以及可观的表现提升,让它在NLP领域大受欢迎,并引入到cv领域。transformervs......
  • [答疑]以学生群体为研究组织,可不可以理解为学生为自己的前途学习
    jpms2018-10-2819:05老师,存不存在无法描述业务用例的情况,例如以学生群体为研究组织,可不可以理解为学生为自己的前途学习呢?潘加宇:所有的个体和组织行为,根本的驱动力都是为......
  • 面经:什么是Transformer位置编码?
     Datawhale干货 作者:陈安东,中央民族大学,Datawhale成员过去的几年里,Transformer大放异彩,在各个领域疯狂上分。它究竟是做什么,面试常考的Transformer位置编码暗藏什么玄机?本......
  • 关于Spring的核心AOP和IOC理解
    spring概念轻量级的开源的J2EE框架。它是一个容器框架,用来装javabean(java对象),中间层框架(万能胶)可以起一个连接作用,比如说把Struts和hibernate粘合在一起运用,可以让我们的企......
  • 对软件工程的理解
    软件工程是一门研究用工程化方法构建和维护有效的、实用的和高质量的软件的学科。它涉及程序设计语言、数据库、软件开发工具、系统平台、标准、设计件有电子邮件、嵌入式......
  • 深入理解python面向对象编程(python基础语法004)
    ......
  • 【753】Transformer模型
    参考:李宏毅-Transformer【动画细致,有助于理解Self-Attention】参考:TheIllustratedTransformer【详细到一些参数,动画也很好】参考:Transformer论文逐段精读【论文精读】......
  • Yarn原理解析
    Yarn介绍一,介绍yarn是一种通用的资源管理系统和调度平台。资源管理系统:管理集群内的硬件资源,和程序运行相关,比如内存,CPU等。调度平台:多个程序同时申请计算资源时提供......
  • 【自然语言处理(NLP)】基于Transformer的英文自动文摘
    【自然语言处理(NLP)】基于Transformer的英文自动文摘作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产......