首页 > 其他分享 >Transformer

Transformer

时间:2023-10-15 20:45:57浏览次数:38  
标签:输出 Transformer self attention 向量 decoder 输入

自注意力机制(self-attention)

一堆向量 a set of vector : 词语、图(每个节点可以看作一个向量)
image

一对一:Sequence Labeling
self-attention会吃一整个sequence的咨询
image
image

全连接是定长的,attention是不定长的
image
α计算关联性(自己也得和自己计算关联性)
image
过程:
b1 b2 b3 b4 是一致同时计算出来的,并不是按顺序
q和k作dot-product得到α,再进行激活得到α',之后与v相乘,最后进行累加得到b
image

矩阵乘法上的运作:
每一个a分别产生q,k,v(query,key,value)
image
image
image
image

自注意力机制:少了位置信息

multi-head self-attention

应用:NLP,Speech,Image

Self-attention VS CNN

CNN:可以看作是一种简化版的self-attention
Self-attention是一种复杂化的CNN
image

Self-attention VS RNN

image
RNN无法平行化


Transformer

输入:输出 m:n
应用:语言辨识,机器翻译,语音翻译

seq2seq moudle
image

encoder:给一排向量输出另外一排向量

image
image

image

做两次layernorm
Add & Norm = Residual+Layer norm
第一次:residual = a(self-attention处理之后的输出)+b(self-attention处理之前的输入)
第二次:residual = a(self-attention处理之后的输出/FC处理之前的输入)+c(FC处理之后的输出)
重复n次

image
seq2seq

decoder

decoder看到的输入是自己前一个时间的输出,会把自己的输出当作接下来的输入
image

传递过程中出现误差该怎么办?

image

masked self-attention(不考虑右边的信息)
image
self-attention
image

为什么masked遮掩?
decoder输出的信息是一个一个产生的,他只能考虑自己左边的信息,没有办法考虑右边的信息

我们并不知道正确的输出长度
从begin开始到end结束
image
中间的信息
两个输入来自encoder,还有一个来自decoder的输出
cross attention过程
image

训练 training

每次decoder产生一个信息类似做过一次分类问题
minimize cross entropy

标签:输出,Transformer,self,attention,向量,decoder,输入
From: https://www.cnblogs.com/cj037419/p/17764700.html

相关文章

  • 2023ICCV_Retinexformer: One-stage Retinex-based Transformer for Low-light Image
    一.Motivation(1)Retinex理论没有考虑到噪声,并且基于Retinex分解的网络通常需要很多阶段训练。(2)直接使用从CNN从低光图像到正常光图像的映射忽略了人类的颜色感知,CNN更适合捕获局部信息,对于捕获远程依赖和非局部自相似性方面存在局限。二.Contribution(1)设计了一个阶段......
  • Transformer
    importmathimporttorchfromtorchimportnnimportmatplotlib.pyplotaspltfromd2limporttorchasd2ldefsequence_mask(X,valid_len,value=0):"""在序列中屏蔽不相关的项"""max_len=X.size(1)mask=torch.arange((max......
  • Personalized Transformer for Explainable Recommendation论文阅读笔记
    PersonalizedTransformerforExplainableRecommendation论文阅读笔记摘要​ 自然语言生成的个性化在大量任务中都起着至关重要的作用。比如可解释的推荐,评审总结和对话系统等。在这些任务中,用户和项目ID是个性化的重要标识符。虽然Transfomer拥有强大的语言建模能力,但是没有......
  • ICCV 2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花?
    作者|AFzzz1文章介绍近年来,基于Transformer和CNN的视觉基础模型取得巨大成功。有许多研究进一步地将Transformer结构与CNN架构结合,设计出了更为高效的hybridCNN-TransformerNetwork,但它们的精度仍然不尽如意。本文介绍了一种新的基础模型SMT(Scale-AwareModulationTransformer......
  • transformer模型训练、推理过程分析
    复杂度分析推理过程图示DoubleQLORA示意图......
  • from_rnn_2_transformer-cnblog
    从RNN到Transformer各式各样的“attention”不管是在CV领域还是NLP领域,attention实质上就是一种取权重求和的过程。使得网络focus在其应该focus的地方。根据Attention的计算区域,可以分成以下几种:1)SoftAttention,这是比较常见的Attention方式,对所有key求权重概率,每个key都有一......
  • 【NIPS2021】Twins: Revisiting the Design of Spatial Attention in Vision Transfor
    来自美团技术团队♪(^∀^●)ノシ论文地址:https://arxiv.org/abs/2104.13840代码地址:https://git.io/Twins一、写在前面 本文提出了两种视觉转换器架构,即Twins-PCPVT和Twins-SVT。Twins-PCPVT将金字塔Transformer模型PVT [2] 中的固定位置编码(PositionalEncoding)更改为团队......
  • 听我说,Transformer它就是个支持向量机
    Transformer是一个支持向量机(SVM)一种新型理论在学界引发了人们的讨论。上周末,一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础Transformer结构的原理,其在注意力层的优化几何与将最优输入token与非最优token分开的硬边界SVM问题之间建立了形式等价。在......
  • 矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力
    前言 Pytorch团队推出的最新3D可视化最新工具mm,能够将矩阵乘法模拟世界还原。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【C......
  • 手动实现Transformer
      Transformer和BERT可谓是LLM的基础模型,彻底搞懂极其必要。Transformer最初设想是作为文本翻译模型使用的,而BERT模型构建使用了Transformer的部分组件,如果理解了Transformer,则能很轻松地理解BERT。一.Transformer模型架构1.编码器(1)Multi-HeadAttention(多头注意力机制)  ......