Transformer

时间：2023-10-15 20:45:57浏览次数：38

标签：输出 Transformer self attention 向量 decoder 输入

自注意力机制（self-attention）

一堆向量 a set of vector : 词语、图（每个节点可以看作一个向量）

一对一：Sequence Labeling
self-attention会吃一整个sequence的咨询

全连接是定长的，attention是不定长的

α计算关联性（自己也得和自己计算关联性）

过程：
b1 b2 b3 b4 是一致同时计算出来的，并不是按顺序
q和k作dot-product得到α，再进行激活得到α'，之后与v相乘，最后进行累加得到b

矩阵乘法上的运作：
每一个a分别产生q，k，v（query，key，value）

自注意力机制：少了位置信息

multi-head self-attention

应用：NLP，Speech，Image

Self-attention VS CNN

CNN:可以看作是一种简化版的self-attention
Self-attention是一种复杂化的CNN

Self-attention VS RNN

RNN无法平行化

Transformer

输入：输出 m:n
应用：语言辨识，机器翻译，语音翻译

seq2seq moudle

encoder：给一排向量输出另外一排向量

做两次layernorm
Add & Norm = Residual+Layer norm
第一次：residual = a（self-attention处理之后的输出）+b（self-attention处理之前的输入）
第二次：residual = a（self-attention处理之后的输出/FC处理之前的输入）+c（FC处理之后的输出）
重复n次

seq2seq

decoder

decoder看到的输入是自己前一个时间的输出，会把自己的输出当作接下来的输入

传递过程中出现误差该怎么办？

masked self-attention（不考虑右边的信息）

self-attention

为什么masked遮掩？
decoder输出的信息是一个一个产生的，他只能考虑自己左边的信息，没有办法考虑右边的信息

我们并不知道正确的输出长度
从begin开始到end结束

中间的信息
两个输入来自encoder，还有一个来自decoder的输出
cross attention过程

训练 training

每次decoder产生一个信息类似做过一次分类问题
minimize cross entropy

标签：输出,Transformer,self,attention,向量,decoder,输入
From： https://www.cnblogs.com/cj037419/p/17764700.html

2023ICCV_Retinexformer: One-stage Retinex-based Transformer for Low-light Image
一.Motivation(1)Retinex理论没有考虑到噪声，并且基于Retinex分解的网络通常需要很多阶段训练。(2)直接使用从CNN从低光图像到正常光图像的映射忽略了人类的颜色感知，CNN更适合捕获局部信息，对于捕获远程依赖和非局部自相似性方面存在局限。二.Contribution(1)设计了一个阶段......
Transformer
importmathimporttorchfromtorchimportnnimportmatplotlib.pyplotaspltfromd2limporttorchasd2ldefsequence_mask(X,valid_len,value=0):"""在序列中屏蔽不相关的项"""max_len=X.size(1)mask=torch.arange((max......
Personalized Transformer for Explainable Recommendation论文阅读笔记
PersonalizedTransformerforExplainableRecommendation论文阅读笔记摘要自然语言生成的个性化在大量任务中都起着至关重要的作用。比如可解释的推荐，评审总结和对话系统等。在这些任务中，用户和项目ID是个性化的重要标识符。虽然Transfomer拥有强大的语言建模能力，但是没有......
ICCV 2023 ｜当尺度感知调制遇上Transformer，会碰撞出怎样的火花？
作者｜AFzzz1文章介绍近年来，基于Transformer和CNN的视觉基础模型取得巨大成功。有许多研究进一步地将Transformer结构与CNN架构结合，设计出了更为高效的hybridCNN-TransformerNetwork，但它们的精度仍然不尽如意。本文介绍了一种新的基础模型SMT（Scale-AwareModulationTransformer......
transformer模型训练、推理过程分析
复杂度分析推理过程图示DoubleQLORA示意图......
from_rnn_2_transformer-cnblog
从RNN到Transformer各式各样的“attention”不管是在CV领域还是NLP领域，attention实质上就是一种取权重求和的过程。使得网络focus在其应该focus的地方。根据Attention的计算区域，可以分成以下几种：1）SoftAttention，这是比较常见的Attention方式，对所有key求权重概率，每个key都有一......
【NIPS2021】Twins: Revisiting the Design of Spatial Attention in Vision Transfor
来自美团技术团队♪（＾∀＾●）ﾉｼ论文地址：https://arxiv.org/abs/2104.13840代码地址：https://git.io/Twins一、写在前面本文提出了两种视觉转换器架构，即Twins-PCPVT和Twins-SVT。Twins-PCPVT将金字塔Transformer模型PVT [2] 中的固定位置编码（PositionalEncoding）更改为团队......
听我说，Transformer它就是个支持向量机
Transformer是一个支持向量机（SVM）一种新型理论在学界引发了人们的讨论。上周末，一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础Transformer结构的原理，其在注意力层的优化几何与将最优输入token与非最优token分开的硬边界SVM问题之间建立了形式等价。在......
矩阵成真！Pytorch最新工具mm，3D可视化矩阵乘法、Transformer注意力
前言 Pytorch团队推出的最新3D可视化最新工具mm，能够将矩阵乘法模拟世界还原。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【C......
手动实现Transformer
Transformer和BERT可谓是LLM的基础模型，彻底搞懂极其必要。Transformer最初设想是作为文本翻译模型使用的，而BERT模型构建使用了Transformer的部分组件，如果理解了Transformer，则能很轻松地理解BERT。一.Transformer模型架构1.编码器（1）Multi-HeadAttention（多头注意力机制） ......

Transformer

自注意力机制（self-attention）

Self-attention VS CNN

Self-attention VS RNN

Transformer

encoder：给一排向量输出另外一排向量

decoder

训练 training

相关文章

赞助商

阅读排行