从attention到transformer

时间：2023-02-02 23:11:40浏览次数：60

标签：编码 transformer 位置 attention encoder decoder

从attention到transformer

总体看transformer

首先说明的是NLP中一类做向量集到向量集任务的模型统称为 seq2seq

transformer的结构分为encoder 和 decoder：

encoder通过encoder模块多层累加，提取输入特征；

decoder通过已生成词汇和encoder信息，完成文本生成任务。

大体的框架如下图所示：

transformer的大概框架

encoder

encoder层结果

encoder的构成是多层的，每层的结构如上图所示，包括自注意力机制层，残差连接和归一化层，以及FNN前馈神经网络。

1) positional encoding

位置编码是为了弥补attention无法考虑句子中所潜在的词语时序而创造的。

编码形式有多种，在最原版的transformer里，使用的是如下的公式（了解）：
原版的位置编码公式

其中，pos是词的位置，i是该编码的维度，dmodel是总维度。

这个公式可以考虑到不同位置词语的关系，所以可以包含词的相对位置信息，通过以下的公式变换可以理解：
三角函数展开公式

比如：对于在第五位的词，5=2+3 or 5 = 1+4，根据上面的sin变换公式，位置5可以拆分为位置2和3的位置编码，所以这种编码形式可以包含（相对）位置信息。

2）add + Norm

残差连接是为了防止梯度消失

Norm则是防止梯度爆炸。

3）前馈神经网络FNN

对于encoder层，前面做的是都是线性变换，这里FNN为这些线性变换加上一个激活函数，这样我们可以得到非线性的变化，从而获取更好的信息提取效果。

decoder

在李宏毅老师的课上，有说明过，有两类decoder 1）autoregression 2）非自回归；

前者生成词是一个一个的，而后者可以并行；但是前者的performance更好。

主要先学习自回归的decoder：

自回归decoder的transformer

1) 结构区别：交叉验证层

可以看到decoder的输入是不仅是encoder的结果

其基本模块与encoder的区别就是加入了交叉注意力机制也就是（encoder-decoder attention层）

前面说过交叉注意力机制，即Q是encoder 的输出，KV来自decoder自身。

2）结构区别：输入和masked attention

decoder的输出文本是在前面的词产生以后的基础上接着生成文本的。

其需要两个特殊的词向量来代表开始和结束，begin 和 end 的token

大致流程可以看下图（李宏毅课程的ppt）：

以文本预测为例的transformer实现过程

而正是由于考虑到了实际上生成文本的自然的这种先后顺序，我们需要做masked attention，即在生成“器”这个单词的时候，“学”不应该被考虑到。

（???可能是并行效果不好的原因）

李宏毅老师还在课上提到过一些transformer对于不同任务的训练技巧，后续做具体代码任务再学习总结。

标签：编码,transformer,位置,attention,encoder,decoder
From： https://www.cnblogs.com/moonlight1209/p/17087687.html

Continual Learning with Lifelong Vision Transformer----阅读笔记
ContinualLearningwithLifelongVisionTransformer----阅读笔记摘要：在本文中，我们提出了一种新的基于注意力的框架LifelongVisionTransformer（LVT），以实现更好的稳定......
transformer 的发展历史
最近看了很多关于transformer的教程，做一个阶段性的总结。也是写博客的试水文章啦~今天也要加油呀！参考资料：b站up去钓鱼的程序猿的课程：https://www.bilibili.com/video/B......
【图神经网络论文整理】（六）—— Universal Graph Transformer Self-Attention Networks
DaiQuocNguyen,TuDinhNguyen,DinhPhungTheACMWebConference2022(WWW'22)ComputerVisionandPatternRecognition论文地址本文介绍的论文是《Univers......
【图神经网络论文整理】（五）—— Self-Attention Graph Pooling：SAGPool
ICML2019JunhyunLee,InyeopLee,JaewooKangMachineLearning(cs.LG);MachineLearning(stat.ML)论文地址本文介绍的论文是《Self-AttentionGraphPooling......
【TPAMI2023】Global Learnable Attention for Single Image Super-Resolution
【TPAMI2023】GlobalLearnableAttentionforSingleImageSuper-Resolution代码：https://github.com/laoyangui/DLSN这是来自福州大学的工作，提出一个有意思的观点：当前......
【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer
论文：【AAAI2023】Head-FreeLightweightSemanticSegmentationwithLinearTransformer代码：https://github.com/dongbo811/AFFormer这是来自阿里巴巴的工作，作者构建了......
transformer
Transformer：Pytorch版本的源码解析Transformer源码详解（Pytorch版本）史上最小白之Transformer详解Transformer详解（看不懂你来骂我......
【ARIXV2209】Multi-Scale Attention Network for Single Image Super-Resolution
【ARIXV2209】Multi-ScaleAttentionNetworkforSingleImageSuper-Resolution代码：https://github.com/icandle/MAN这是来自南开大学的工作，将多尺度机制与大核注意机......
2021 ACL Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Parameter-efficientMulti-taskFine-tuningforTransformersviaSharedHypernetworks阅读这篇文章的目的是为了了解hypernet，相关代码https://github.com/rabeehk/hyp......
初探attention—attention原理和代码详解
attention在正式开始探索attention之前，首先了解一下seq2seq。循环神经网络只能将一个序列信号转换为定长输出，但Seq2Seq可以实现一个序列信号转化成一个不定长的序列输出，因......

从attention到transformer

从attention到transformer

总体看transformer

encoder

1) positional encoding

2）add + Norm

3）前馈神经网络FNN

decoder

1) 结构区别：交叉验证层

2）结构区别：输入和masked attention

相关文章

赞助商

阅读排行