首页 > 其他分享 >Transformer

Transformer

时间:2022-12-25 20:12:25浏览次数:33  
标签:编码 Transformer Attention 位置 单词 向量

前言

Transformer的应用场景是NLP领域的序列翻译,在Transformer产生之前,大家一般都是使用基于循环神经网络(RNN)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。所谓序列翻译,就是输入一个序列,输出另一个序列,例如汉英翻译即输入的序列是汉语表示的一句话,而输出的序列即为对应的英语表达。

2014年,基于深度网络的“序列到序列”(Sequence to Sequence,Seq2Seq)模型逐步成为机器翻译的主流方法。但是由于语言中的词汇在重要性上是有区别的,而原生的Seq2Seq模型对所有词汇“雨露均沾”。

因此,到了2015年,注意力机制被添加到Seq2Seq模型中,克服了原生Seq2Seq模型的若干重大问题,大幅提高了机器翻译的质量。随后的序列翻译工作基本上都是以上述工作为基础。我们就从这两个模型说起。

概览

论文中的验证Transformer的实验室基于机器翻译的,下面我们就以机器翻译为例子详细剖析Transformer的结构,在机器翻译中,Transformer可概括为:

Transformer的本质上是一个Encoder-Decoder的结构,那么上图可以表示为下图的结构:

如论文中所设置的,Transformer的Encoder和Decoder均由6个block堆叠而成,与所有的生成模型相同的是,编码器的输出会作为解码器的输入

Encoder

在Transformer的encoder中,数据首先会经过一个叫做‘self-attention’的模块得到一个加权之后的特征向量

标签:编码,Transformer,Attention,位置,单词,向量
From: https://www.cnblogs.com/chihaoyuIsnotHere/p/17004502.html

相关文章