NNDL 学习笔记
transformer:基于多头自注意力的序列到序列的模型
前馈神经网络
全连接
ResNet残差连接
层归一化
Softmax
编码器-解码器
注意力机制
自注意力模型
多头自注意力
掩蔽自注意力:通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息
词嵌入
位置编码
标签:知识点,Transformer,必备,多头,序列,注意力 From: https://www.cnblogs.com/hbuwyg/p/16980597.html