目录
最近刚好梳理了下transformer,今天就来讲讲它~
Transformer是谷歌大脑2017年在论文attention is all you need中提出来的seq2seq模型,它的本质就是由编码器和解码器组成,今天的主角则是其中的编码器(在BERT预训练模型中也只用到了编码器部分)如下图所示,这个模块的输入为
标签:dim,Transformer,weight,torch,bias,layer,encoder,详解,维度 From: https://blog.csdn.net/lbr15660656263/article/details/140086242