今天记录一下个人关于Transformer中前馈神经网络(FFN)的一点理解。
我们知道,FFN之前是有一个多头注意力机制的模块。我们可以想想一下,如果这个模块直接输出,不经过FFN层会发生什么,要知道多头注意力(MH)是没有激活函数的,那么最后只有一个结果,那就是很多头的输出就是一个极为相似的结果。这并不是我们想要的结果,所以这个时候,我们可以考虑使用FFN层,因为这个结构可以提供更好的特征表达能力(也就是提供了非线性,非线性很重要,不然DL就没法搞那么深了)。
以上就是我的个人理解,之后再有新的想法,继续补充。有人知道其他原因的话,欢迎评论区。
标签:feed,Transformer,layer,FFN,理解,forward From: https://www.cnblogs.com/peixu/p/16842247.html