Transformer:https://blog.csdn.net/qq_37541097/article/details/117691873,总结:
- Self-Attention:输入n个向量,每个向量得到一组(q,k,v),通过Attention(Q, K,V)将不同向量的(q,k,v)进行相互联系,最后就得到了n个输出。
- Multi-Head Attention:Multi-Head就是将每个向量得到的(q,k,v)分为多份(多头)
VIT:自然语言中使用Transformer,需要将自然语言编码成特征向量,最后输入到使用Multi-Head Attention组织的网络中。
在图像中,就是利用卷积网络进行特征提取,从而将图像编码成特征向量,最后输入到使用Multi-Head Attention组织的网络中。
Swin-Transformer:这个网络好像没有像VIT中一样,用到了很多的cnn结构??
标签:Transformer,swin,Head,Attention,Multi,transformer,VIT,向量 From: https://www.cnblogs.com/codingbigdog/p/17021673.html