参考博客:Vision Transformer详解
参考视频:11.1 Vision Transformer(vit)网络详解
基本流程:
- 提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embedding,之后每个patch加上一个位置编码。
- tranformer encode:将上一步的embedding直接喂入堆叠的transformer模块,进行encode操作。
- 提取分类特征:将分类的特征切片,并在后面增加一个mlp网络进行分类。
纯Vit和Hybrid的区别就是前面提取embedding是用一个简单的conv模块还是使用ResNet50(论文中是改造后)的复杂模型。
标签:Transformer,分类,提取,VIT,论文,patch,embedding,encode,重读 From: https://www.cnblogs.com/harrymore/p/17471034.html