首页 > 其他分享 >[重读经典论文]VIT

[重读经典论文]VIT

时间:2023-06-10 12:12:18浏览次数:47  
标签:Transformer 分类 提取 VIT 论文 patch embedding encode 重读

参考博客:Vision Transformer详解

参考视频:11.1 Vision Transformer(vit)网络详解

基本流程:

  • 提取embedding:将原图分为若干patch,使用convnet提取每个patch的特征作为embedding,然后在前面concat一个用来分类的embedding,之后每个patch加上一个位置编码。
  • tranformer encode:将上一步的embedding直接喂入堆叠的transformer模块,进行encode操作。
  • 提取分类特征:将分类的特征切片,并在后面增加一个mlp网络进行分类。

纯Vit和Hybrid的区别就是前面提取embedding是用一个简单的conv模块还是使用ResNet50(论文中是改造后)的复杂模型。

微信截图_20230610114753

标签:Transformer,分类,提取,VIT,论文,patch,embedding,encode,重读
From: https://www.cnblogs.com/harrymore/p/17471034.html

相关文章