一、论文理论
论文地址:MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER
1.理论思想
结合了CNN(例如,空间归纳偏差和对数据增强不太敏感)和ViTs(例如,输入自适应加权和全局处理)的优点。
2.创新点
操作过程:
标签:YOLOv5,卷积,MobileVIT,通过,参涨,建模,特征,1x1,大小 From: https://blog.csdn.net/ZzzzzKnight/article/details/136864157(1)将特征图通过一个卷积核大小为nxn(代码中是3x3)的卷积层进行局部的特征建模,然后通过一个卷积核大小为1x1的卷积层调整通道数
(2)通过Unfold -> Transformer -> Fold结构进行全局的特征建模,然后再通过一个卷积核大小为1x1的卷积层将通道数调整回原始大小
(3)接着通过shortcut捷径分支(在V2版本中将该捷径分支取消了)与原始输入特征图进行Concat拼接(沿通道channel方向拼接)
(4)