鹏城实验室网络智能研究部视觉智能研究所与中国科学院、华为公司共同合作,在Github开源了高效高精度视觉表征模型—视觉状态空间模型Vmamba.
虽然CNNs和ViTs在计算视觉特征表示方面都取得了显著的成功,但与 CNN 相比,ViT 通常表现出更优越的性能,这主要归因于注意力机制促进的全局感受野和动态权重。然而注意力机制需要图像大小的二次复杂度,导致在处理下游稠密预测任务时计算开销很大。为了解决这个问题,本文设计了一种新的具有线性复杂度并且保留全局感受野和动态权重的模型架构—Vmamba。
VMamba旨在结合卷积神经网络(CNNs)的线性复杂度和视觉变换器(ViTs)的全局感受野和动态权重的优势,同时提高计算效率。
VMamba在有效降低注意力复杂度方面的关键概念继承自选择性扫描空间状态序列模型(SelectiveScan Space State Sequential Model,s6)。使一维数组(例如文本序列)中的每个元素通过压缩隐藏状态与先前扫描的任何样本进行交互,有效地将二次复杂度降为线性。然而,由于视觉数据的非因果性质,直接将这种策略应用于补丁化和展平的图像将不可避免地导致受限的感受野,因为无法估计相对于未扫描的补丁的关系。作者将这个问题称为“方向敏感”问题,并提出通过新引入的交叉扫描模块(Cross-Scan Module,CSM)来解决它。CSM 不是以单向模式(列向或行向)遍历图像特征映射的空间域,而是采用四向扫描策略,即从特征映射的四个角到相对位置。这种策略确保特征映射中的每个元素从不同方向的所有其他位置集成信息,从而产生全局感受野,而不增加线性计算复杂性。
CSM模块
如图我们选择将图像块沿行和列展开成序列(扫描展开),然后沿着四个不同的方向继续扫描:从左上到右下、从右下到左上、从右上到左下、从左下到右上。通过这种方式,任何像素(如图2中的中心像素)都集成了来自不同方向的所有其他像素的信息。
然后,我们将每个序列重新塑造为单个图像,并将所有序列合并为一个新的图像,如图3所示(扫描合并)。整体流程就是:我们首先使用CSM(扫描扩展)扫描一个图像。然后通过S6块分别处理四个结果特征,并将四个输出特征合并(扫描合并),以构建最终的2D特征图。
架构
VMamba将几个VSS块堆叠,处理特征图上,保持相同的维数,构成Stage 1。VMamba中的层次表示是通过patch合并操作对“Stage 1”中的特征图进行下采样来构建的。随后,涉及到更多的VSS块,输出分辨率为H/8 ×W/8,形成“Stage 2”。重复此过程以创建“阶段3”和“阶段4”,其分辨率分别为H/16×W/16和H/32×W/32。所有这些阶段共同构建了类似于流行的CNN模型和一些ViTs的层次表示。最终的体系结构可以作为实际应用程序中具有类似需求的其他视觉模型的通用替代。
实验
• VMamba 在 ImageNet-1K 图像分类任务上展示了优越或至少与基准模型相竞争的性能。 • 在 COCO 目标检测任务和实例分割任务上, VMamba 在不同训练计划下均保持了优越的框 / 掩码平均精度( AP )。 • 在 ADE20K 语义分割任务上,无论是单尺度测试还是多尺度测试, VMamba 同样展现了优越的准确性。总结
1.提出了VMamba,这是一种具有全局感受野和动态权重的视觉状态空间模型。
2.引入了CSM,使得S6能够适应视觉数据,而不影响接收场。
3.证明了VMamba在各种视觉任务中的潜力,特别是在图像分辨率提高时,其性能优势更加明显。
论文强调,VMamba不仅在各种视觉任务中表现出色,而且随着输入图像尺寸的增加,其性能提升更为显著,这表明了VMamba作为强大视觉基础模型的潜力。
标签:CSM,视觉,VMamba,模型,扫描,笔记,图像,文献 From: https://blog.csdn.net/qq_46460379/article/details/143746804