首页 > 其他分享 >Mamba->医学图像分割(一)

Mamba->医学图像分割(一)

时间:2024-07-02 12:57:48浏览次数:18  
标签:分割 Image VMamba 图像 Mamba 模型

2023年12月1日(星期五)18:01:34,Mamba横空出世,为深度学习领域带来了新的可能。经过半年的发展,其应用场景已经从语言、音频等一维数据处理扩展到了图片与视频等二维或三维数据处理。基于深度学习的医学图像分割能够帮助医生快速准确进行疾病诊断,具有重要的临床意义,随着基于Mamba的医学图像分割模型相继出现,医学图像分割领域已经形成了CNN、Transformer、Mamba三足鼎立之势,三者互为补充,共同推进医学图像分割的快速发展。

CNN最先被应用到医学图像分割,但其缺少长距离信息交互能力。Transformer通过自注意力机制确保模型具有长距离信息交互能力,但代价是二次时间复杂度。Mamba提出选择性状态空间模型(SSM),在线性时间复杂度情况下实现了长距离信息交互。

与Transformer类似,Mamba最先提出并没有考虑图像的二维空间特征提取。因此,将Mamba应用到医学图像分割任务自然需要针对这一问题提出解决方案,下面对学界已有的尝试进行归纳总结。

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation[J]. arXiv, 2024.

U-Mamba是基于Mamba的第一个专门针对医学图像分割的研究。一作为南京航空航天大学-马骏,通讯作者为多伦多大学-王波。该模型直接将空间维度flatten,模型主体架构继承自nnU-Net。

创新点:提出hybrid CNN-SSM block,提出self-configuring mechanism自适应多个数据集不需人工干预。结果比CNN和Transformer方法都好。

数据集:the 3D abdominal organ segmentation in CT and MR images, instrument segmentation in endoscopy images, and cell segmentation in microscopy images

Image

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Vision Mamba通讯作者为华中科技大学-王兴刚。同样将二维图像flatten。但采用了位置编码。

创新点:vision backbone with bidirectional Mamba blocks (Vim)。作者称Vim是第一个针对密集预测任务的纯SSM-based模型。所谓双向Mamba其实就是正序和反序作为Mamba输入。

Image

VMamba: Visual State Space Model

VMamba的作者包括:鹏程实验室-王耀伟 华为-谢凌曦 中国科学院大学-叶齐祥。

文章提出的VMamba是一个vision backbone,可以用于分割分类等各

种任务(没有应用unet结构)。提出Visual State-Space (VSS) blocks with the 2D Selective Scan (SS2D) module,并且发展了一个VMamba结构家族。其提出的VSS block启发了后续的若干工作,一部分直接应用该模块构建新模块,一部分在该模块基础上进行改进,例如SS2D的扫描方法。

ImageImage

VM-UNet: Vision Mamba UNet for Medical Image Segmentation

作者为Suncheng Xiang,上海交大助理教授

创新点:基于U-Net构建VM-UNet。应用VSS块作为基础块,但VSS块和其中核心操作SS2D都是直接从VMamaba拿过来。

Image

SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation

作者单位为香港科技大学,本文是第一篇基于Mamba的针对3D医学图

像的分割模型。

创新点:为了在高维医学影像上用mamba,提出tri-orientated Mamba (ToM) module (TSMamba);为了增强ToM前面的空间维度特征,提出gated spatial convolution (GSC) module;提出一个结直肠癌3D分割数据集CRC-500, 其中包括500个3D CT scans with expert annotations。

ImageImage

这里进行说明:Forward Features Interaction就是从最上面层开始,每次按顺序扫描一层后进入下一层;Reverse Feature Interaction就是从最下面一层开始,每次按顺序扫描一层后进入上一层;Inter-slice Feature Interaction就是每一层同一个位置(i,j)自上而下取,然后再自上而下取下一个位置(i,j+1)的所有层。

Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

通讯作者为香港大学 Hong-Yu Zhou。现有Mamba分割模型没有利用

预训练模型,原因是基于Mamba的分割模型没有适配已有的预训练模型,这可以看做一种资源浪费。

创新点:针对现有Mamba分割模型没有利用预训练模型,本文提出

Swin-UMamba用于2D医学图像分割,利用ImageNet-based pretraining。本模型采用VMamba-Tiny结构,模型在ImageNet预训练。

本文模型也将VMamba中的VSS直接拿过来,并且其模型结构很像VM-UNet。区别在于Swin-UMamba把输入图像直接skip了,并且只在encoder用VSS,在decoder没有用。

Image

暂时介绍这么多。从上面的发展脉络可以看出,Mamba分割模型针对图像扫描问题的探索从完全展平到SS2D,再到三维扫描方案。探索方向有通用的vision backbone,也有专门应用于医学影像分割的模型,基础架构也从U-Net到nnU-Net,并在主体结构中间增加新模块。可以观察到VMamba提出的VSS模块与SS2D模块已经被应用到其他模型中,说明其有效性和鲁棒性,未来Mamba的探索还有很大空间,但思维不能局限于Mamba+UNet,就像Mamba最开始的来源是物理上的自动控制理论,需要发散的思维和准确的科研直觉,还有一点灵光乍现。

标签:分割,Image,VMamba,图像,Mamba,模型
From: https://blog.csdn.net/qq_18063797/article/details/140123777

相关文章

  • ONNX Runtime入门示例:在C#中使用ResNet50v2进行图像识别
    ONNXRuntime简介ONNXRuntime是一个跨平台的推理和训练机器学习加速器。ONNX运行时推理可以实现更快的客户体验和更低的成本,支持来自深度学习框架(如PyTorch和TensorFlow/Keras)以及经典机器学习库(如scikit-learn、LightGBM、XGBoost等)的模型。ONNX运行时与不同的硬件、......
  • 神经网络图像数据训练集成应用 | 可视化图像处理 | 可视化训练器
    〇、写在前面本应用基于开源UI框架PyDracula进行开发,除去最基本的UI框架外,所有功能的前后端实现都由我个人开发完成,但也有部分UI(如开关控件和进度条)是参考其他大佬的分享。这个应用是我的本科毕业设计,但因为个人能力不足,姑且只能使用Python+PySide6开发。开发这个应用的启发是,......
  • 最新扣子(Coze)实战案例:图像流工具之创建一个精美的LOGO,完全免费教程
    ......
  • YOLOv10改进 | 注意力篇 | YOLOv10引入24年最新Mamba注意力机制MLLAttention
    1. MLLAttention介绍1.1 摘要: Mamba是一种有效的状态空间模型,具有线性计算复杂度。最近,它在处理各种视觉任务的高分辨率输入方面表现出了令人印象深刻的效率。在本文中,我们揭示了强大的Mamba模型与线性注意力Transformer具有惊人的相似之处,而线性注意力Transform......
  • delphi Image32 图像采样
    图像数据采样  代码:1unituFrmImageResampling;23interface45uses6Winapi.Windows,Winapi.Messages,Winapi.ShellAPI,//7System.SysUtils,System.Variants,System.Classes,Vcl.Graphics,Vcl.Controls,8Vcl.Forms,Vcl.Dialo......
  • CPU管理 && 多进程图像
    目录CPU管理&&多进程图像要管理CPU,先要学会使用CPUCPU管理的核心:并发并发概念如何实现并发?总结多进程图像CPU管理&&多进程图像要管理CPU,先要学会使用CPUCPU的工作方式在操作系统学习之初就已经提过:取值执行程序存放在内存中,每段指令对应一个地址CPU发出取指命令,将想取......
  • Python武器库 - 科研中常用的python图像操作 - 转换图像颜色通道模式BGR到RGB
    应用场景:待补充。。。(主要是因为opencv默认的图像颜色通道模式为BGR,与我们通常说到的RGB模式有区别,所以这个转换操作还是比较常用的)主要用到cv2.cvtColor()函数代码示例:importcv2img1=cv2.imread('example_img/img1.png')cv2.imshow('lingdushowimg1',img1)img2=......
  • Python武器库 - 科研中常用的python图像操作 - 图像添加文字
    应用场景:在科研中,有时需要在生成结果中标注文字作为说明,或者添加文字在一行图片的开头作为标题(这个效果通常需要配合在一行图片的开头添加一张空(纯黑)图片,在该图片中添加文字作为标题,使用python-opencv来创建一张纯色图片的操作,详情见我的另一篇随笔https://www.cnblogs.com......
  • Python武器库 - 科研中常用的python图像操作 - 创建纯色图像
    应用场景:需要创建纯色图像,作为背景图,在此基础上添加文字、形状、新的图片等等原理:cv2的读取图片操作本质上是将图片转换为uint8的numpy.ndarray类型,后续的其他图像操作,本质上也是对于这个ndarray对象的操作首先用numpy创建一个形状为(224,224,3)、元素值为均为0的ndarra......
  • 图像采集卡是什么,有什么用处
    机器视觉技术的发展源于光学、化学、物理、电子、电视、机械设计、数学、软件、人工智能、计算机和计算机视觉以及互联网等领域的发现。随着这些不同学科取得某些里程碑式的进展,它们为开发用于自动检查、测量、过程控制和机器人引导应用的成像系统铺平了道路。图像采集卡是许多高......