首页 > 其他分享 >TransUNet——彻底改变传统的图像分割

TransUNet——彻底改变传统的图像分割

时间:2022-09-05 08:59:45浏览次数:106  
标签:采样 Transformer 彻底改变 分割 图像 CNN TransUNet

TransUNet——彻底改变传统的图像分割

通过结合 CNN 和 Transformer 对 U-Net 进行改造,以在图像分割任务上实现 SOTA 结果。

目录

· 直觉
· TransUNet
∘ 下采样(编码)
∘ 上采样(解码)
· 结果
· 实现
· 参考

Photo by 碧玉的家伙 on 不飞溅

直觉

如今, 网络 主导了图像分割任务,尤其是在医学成像领域。在迄今为止提出的大多数 U-Net 中,卷积神经网络 (CNN) 被广泛用作它们的底层结构。

然而, CNN 只能有效地利用短程(或本地)信息 由于它们的卷积核尺寸较小,无法在具有远程关系特征的任务中充分探索远程信息。

变形金刚 ,通常用于处理自然语言处理任务,可以有效地探索远程信息,但 它们在利用短程信息方面并不像 CNN 那样稳健 .

Chen 等人在图像分割任务中使用 CNN 的强大功能可以弥补 Transformer 的缺点,反之亦然。建议的 跨网 ,这也是 第一个由 Transformer 构建的图像分割模型 . 还值得一提的是,作者首先尝试使用纯 Transformer 架构进行图像分割,从而验证了将 CNN 和 Transformer 相结合的有希望的结果。然而,它的效果不如在其架构中引入 CNN,因为 Transformer 在利用局部特征方面不如 CNN。

** TransUNet**

我们知道在 网络 (图 1)有一个 编码器 (下采样路径)和 解码器 (上采样路径)。下采样路径会将图像的特征编码为高级映射,上采样路径将使用其细节来生成与输入相同维度的最终掩码。

Fig. 1: U-Net diagram from the 原纸 by Ronneberger et al.

同样,TransUNet 也包括一个 编码器 和一个 解码器 用于编码和解码图像信息以产生分割。与传统的 U-Net 不同,TransUNet 使用 混合 CNN-Transformer 架构 作为编码器来学习来自 CNN 的高分辨率空间信息和来自 Transformer 的全局上下文信息。

Fig. 2: TransUNet architecture design overview. MSA stands for Multi-head Self-Attention, and MLP stands for Multi-Layer Perceptron.

分解步骤:

下采样(编码)

  • 首先,使用 CNN 作为特征提取器,为输入生成特征图,如图 2 中的粉色框所示。
  • 对于特征提取器的每一级,输出特征图 ( 编码中间高级特征图 ) 是然后 串联的 到同一级别的解码器路径,如图2中的虚线箭头所示。
  • 然后,特征图被标记(矢量化)为形状 (n_patch, D) 的二维嵌入 线性投影, D 是嵌入的总长度。嵌入是预训练的,并将保留特征图的位置信息( 如果你不明白怎么做,暂时不要担心,因为它不会过多妨碍你对 TransUNet 的理解 )。
  • 最后, 为上采样路径做准备 ,输出被重塑为 (D, H/16, W/16)。 H/16 和 W/16 表示此时的高度和宽度由于之前的操作已经缩小了 16 倍。

Fig. 3: Simplified version of the TransUNet architecture overview.

上采样(解码)

上采样过程非常简单( 没有任何花哨的技术 )。

  • 首先,来自 CNN-Transformer 编码器的输入由 具有 ReLU 激活的 3x3 卷积层,上采样 , 接着 串联的 与输出 三级 CNN 特征提取器。
  • 然后将生成的特征图通过带有 ReLU 激活层的 3x3 卷积运行 再次 .然后将输出与来自 第二级 CNN 特征提取器。
  • 步骤是 重复 再次。现在,输出是形状中的掩码 (C、H、W) ,其中 C=目标类别数,H=图像高度,W=图像宽度。

作者还指出, 更密集地结合低级特征通常会导致更好的分割精度 .

结果

该模型在 Synapse 多器官分割数据集上运行。最终分数由 Dice Similarity Coefficient 和 Hausdorff distance 评估。

如您所见,TransUNet 的性能优于大多数现有的 SOTA 架构,例如 V-Net、ResNet U-Net、ResNet Attention U-Net 和 Vision Transformers,这表明基于 Transformer 的架构更善于利用​​自身-attention 比其他基于自我注意的 CNN U-Nets。

Table 1: Performance summary of TransUNet compared to other SOTA image segmentation models.

实现

官方 TransUNet 实施

谢谢! ❤️
我们恳请您考虑给我们一些掌声! ❤️

参考

TransUNet:Transformers 为医学图像分割提供强大的编码器

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/15416/46100508

标签:采样,Transformer,彻底改变,分割,图像,CNN,TransUNet
From: https://www.cnblogs.com/amboke/p/16656827.html

相关文章

  • 同态加密可以彻底改变隐私
    同态加密可以彻底改变隐私那是什么?Photoby乔恩·摩尔on不飞溅这是CrunchX的第30版,这里是我们认为值得花时间的故事和资源。1.苹果大修你可能不知道的内置......
  • 数字图像处理概述
    计算机视觉技术任务:通过对采集的图片或视频进行处理以获得相应场景的相关信息。流程:视频处理以图像处理为基础图像数据最流行的表示方式:数字图像。成像方式不止可......
  • 使用扩散模型从文本生成图像
    1代的DALLE使用VQ-VAE的改进版,2代的DALLE2通过使用扩散模型将图片的生成提升到了一个新的高度,但是由于其计算量很大而且没有开源,我们普通用户并没有办法使用,但是StableD......
  • 更改主题图像、脚本素材 2022-9-3
    更换头像图像来源:https://t.bilibili.com/699492324008263715?spm_id_from=333.999.0.0原图:压缩:更换精灵精灵立绘:https://t.bilibili.com/700937288438251591?spm_i......
  • 图像标签
    图像标签插入图像在HTML中,图像由<img>标签定义。<img>是空标签,意思是说,它只包含属性,并且没有闭合标签格式:<imgsrc="path"alt="text"title="text"width="x......
  • OpenCV的Windows程序图像处理,Win32 SDK,VS2022
    Windows程序调用OpenCV进行图像捕捉和处理显示1.OpenCV的视频接口VideoCapture很简洁,显示可以直接把图片帧数据转换成BMP,用StretchDIBits显示,方便又灵活。2.Windows用......
  • 如何在 CSS 中制作前景图像
    如何在CSS中制作前景图像结构可以用了CSS在哪里放置**<div/>**为什么作品☕其他命题✨学更多即用型解决方案使用原始CSS:/**前景图像**/#前景......
  • 论文笔记 — CheXGAT:基于胸部 X 光图像诊断胸部疾病的疾病相关感知网络
    论文笔记—车行:用于从胸部X射线图像诊断胸部疾病的疾病相关感知网络Photoby阿辛·K·苏雷什on不飞溅介绍ChestX-Ray(CXR)成像是临床诊断中最常见的诊断成像......
  • CCF 201503-1 图像旋转(C++)
    好像旋转矩阵有更好的做法,但是我觉得这样也足够了,如果需要更好的做法,大家得自己在去找一下。我主要是找了下规律,然后做出来的#include<iostream>#include<bits/stdc+......
  • 【OpenFace】使用命令行单个/批量处理图像/视频
    在OpenFace的可执行文件夹Release下运行cmd以识别单个视频为例:命令行参数参考:https://blog.csdn.net/bj233/article/details/113737268?utm_medium=distribute.pc_rel......