首页 > 其他分享 >Transformer-empowered Multi-scale Contextual Matching and Aggregation for

Transformer-empowered Multi-scale Contextual Matching and Aggregation for

时间:2023-09-13 15:57:14浏览次数:46  
标签:Transformer scale 匹配 特征 SR 尺度 empowered LR 图像

Transformer-empowered Multi-scale Contextual Matching and Aggregation for

Multi-contrast MRI Super-resolution(阅读文献)10.12

基于变压器的磁共振多对比度超分辨率多尺度背景匹配与聚合

摘要:MRI可以显示相同解剖结构的多对比图像,使多对比超分辨率(SR)技术成为可能。和使用单一对比的SR重建相比,多对比SR重建通过利用嵌入在不同成像模式中的多样且互补的信息,有可能产生更高质量的SR图像。目前的方法不足:

  1. 忽视不同尺度的多对比特征包含的解剖结构细节不同,缺乏有效的机制来匹配和融合这些特征,从而更好的重建;
  2. 它们仍然缺乏对具有复杂解剖结构的区域必须的长度依赖性的捕获。

本文提出 一个全新的网络,通过开发一套创新的transforemer授权的多尺度上下文匹配和聚合技术来全面解决这些问题;本文称之为McMRSR。(有监督的?参考特征融合)

首先训练transformers模型在参考和目标图像之间的长范围依赖。然后提出一种新的多尺度上下文匹配方法,从不同尺度的参考特征中获取相应的上下文。另外,引入了一种多尺度聚合机制,以逐步和交互聚合多尺度匹配特征来重建目标SR MR图像。

图1。与最新的多对比MRI SR重建方法MCSR和MINet比较我们的McMRSR网络重建的MRI图像包含更清晰的边缘、更多的视觉细节和更少的模糊伪影。

1.介绍: 磁共振成像(MRI)是一种重要的医学影像技术,它能在不引起电离辐射的情况下提供组织结构和功能的清晰信息。然而,由于成像系统的本质缺陷[27,36]和身体某些部位(如腹部)的气颤,在临床获得高分辨率(HR) MR图像[9]具有挑战性。此外,长时间的采集过程可能会给患者带来不适,引入运动伪影,从而影响图像质量[15]。超分辨率(SR)重建是一种很有前途的不需要升级硬件设施就能提高MR图像质量的方法。

MRI可以在不同的设置下显示相同解剖结构的多对比图像,如T1-加权图像(T1)和T2-加权图像(T2),以及质子密度加权图像(PD)和脂肪抑制质子密度加权图像(FS-PD),它们之间可以提供相互补充的信息[3,8]。在临床应用中,由于T1的重复时间和回波时间比T2短,且PD的扫描过程通常比FS-PD短,因此T1可指导LR T2进行SR重建,PD可帮助FS-PD[38]重建。在这方面,利用较短采集时间的HR参考图像从LR图像重建较长扫描时间的模态是有希望的

目前的MRI SR面临的问题:

  1. 如何有效的提取参考图像和目标图像中的特征
  2. 如何将参考图像的特征转移到目标图像的特征

目前的两个主要短板:

  1. 利用卷积进行特征提取通常受到感受野的限制,不能充分捕捉非局部特征,可信的重建不仅依赖局部关系,还依赖于远程依赖。
  2. 直接将低分图像上采到高尺度图像进行多对比度特征提取融合,忽略了不同尺度多对比特征包含不同的解剖细节,可以为MRI目标SR重建提供广泛而多样的指导。

因此,本文提出一种新的有效的多对比MRI SR网络,通过训练transformers来提取大范围的相关性,来促进更全面的上下文匹配并利用多对比多尺度特征来指导不同尺度下的重建,从不同模态提取解剖信息;本文称之为McMRSR网络。

本文贡献:

  1. 提出一种新型网络,带有transformers支持的多尺度上下文匹配,用于多对比度MRI SR,其中的Swin transformers组用于不同尺度不同对比中提取深度特征,以捕获更多的远程依赖关系。
  2. 多尺度上下文匹配和聚合方案。将参考图像中的视觉上下文在不同尺度下转移到目标LR MR 图像中,是目标LR 图像充分利用引导信息,实现充满精细细节的SR图像。
  3. McMR SR 在三个基准数据集上优于最先进的方法:临床盆腔、临床大脑和快速MRI,证明了该网络的有效性和临床实践中使用的巨大潜力。

2.相关工作

单对比MRI SR:

传统的SR算法利用变换域的冗余进行MRI SR 重建,如迭代去模糊算法,低秩和字典学习。然而上采样因子较大时,这些方法重建的SR图像质量并不令人满意。

随着基于深度学习的自然图像SR方法和计算机断层扫描SR方法的研究,一些优秀MRI SR方法出现了。利用卷积、利用集成学习、利用GAN的注意力机制和循环损失进行MRI SR重建。针对MRI,提出的压缩启发推理注意力网络等等都是集中在仅使用一张对比度MRI图像重构图像上。

多对比度MRI SR:

多对比度MRI SR 的关键是如何获得参考图像,更好的引导目标图像进行SR重建。Lyu等人证明,在高水平特征空间中融合多对比度信息比在低水平像素空间融合效果更好。因此,我们考虑从深层特征空间进行多对比度特征匹配和聚合,以充分利用参考图像中的信息。

Feng等采用多阶段特征融合机制进行多对比SR即将前一阶段的参考特征与目标特征进行融合,得到用于指导下一阶段目标特征学习的综合特征受到启发,本文在上采样过程中融合来自不同尺度参考图像的特征。具体而言,在深度特征空间进行多尺度上下文匹配和聚合,利用多尺度匹配的参考特征指导目标HR特征的恢复。

MRI transformers:

多模态transformers进行MRI多对比度重建。通用transformers处理的是patch,导致无法学习到补丁外相邻像素的信息。Swin transformers可以解决上述问题,结合了CNN和通用transformers的优点。该方法通过移动窗口方案建立长期依赖关系,解决了patch中边缘像素的问题。

因此在McMRSR中使用由多个残差Swin transformers组成的Swin Transformers组进行深度特征提取和多对比特征融合。

3.方法

3.1总体架构

图2。提出的McMRSR网络的总体架构。STG: Swin变压器组;RSTB:剩余Swin变压器块;STL: Swin变压器层;MAB:多尺度聚合块;SAB:空间适应块;JRFAB:联合残留特征聚合块。

为获得用于上下文匹配的多尺度特征图通过目标LR,参考LR和参考分支三个分支进行特征提取。然后将三个分支生成的多尺度特征映射输入上下文匹配模块,获得匹配的不同尺度参考特征。然后将这些匹配特征输入到多尺度聚合块(MABi)中,引导目标LR多尺度上采样,最终得到重建目标SR图像。

3.2transformers支持的特征提取

嵌入在特征映射中的长范围依赖关系对于高效和健壮的上下文匹配是必不可少的。利用Swin transformers group(STG)提取每个分支的深层特征;该算法能够从目标图像和参考图像中提取具有丰富远程依赖关系的深层表示,使所提出的网络能够更高效的更精确的进行匹配。STG由多个剩余Swin Transformer块(RSTB)组成,每个块使用多个Swin Transformer层(STL)进行局部注意和跨窗口交互学习RSTB采用残差学习,保证特征提取的稳定性3×3卷积层用于RSTB和STL之后的特征增强

特征提取过程:

其中FSTL表示STL生成的特征,Conv表示3×3 Conv2D, Fin表示RSTB的输入特征。如图所示,STL由多个头部的自我注意块和多层感知组成。在我们的实现中,我们将RSTB和STL的数量分别设置为4和6。

从参考图像中提取多尺度特征,提取的特征呈现金字塔状。保留每一层的输出,并在Conv2D中设置不同的stride,来确保每一层的输出具有不同的刻度,称为Firef。然后将这些特征输入到多尺度上下文匹配模块中进行相关特征映射。从LR分支得到的深度特征分别命名为Ftar-LR 和 Fref-LR。

LR分支获得的特征的尺度和参考图的金字塔特征的顶部特征的尺度相同。

3.3多尺度上下文匹配

利用SR参考图像中的细节来确保重建的SR能够包含足够的解剖学信息以供临床应用是至关重要。

传统方法不行的原因:

a.直接融合从多对比度图像中提取的特征可能会给目标图像带来多余而不必要的特征降低SR图像的质量;

b.由于医学图像的特点,远程依赖对于提供上下文感知的匹配非常重要,以往方案忽略了。

因此,我们在多对比度特征融合之前进行多尺度上下文匹配试图获得目标和参考特征中最相关的部分,即Ftar-LR 和 Fref-LR将其映射到不同尺度的参考特征,即Firef。另外由于transformer,可以隐式的利用嵌入提取特征中的长距离依赖关系来提高匹配质量

如图三:我们的上下文匹配分为两步:

  1. 对低尺度特征即Ftar-LR 和 Fref-LR进行上下文匹配,获得索引和相似度映射
  2. 将其映射为多尺度特征Firef。

具体而言:

  1. 低尺度特征上下文匹配(这一块看的最迷)

为降低网络计算成本,在低尺度特征上计算目标特征和参考特征的相似度映射

第一将Ftra-LR 展开为N个不重叠的块,Rntar-LR块的大小是w*h(其中UF=4,w=h=13),

然后将目标LR图像的N个不重叠的patch和Fref-LR计算余弦相似度,找到与Fref-LR相似度最大的中心区域,得到Fref-LR中对应的Rnref-LR补丁。然后用这个中心区域在Firef上裁剪获得大小为wi*hi的多尺度相似patch,Rinref。

因此,对于每个Rntar-LR补丁,都有一个最相关的Rnref和Rinref补丁。

由于所有的特征图都是由STG生成的,其中嵌入的长范围依赖关系将隐式地影响匹配,增强解剖结构相似但位于不同位置的patch之间的相似值。接下来,对Rntar-LR和Rnref-LR进行区域匹配,得到索引映射In和相似映射Sn。例如,我们首先计算Rntar-LR的第z区与Rnref-LR的第g区之间的相似度值,得到Snz,g,即在Rnref-LR中对应的相似度最大的那个patch,g就是那个patch在Fref-LR的补丁的下表,而索引映射就是这个最大相似度对应的下标映射。然后计算索引映射In和相似映射Sn的第z个元素:

  1. 多尺度特征映射

在得到索引和相似度映射后,将他们映射到不同比例尺的Rinref 的 patch上,确保多比例

度上的参考特征都包含和目标LR最相似的特征。如图三中的(b)。

根据索引映射,找到对应的Firef中的区域,然后和相似度映射想成得到对应的融合的加权特征块FiM。

具体来说,我们根据索引映射在Rinref补丁中提取相关区域RinM,然后将其与对应相似度映射作为相似权值Sn相乘,得到加权特征块FinM。 这里i表示不同尺度尺寸的参考特征,因为相似映射Sn是在LR尺度上获得的,因此当i>1的时候要对Sn进行插值。

上述过程为:

Up代表双线性插值。最后将n个patch合并得到多尺度匹配的参考特征,即FiM。

3.4多尺度特征聚合

如何将获得的多尺度匹配的参考特征融合到目标LR特征中是一个重要有挑战的步骤。对于低尺度的目标LR特征在上采样阶段融合不同尺度的匹配参考特征,可以充分利用匹配的相关信息,最大限度地恢复图像中的细节。本文设计MABi(i是对应尺度的数字)帮助目标LR聚合多尺度匹配的参考特征,即FiM。如图2,低尺度目标LR特征将金字塔顶部匹配的特征进行聚合,然后依次聚合不同尺度的参考特征。该方法确保了在上采样过程中,每个尺度上的目标LR特征都能充分利用匹配特征。如图4所示,该块由一个空间适应块(SAB)和一个联合残留特征聚合块(JRFAB)组成

图4. 多尺度聚合块,即上采样过程中目标LR的融合策略。SAB:空间适应块,JRFAB:联合残留特征聚合块。这种策略最大限度地利用了匹配参考特征中的信息。注意,ConvT2D的意思是ConvTranspose2D。

SAB(空间适应块):

对于多对比MR图像在不同对比下即使反映相同的解剖结构,也会有不同的颜色和亮度增强匹配的参考特征与目标LR特征分布的一致性,我们使用SAB将匹配的参考特征分布重新映射到目标LR分布上

对目标LR特征进行2x上采样,然后和匹配的参考特征F(i-1)M连接。使用步幅为1,3*3的2D卷积得到两个参数α和β,计算未采样目标LR特征的标准差和均值,并计算Star-LR和Mtar-LR来更新α和β。对F(i-1)M进行实例归一化,对α和β进行运算得到转移的参考特征F(i-1)M

JRFAB(联合残差特征聚合块):

得到转移的参考特征(重新映射到目标LR分布上的参考特征),使多尺度特征更充分的融合,

使用JRFAB将聚合过程分成两支即转移的参考分支、目标LR分支如图4(b)。

转移的参考分支用来增强转移的参考特征中的高频细节,可以表述为:

Conv表示步幅为2的3*3 Conv2D,ConvT表示步幅为2的3×3 ConvTranspose2D。同样目标LR特征中高频信息的细化表示

最后将两个分支的输出连接起来,经过3*3的conv2D(步幅为1)之后得到MABi的输出。

注意,当FiM 具有和Ftar-lr相同尺度时,SAB中的LR特征不需要上采样,JRFAB中用conv2D代替convT2D。

3.5损失函数

重建损失:用范式1像素损失作为重建损失,改善SR图像的整体细节,命名为Lrec:

其中Isr为重建MR图像,Ihr为原始HR MR图像。

k-space 数据一致性损失

重构后的SR图像may丢失原始HR图像中的部分频域信息。引入k-space 数据一致性阻止这一点。Ksr 和 Khr表示Isr和Ihr的快速傅里叶变换,利用Rlr进行采样判断。若Ksr中的系数已经采样,则替换为Khr中的系数,否则保持不变。得到K-space图像的最终保真度,过程表示为:

其中,Rlr定义为LR掩码,n≥0为噪声级别(这里n设置为无穷大),[a, b]为矩阵索引操作。我们使用均方误差(MSE)来测量KDC和KHR之间的误差为:

最后,McMRSR网络的全部目标被定义为:

我们设置λrec = 1和λdc = 0.0001,使不同损失项的大小平衡在相似的尺度上,使其贡献合理。

5.结论

本文提出一种新的用于多对比度MRI SR 重建的transformer-empowered 的多尺度上下文信息匹配和聚合网络这个模型可以充分利用参考图像中的包含的信息,2x4x规模上得到的SR图像质量接近目标HR图像。通过利用上下文匹配和聚合不同尺度的参考特征,为目标LR特征提供足够的补充信息。结果表明,该方法优于现有的磁共振多对比成像方法,具有临床应用潜力。

标签:Transformer,scale,匹配,特征,SR,尺度,empowered,LR,图像
From: https://www.cnblogs.com/wangzhe52xia/p/17699880.html

相关文章

  • Swin Transformer
    SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows使用移动窗口的分层视觉转换器阅读笔记摘要:提出SwinTransformer,作为计算机视觉的通用主干网络。将Transformer应用到是视觉领域的挑战就是语言和视觉两个领域的差异。本文提出的分层transformer,它的表......
  • TensorFlow PyTorch Transformer --GPT
    你是机器学习专家,请为我解答如下疑问:tensorflow,pytorch分别是什么?他们跟numpy的区别是什么?什么是深度学习,深度学习框架中的框架指的是什么?什么是机器学习,什么是transformer?transformer和tensorflow,pytorch的关系是什么?ChatGPTTensorFlow和PyTorchTensorFlow:这是一个由......
  • 基于Zynq UltraScale+ ZU11EG或者ZU19EG的高性能载板
    概要QT7024板卡是一款高性能的FMC/FMC+载板。板载1个HPC形式的FMC连接器和1个HSPC形式的FMC+连接器。板卡选用了1片ZynqUltraScale+MPSoC家族的XCZU11EG-2FFVC1760I芯片作为主控。其PS和PL各搭配1组9颗8bit1GB的DDR4-2400的SDRAM(其中一颗作为ECC校验),PS端还搭配了2颗256Mb的SP......
  • sv timescale
    timescale1timescale作用`timescale是Verilog中的预编译指令,指定位于它后边的module的时间单位和时间精度,直到遇到新的`timescale指令或者`resetall指令。它的语法如下:`timescaletime_unit/time_precision假如我们延时x个时间单位,那延时的总时间time=x*time_unit,但最后......
  • Nomad 系列-Nomad+Traefik+Tailscale 集成实现零信任安全
    系列文章Nomad系列文章Traefik系列文章Tailscale系列文章概述终于到了令人启动的环节了:Nomad+Traefik+Tailscale集成实现零信任安全。在这里:Nomad负责容器调度;(容器编排工具)Traefik负责入口流量;(Ingress工具)Tailscale实现跨地域联通,4层加密以及提供HTTPS证书......
  • 指令微调LLM进行推荐Recommendation as Instruction Following: A Large Language Mod
    原文地址:https://arxiv.org/abs/2305.07001本文作者将用户偏好、意图等构建为指令,并用这些指令调优一个LLM(3BFlan-T5-XL),该方法对用户友好,用户可以与系统交流获取更准确的推荐。INTRODUCTIONLLM是建立在自然语言文本上的,它不能直接适应基于行为数据的推荐系统。为了减少两者的g......
  • Spikformer: When Spiking Neural Network Meets Transformer
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!PublishedasaconferencepaperatICLR2023(同大组工作) ABSTRACT我们考虑了两种生物学合理的结构,脉冲神经网络(SNN)和自注意机制。前者为深度学习提供了一种节能且事件驱动的范式,而后者则能够捕获特征依赖性,使Trans......
  • ViTPose+:迈向通用身体姿态估计的视觉Transformer基础模型 | 京东探索研究院
    身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点,除了典型的身体骨骼关键点,还可以包括手、脚、脸部等关键点,是计算机视觉领域的基本任务之一。目前,视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来很好的性能。在身体姿态估计任务上,使用CNN提取的特征,结......
  • CMT:卷积与Transformers的高效结合
    论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕获远程依赖关系,利用cnn提取局部信息。构建了一系列模型cmt,它在准确性和效率方面有更好的权衡。CMT:体系结构CMT块由一个局部感知单元(LPU)、一个轻量级多头自注意模块(LMHSA)和一个反向残差前馈网络(IRFFN)组成。 ......
  • ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响
    前言 本文研究了Transformer类模型结构(configration)设计(即模型深度和宽度)与训练目标之间的关系。结论是:token级的训练目标(如maskedtokenprediction)相对更适合扩展更深层的模型,而sequence级的训练目标(如语句分类)则相对不适合训练深层神经网络,在训练时会遇到over-smoothin......