（多模态）MedM2G: Unifying Medical Multi-Modal Generation via CrossGuided Diffusion with Visual Invariant

标签：Diffusion 模态 Multi via 模型生成医学对齐扩散

1. 摘要

医学生成模型以其高质量的样本生成能力而闻名，加速了医学应用的快速增长。然而，目前的研究主要集中在针对不同医疗任务的单独医学生成模型上，受限于医学多模态知识的不足，制约了医学的综合诊断。在本文中，我们提出MedM2G，即医学多模态生成框架，其关键创新是在统一模型内对齐、提取和生成医学多模态。超越单一或两种医疗模式，我们通过统一空间中的中心对齐方法有效地对齐医疗多模式。值得注意的是，我们的框架通过保留每个成像模态的医学视觉不变性来提取有价值的临床知识，从而增强了多模态生成的特定医学信息。通过将自适应交叉引导参数调节到多流扩散框架中，我们的模型促进了医学多模态之间的灵活交互。第一个医学生成模型，统一了文本到图像、图像到文本的医学生成任务，并统一了医学模式(CT、MRI、x射线)的生成。它在10个数据集上执行5个医疗生成任务，始终优于各种最先进的工作。

2. 引言

近年来，各种基于去噪扩散模型的先进医学生成工作显著提高了医学诊断任务的效率，如医学文本到图像、图像到文本生成任务、MRI- ct事务任务、MRI合成任务。医学模态的生成集中于捕获每个模态的独特的特定医学知识，并扩展到相应的医学应用。

然而，大多数这些医学生成模型依赖于不同的单流管道来完成专门的生成任务，过程繁琐且缓慢。在现实世界的医疗场景中，需要整合多种医疗模式进行分析，这种生成方法在其扩展方面面临着实质性的限制。此外，最近先进的多模态生成工作在提取特定医学知识和利用有限的医学配对数据以获得跨模态生成能力方面面临挑战。这些促使我们构建一个统一的医学生成模型，能够处理多种医学模式的任务。目前仍存在一些不容忽视的挑战，包括:

(1)多种医疗模式之间的巨大差异给实现一致性带来了重大挑战，并带来了高昂的成本。

(2)与一般领域的图像不同，医学成像模式(CT、MRI、x射线)各有其特定的临床特征。传统的统一对准方法往往会导致混合。

(3)与使用大型匹配良好的跨模态数据库预训练的一般多模态生成模型不同，缺乏医学跨模态配对训练数据集给医学多模态生成能力的再训练带来了困难。

为了应对上述挑战，我们提出了MedM2G，这是一种统一的医学多模态生成模型，创新地在统一模型中对齐、提取和生成多种医学模态，如图1所示。MedM2G通过与多个扩散模型交互实现医学多模态生成。主要动机是解决以下问题:

1)MedM2G可以生成任意模式的配对数据。我们利用生成的数据来预训练和提高下游任务(分类、分割、检测、翻译)的性能。

2) MedM2G可以弥补稀缺医疗模态的生成。

3) MedM2G可以融合并生成多模态，用于医学综合分析。

4) MedM2G可以在一个统一的模型内处理多个任务，实现SOTA结果。

具体来说，扩展到以高效成本对齐多个医疗模式，我们首先提出了在输入和输出共享空间中有效采用的中心对齐，它简单地将每个模式的嵌入与文本嵌入对齐，从而实现所有模式的对齐(第4.2节)。值得注意的是，为了保持跨模态概念生成特有的三种医学成像模式的特定医学知识，我们提出了通过最小化两个增强视图的非对角线元素来更好地提取医学视觉不变性保存(第4.3节)。此外，促进医学跨模态的交互是至关重要的，因此我们将自适应表示和可共享的跨注意子层置于每个跨模态扩散器中(第4.4节)。结合提出的多流训练策略(第4.5节)，我们的模型可以无缝地处理多个医疗生成任务，而无需跨模态配对数据集。我们在相应的10个数据集上对5个医学多模态生成任务进行了广泛的实验。综合实验验证了该方法的有效性并且MedM2G在对齐、提取和生成多种医疗模式方面的效率。我们的贡献总结如下:

•我们提出MedM2G，这是第一个统一的医疗多流生成框架，能够对齐、提取和生成多种医疗模式。

•我们提出了以自适应参数为条件的多流交叉引导扩散策略，以有效地生成医学多模态，并配合医学视觉不变保存来保持特定的医学知识。

•MedM2G在5个医学多模态生成任务和10个相应基准上获得了最先进的结果，说明了多模态医学生成的新能力。

3. 相关工作

3.1. 扩散模型

扩散模型(DM)通过描绘正向扩散阶段来获取数据分布，并通过从有噪声数据样本中恢复无噪声数据来逆转这一扩散过程。对于最近的扩散工作，一些模型通过相邻像素的相关性生成高质量的样本，而其他模型则试图构建潜在语义空间以提高效率。DDP获得了学习逆扩散过程的能力，该过程将输入图像转换为潜在空间，并利用解码器将这些潜在变量映射回重建数据结构的输出图像。DDPM利用扩散过程，优化加权变分界，该变分界是通过在概率扩散模型和使用Langevin动力学的去噪分数匹配之间的创新连接构建的。DDIM引入了一个隐式扩散过程，以最小的成本和更高的质量产生来自潜在变量的确定性样本。另一项研究引入了一种自适应学习方法，可以逐步调整噪声参数，以达到更高的质量和速度。LDM采用VAE将输入嵌入到潜在空间中，降低建模维数，提高效率。这些工作主要集中在增强单流扩散管道上，缺乏在统一模型中处理多流生成的能力。为了克服这一点，一些多模态生成工作在一般领域中有效地处理多模态，但受限于医学模态的巨大差异和缺乏良好配对的数据集。如何有效地提取医学信息，同时将多种模式对齐到统一的空间中，仍然是一个挑战。

3.2. 医学生成模型

最近，在医学成像领域，基于扩散的方法的使用激增，其中包括各种医学生成任务，如医学图像到文本生成任务，文本到图像任务，以及医学图像到图像任务(例如MRI- ct， MRI合成，x射线- ct)。对于单模态翻译，CoLa-Diff将脑区掩膜作为密集分布先验引入扩散引导。GoentGen设计了一个预训练的潜在扩散模型来解决大量的自然医疗分布差异。对于多模态生成任务，SynDiff利用条件扩散过程将噪声和源图像逐渐转化为目标图像，实现高保真合成。MTDiffusion提出了去噪扩散概率和分数匹配模型，用于生成高质量的CT图像。BrainGen采用快速扩散先验与对抗映射过程相结合的方法来实现高效的图像生成。这些作品是为单一模式或两种模式之间的转换而设计的，这促使我们利用统一的生成扩散模型来对齐和生成多种医学模式。

4. 方法

在本节中，我们提出了MedM2G，一个能够对齐和生成多种医学模式的统一医学生成模型。图2显示了主要结构，其中包括(a)中央对齐策略(b)医学视觉不变性保存(c)具有多流训练结构的潜在交叉引导扩散过程。

4.1. 初步：潜在扩散模型

我们的扩散模型基于LDM，它由一个正向过程和一个反向过程组成。LDM根据方差步骤βt，通过多个时间步骤t扩散潜变量z，并通过由θ参数化的UNet εθ，经过t步的噪声重建zt。这些过程可以参数化为

我们的Works： MedM2G通过三个步骤扩展到统一多个医疗模式生成任务:对齐、抽取、生成。

(1) MedM2G在有限配对数据集上使用中央对齐解决方案在统一空间中有效地对齐多个医疗模式(第4.2节，4.5节)。

(2)通过医学不变性提取每个模态的有效临床知识用于生成任务(第4.3节)。

(3)对于多模态生成，我们提出了具有可训练自适应参数的交叉引导对齐扩散，以进一步提高多模态的相互作用(第3.4节)。

4.2. 统一中线

为了使我们的模型具有对齐和集成多种医学模式(文本、CT、MRI、x射线)的能力，我们最初将四个提示编码器( $C_M:C_{T},C_{MRI},C_{CT},C_{x}$ 射线)对齐到一个统一的共享空间中。然而，以成对的方式优化多个编码器会增加大量的计算负担，o(n^2)。此外，缺乏完美匹配的用于训练跨模态框架的医学多模态数据对，如x射线- mri数据对。

中心对齐：为了解决上述两个挑战，如图2 (a)所示，我们开发了一种“中央对齐”方法，以o (n)对有效对齐多个模态。由于文本模式存在于大多数医学跨模态配对数据中，我们首先选择文本模型T作为中心来对齐其他三种医学成像模式，记为M。之后，我们继续与其余模式之间的成对对齐。给定一个模态的医学特征 $x^A_i$ 和其他模态的特征 $x^B_i$ ，通过InfoNCE对比损失对 $z^A_i = C_T (x^A_i)$ 和 $z^B_i = C_B (x^B_i)$ 进行对齐，

式中，τ为调节softmax分布柔软度的标量温度，j为负样本。我们采用对称损失LA,B + LA,B使嵌入 $q^A_i$ 和 $k^B_i$ 更接近对偶模态。

模态对对齐：以文本- x射线对为例，基于对称损失，在文本- x射线配对数据集上训练文本和CT提示编码器 $C_t,C_{Xray}$ ，并冻结其他编码器的权重。其余的编码器也与文本模态在相同的共享空间中对齐。之后，使用4.2节中描述的对齐方法在现有的配对数据上训练其他配对模态(文本除外)，冻结其他模态编码器的参数。这种对齐方法可以在所有模式中使用有限的配对数据进行自发和有效的对齐。值得注意的是，没有良好配对数据的医学多模态(CT、MRI、x射线)也可以在同一空间内隐式对齐，从而提供多功能生成的能力。

4.3. 医学视觉不变性保存

为了维持三个医学成像模式的有价值的临床信息,我们设计了一个医疗视觉不变量保存方法来提取高质量的医学特性表征图2 (b)。对于每一个医学成像模式M,给定由医学图像 $X^M$ 组成的数据集 $D^{'}$ ，为每个医学图像特征生成两个增强视觉 $X^M_1,X^M_2$ ,然后将他们送入编码器中获得两个增强embedding $\left \{ {\widetilde{Z}^M_1},\widetilde{Z}^M_2 \right \}\in \mathbb{R}^{N \times d}$ ,其中N为批大小(batch size)，d为特征维度(feature dimension)。然后我们沿着batch K维对增广嵌入的归一化再训练。归一化 $\widetilde{Z}^M$ 的特征维度服从{0， $\frac{1}{\sqrt{K}}$ }标准偏差分布。接下来计算他们的互相关矩阵 $C^M={\widetilde{Z}^M_1}\top \widetilde{Z}^M_2$ 。

视觉不变性保存的目标 $L^M_{VR}$ 是最小化互相关矩阵的非对角元素，同时最大化对角元素，其定义为:

其中λ1为非负平衡超参数，遵循Barlow孪生体（Barlow twins）的默认设置。

这样，多种医疗模式都在一个统一的共享空间中对齐。人们可能会注意到，通过保持视觉不变性，每种成像模式的医学临床知识也得到了很好的维护。值得注意的是，VI模块被优化为无负目标(Barlow twins)，而不是一般的正负损失，其目的是明智地解开潜在空间特征。

4.4. 潜在交叉引导对齐生成

如图2 (c)所示，我们建立了潜在的交叉引导对齐生成结构，该结构旨在获取不同模式之间的自适应交互信息，用于医学多模式生成。对于医学单模态生成，我们首先训练医学文本、CT、MRI和x射线模态的单个LDM。这些扩散模型随后通过提出的交叉引导对齐生成方法训练医学多模态生成。

guded adaptation(引导适应):

为了充分促进医学多模态的交互，我们将B的模态表示倒置为连续引导的可训练自适应 $f_B$ ，以捕获跨模态概念生成所特有的有价值的临床知识。根据文本反演方法，我们将 $f_B$ 初始化为从模态B中随机抽样 $z_B = C_B (x_B)$ 的一组上下文参数，通过嵌入层Femb后大小与交叉模态a大小相同

φs是抽样策略，可训练参数 $f_B$ 整合到A的模态生成过程中，并通过直接优化上述Eq. 2中的损失函数，协助在统一的潜在空间内对齐医学跨模态表示。

交叉条件：具体来说，基于3.1节所示的LDM，我们的跨模态扩散模型旨在为模态A和B设定一个条件。我们将模态A和B在扩散步骤t处的潜在变量分别表示为 $z_t^A,z_t^B$ 。我们首先通过上下文编码器 $V_B$ 将 $z_t^B$ 和自适应参数 $f_B$ 投影到另一模态的共享潜在空间中，然后采用模态A的UNet的交叉注意子层对齐到 $V_B([z_t^B,f_B])$ 。上下文编码器设计成将隐变量嵌入到统一的共享隐空间中。最后，我们的模态A扩散模型的训练目标可以形式化为:

4.5. 多流训练策略

多流训练策略使模型能够在没有良好配对数据的情况下具有医学多模态生成能力，通过第4.2节中的中心对齐进行线性过程。我们的pipeline由扩散模型和用于多流训练的VI（Medical Visual Invariant Preservation）模块组成。我们首先为每种医疗模式采用预训练的扩散模型。然后，这些扩散模型通过3轮配对训练(文本- x射线、文本- ct、CT-MRI)进行“交叉引导对齐”，有效地进行联合多模态生成。如图3所示，我们首先在文本- x射线配对数据集上训练上下文编码器VT、VXray以及文本和x射线扩散器的交叉注意子层权重。然后冻结文本扩散器的可训练参数，在文本-CT配对数据集上训练上下文编码器VCT和CT扩散器的交叉注意子层权重。最后，我们冻结了CT扩散器的可训练参数，并在MRI-CT配对数据集上训练了上下文编码器VMRI和MRI扩散器的交叉注意子层权重。在这个多流训练过程中，我们提出的统一扩散模型可以只用三个医疗配对数据集处理多个医疗生成任务(第5节)。

5. 数据集和实现细节

数据集：我们使用MIMIC-CXR[23]、MedICat[51]、脑肿瘤MRI和CT扫描[2]数据集预训练我们的统一扩散模型，用于中央对齐。MIMIC-CXR[23]包含大量x射线数据，包括377,100张胸部放射学图像和227,835份相应的患者报告。MedICat[51]是一个背景医学图像数据集，包括来自131,000篇可免费获取的生物医学论文的217,000张图像。脑肿瘤MRI和CT扫描数据集[2]包含4500个二维MRI-CT切片。我们遵循官方的数据分区指南，并过滤成对的数据集以对齐不同的模式。附录b中详细介绍了使用相应数据集的不同预训练任务。为了评估我们的模型对齐和生成医学多模态的能力，我们在10个数据集上进行了评估，包括5个医学文本到图像、图像到文本、图像到图像和多模态生成任务。实验设置，即设置40多个参数和训练/微调过程，详见附录C, D, L。

医学多模态生成任务：我们跨BraTS 2020[2]和IXI[21]数据集进行MRI合成任务实验。对于MRI-CT翻译任务，我们在Gold Atlas男性骨盆数据集上进行训练和评估[35]。我们还在MIMIC-CXR[23]和Chest X-ray[7]数据集上进行胸部x射线生成任务。

医学文本图像生成任务：我们评估了 MIMIX-CXR [23] 和 IU X 射线 [9] 上的医疗报告生成任务，并在 Chest X 射线 [54]、SLIVER07 [16]、ACDC [1] 数据集上微调医学图像生成任务。我们都遵循官方数据拆分和数据集微调任务的详细信息可以在附录 C 中找到。

时期	任务	数据集	模态
训练	统一扩散和中心对齐	MIMIC-CXR	x-ray、text
		MedICat	text、image
		脑肿瘤MRI和CT扫描[2]	MRI、CT
	MRI合成	BraTS 2020[2]和IXI[21]
	MRI-CT翻译	Gold Atlas
	X-Ray生成	MIMIC-CXR[23]和Chest X-ray	x-ray、text
	报告生成	MIMIX-CXR [23] 和 IU X 射线
	图像生成	Chest X 射线 [54]、SLIVER07 [16]、ACDC [1]
评估	图生文	IU X-ray、MIMIC-CXR	image、text
	文生图	ACDC
		Chest X-ray14
		SLIVER07
	MRI合成	IXI[21]和BraST[2]
	X-Ray生成	MIMIC-CXR[23]和Chest X-ray

实现细节：我们在6个NVIDIA 3090 gpu上用3个设置训练MedM2D:医疗文本- x射线，text-MRI, MRI-CT。这些训练组合是为各种下游任务设计的。在训练过程中，我们保持接近LDM的扩散设置[41]，即不同扩散模型的扩散步长设置为1000，并采用线性噪声调度，β0和βT分别为0.00085和0.0120。医学图像LDM的学习率设为2e−5，文本LDM的学习率设为5e−5。医学图像扩散模型的权重由Stable diffusion -1.5初始化[41]，医学文本扩散模型的权重由Versatile Diffusion 初始化[56]OPTIMUS [28]-BERT[10]和GPT-2 [38] VAE。图像模态的批处理大小为256，文本训练的批处理大小为1024。我们还采用DDIM[49]采样器作为采样策略，并设置了50个采样步长，η和指导标度分别设置为1.0和2.0。对于扩散模型，医学图像和文本扩散模型的z形分别设置为4 × 64 × 64和768 × 1 × 1。图像和文本LDM的深度分别为4和2。对于扩散模块中的交叉注意引导层，我们采用Adam[26]优化器，其学习率和权值衰减分别为1e−5和1e−4。由于篇幅限制，我们在附录D中进行了详细的扩散模型结构、超参数和配置。

6. 实验和结果

为了证明MedM2G的优异性能，我们对MRI(表2)、CT(表6)、x射线(表5)5个医学图像到图像生成任务以及10多个数据集的多报告生成任务(表1)和医学图像生成任务(表4)进行了大量实验。我们还对微调数据集和图4 (c)中统一的医学多模态生成能力进行了定量评估(图4和5)。消融研究见表7，多模态生成模型之间的比较见表9和图7。

6.1 与SOTA方法的比较

医学图像到报告的生成 如表1所示，对于医学图像到文本的生成任务，我们使用IU X-ray[9]和MIMIC-CXR[23]来评估生成的报告与注释报告之间的相似性得分。可以看出，我们的模型优于先进的基于gan的作品[4,5]，以及训练良好的Med-VLP作品[20,30,53,55,58,59]，在两个数据集上分别达到了0.416和0.309的ROUGE-L。大量的增强强调了多流交叉引导扩散过程在模态对准中的有效性。

此外，我们还展示了图4（a）中用于定性分析的可视化样本。与将医学领域特定知识设计到训练中的SOTA模型Kiut[20]相比，我们的模型在生成更准确和语义更丰富的报告方面表现更好。MedM2G旨在促进多种模式之间的互动，以获得广泛的生成能力。大多数MeSH术语都被正确预测（以绿色表示），包括“纵隔”和“胸膜积液”等术语。

医学文本到图像的生成 在表4中，我们比较了Chest X-ray14[54]、ACDC[1]和SLIVER07[16]数据集，通过评估其特征分布与真实图像的相似性(FID)来量化生成的图像。

与先进的生成式对抗网络和具有高分辨率医学图像生成能力的文本到图像扩散工作相比，我们提出的模型在上述3个数据集上可以显著降低SOTA工作的FID，分别为0.82、4.30、1.56。此外，我们在表3中对更相关的SOTA医学模型采用了更合理的评价指标(PSNR、SSIM、NIQE)来验证其优胜性。总的来说，我们在5个评估指标上取得了SOTA结果。这表明MedM2G在医学双向文本图像生成方面具有优越的生成能力。我们也在图4 (b)中展示了定性分析。与SOTA模型GLINGEN[25]相比，我们的模型在基于输入的医疗报告精确和语义地生成关键病理区域描述的能力方面表现出色。

医学MRI合成如表2所示，我们在IXI[21]和BraST[2]数据集上对四种模式进行了MRI合成任务。我们指定一个目标模态，同时使用其余模态作为条件因素。这表明我们的模型优于先进的基于gan的生成模型[47,60,63]。此外，与卓越的扩散工作[22,41]相比，我们的模型在BraST数据集中的T2+T1ce+FLAIR-T1的PSNR上大大超过了1.63 dB。一种可能的解释是，与医学视觉不变量的统一中心对齐促进了多模式的医学知识对齐，以合成准确和高质量的MRI。如图5 (a)所示，我们在IXI数据集上展示了我们的模型生成的高质量MRI[21]。与先进的生成模型CoLa-Diff[22]相比，我们的模型在生成复杂的脑沟和肿瘤边界方面表现优异，同时有效地保留了解剖结构。我们在附录G中给出了更多的比较。

医学MRI-CT翻译 我们在表6中将MedM2G与SOTA生成作品进行了比较，包括基于扩散的模型[17,45]和基于gan的作品[6,19,31]，以及基于注意力gan的作品[15,62]。我们提出的模型在所有四种MRI-CT模态转换任务上都有最好的表现(p< 0.05)。此外，我们观察到MedM2G在所有任务的平均PSNR上分别比SOTA工作SynDiff[36]高出0.59dB、0.92dB、1.42dB和1.47dB。这表明我们的模型在生成更精确和高解剖保真度的CT扫描方面具有优势，具有统一的交叉引导对齐扩散和视觉不变保存。

胸部x线生成 如表5所示，我们通过FID和MS-SSIM指标对MIMICCXR[23]和chest X-ray[7]数据集上的胸部x射线生成任务进行了保真度和多样性。MedM2G优于所有SOTA作品[27,41,42,57]，这些作品都使用大规模临床文本数据集进行预训练，平均达到1.7FID和0.38 MS-SSIM。得益于多流交叉引导扩散过程和医学视觉不变量，我们的模型在生成更高保真度和多样性的x射线方面具有显著优势。同样，如图5 (c)所示，我们展示了MedM2M在精确生成双肺、心脏和气管轮廓以及相应的胸部异常结节区域方面的优越生成能力。

统一多模态关节生成 为了展示扩散模型内医学多模态的统一生成能力，我们还在图4 (c)中展示了高质量的医学多模态生成结果。很明显，根据提供的医学描述，我们的模型可以同时生成MRI、CT和x射线的多个模态(列2-4)。通过三种模式生成的医学图像准确地确定了医学异常区域，如第一行中的“退行性变化”。我们还在附录h中提供了更多MedM2G的联合多模态生成样本。值得注意的是，MedM2G是第一个不仅在文本和图像之间进行生成的医学生成模型，也是MRI、CT和x射线之间医学多模态生成的桥梁。不同的模态可能包含互补的信息。请注意，我们的“交叉导向对齐”是在配对良好的开源数据上训练的，确保没有冲突的信息。实验表明，不产生互补。

6.2 消融实验

如表7所示，我们进行了消融研究来验证所提出方法的有效性。我们以MIMIC-CXR数据集预训练的LDM[41]模型为基线，如表7第1行所示。

Table 7. Ablation study on the MIMIC-CXR(test set), ACDC, BraTS2020, and the Pelvis datasets. "CA" represents the central alignment strategy. "LCGA" is the Latent Cross-guided Alignment Generation procedure, and "VI" represents the medical visual invariant.

标签：Diffusion,模态,Multi,via,模型,生成,医学,对齐,扩散
From： https://blog.csdn.net/sinat_25267157/article/details/141468431