小罗碎碎念
今天分享的是北航发表的一篇文章,至于为什么要推荐它,过一段时间应该就会和大家分享原因了,哈哈。
好的,废话不多说,进入正题,今天这篇文章的题目是【Kernel Attention Transformer for Histopathology Whole Slide Image Analysis and Assistant Cancer Diagnosis
】,翻译一下就是“用于组织病理学全切片图像分析及辅助癌症诊断的内核注意力转换器(Kernel Attention Transformer)”
摘要
该论文针对传统转换器模型在应用于吉像素级别的组织病理学图像时所遇到的局限性,提出了一种基于内核的交叉注意力范式,以有效地提取分层上下文信息。KAT
模型在大规模数据集上进行了评估,并在WSI分类任务中超越了8种最先进的方法。
本文的主要贡献包括KAT
的引入、一种用于描述结构信息的基于锚点的标记遮罩方法,以及一种用于提高可解释性的内核对比表示学习策略。论文的结构分为讨论相关工作、提出KAT模型的方法论、实验结果和讨论等部分。
源码
https://github.com/zhengyushan/kat
数据集
https://github.com/Zhengyushan/kat/tree/main/dataset/tcga_lung
一、引言
基于图像处理和深度学习的组织病理学全切片图像(WSI)分析已经在建立计算机辅助癌症筛查[1]–[3]、肿瘤分级[4]–[6]、预后分析
[7]–[9]、基因突变预测[10]、[11]等应用中显示出其有效性。
近期,自然场景图像识别和目标检测中广泛研究的视觉转换器(Vision Transformer,ViT
)[12]、[13]被引入到这一领域[14]–[16]。理论上,转换器(Transformer)的自注意力机制使其能够检测图像局部特征的有用空间和光谱关系。
最近的研究[17]–[19]已经证明,与之前的方法相比,基于Transformer的模型可以进一步提高WSI分类的准确性。然而,当应用于包含吉像素
的WSI时,转换器中的自注意力操作,即主要操作,会出现显著的问题。ViT中的位置嵌入是为自然感觉图像数据集设计的,例如ImageNet[20],其中所有图像大小相同,例如224×224。图像块按照一致的顺序排列,为ViT标记提供位置信息。然而,组织病理学WSI的大小和形状并不固定,不同WSI中的组织区域差异很大。这使得来自不同WSI但在某个标记中具有位置不一致性,甚至在仅提取前景特征以填充标记的设置下,出现位置冲突。这使得ViT在描述WSI的结构信息方面变得模糊,从而影响了其在依赖组织分布的细粒度WSI分类任务中的性能。
其次,自注意力操作允许每个转换器块中标记的等效结合。然而,用于WSI诊断的特征期望从局部级别到全局级别分层提取。此外,自注意力操作的复杂度为O(n²),假设n表示标记的数量。面对生成成千上万个标记的WSI时,转换器的推理变得相当低效。这些问题限制了基于转换器的WSI分析方法的性能和效率。
在本文中,我们提出了一种名为内核注意力转换器(Kernel Attention Transformer,KAT
)的新型模型,用于全切片图像分析和辅助癌症诊断的流程图。与常见的转换器结构相比,所提出的KAT
能够描述WSI局部区域的分层上下文信息,因此在组织病理学WSI描述和分析方面更为有效。同时,基于内核的交叉注意力范式保持了与WSI大小近线性的计算复杂度。
所提出的方法在包含2040个WSI的胃癌数据集、包含2560个WSI的子宫内膜数据集和包含3064个WSI的肺癌数据集上进行了评估,并与8种最先进的方法[12]、[14]、[18]、[21]–[23]进行了比较。实验结果证明了所提出的KAT在组织病理学WSI分类任务中的有效性和效率,并优于现有技术。
本文的贡献可以概括为以下三个方面
- (1) 提出了一个名为内核注意力转换器(KAT)的新型模型。与ViT[12]相比,标记的自身注意力被标记和一组内核之间的交叉注意力所取代,以实现信息传输。实验已经证明,基于内核的交叉注意力对WSI分类的性能具有竞争力,同时显著减少了ViT在训练和推理阶段的计算复杂度。
- (2) 为KAT设计了一种基于锚点的标记遮罩方法,用于描述组织病理学全切片图像的结构信息。具体来说,基于图像块的空间位置定义了一组锚点,并将它们绑定到KAT中的内核。然后,创建了分层的基于锚点的软遮罩,以指导交叉注意力感知WSI的多尺度特征。这有助于KAT从WSI的局部到全局尺度学习分层表示,从而实现更好的WSI分类性能。
- (3) 提出了一种内核对比表示学习(
Kernel Contrastive Representation Learning,KCL
)策略,以提高KAT在WSI分析中的有效性和可解释性。基于KCL,内核标记能够提取更具辨别力的区域表示,这对于构建信息丰富的辅助WSI诊断系统具有很大潜力。
二、相关工作
组织病理学全切片图像(WSI)的吉像素特性使得在当前计算机硬件的限制下构建端到端的分类模型成为一个挑战性任务[24]。因此,现有方法通常将任务分为几个阶段。
WSI分析的一种流行方法是基于补丁分类[25]–[27]。例如,Wang等人[27]基于WSI的注释训练了一个补丁级别的卷积神经网络(CNN),以选择具有辨别性的补丁,然后基于这些补丁构建了一个重新校准的多实例深度学习(RMDL)模型,以实现WSI分类。这些方法通常依赖于病理学家的细粒度注释。这限制了在缺乏注释的临床情况下应用的可能性。
为了实现无注释的WSI分类,Divide等人[28]提出将WSI划分为补丁,并通过训练一个补丁级别的卷积神经网络(CNN)[29]将这些WSI压缩成特征立方体,然后使用第二个CNN从这些特征立方体中预测WSI的标签。最近,Xiang等人[30]提出了一种双流卷积神经网络,它同时采用WSI缩略图图像和转换后的补丁嵌入作为输入。这种多级建模策略的性能优于以前的方法。这些方法不依赖于注释,并已证明对WSI分类有效。然而,第二个CNN的输入大小限制使得通常涉及大量背景数据的填充特征立方体在训练和应用阶段都存在大量的计算浪费。
更典型的是,多实例学习(MIL)被引入这个领域,并成为全切片图像分类最受欢迎的技术之一[21], [31]–[40]。Ilse等人[32]提出了一个基于注意力的MIL模型,其中用于补丁特征提取的CNN和用于特征聚合的注意力模块可以端到端地训练。然后,Campanella等人[34]基于WSI标签,即在WSIs的tok-K个置信补丁中,提出训练一个补丁特征提取器,然后训练一个递归神经网络(RNN)[41], [42],基于这些tok-K
补丁实现WSI分类。这些方法的性能取决于在数据集中训练的CNN。而且,top-K策略难以应用于细粒度的WSI亚型任务。
最近,基于嵌入的MIL方法得到了广泛研究[21], [37], [40]。典型的是,CLAM
[21]利用在ImageNet数据集[20]上预训练的CNN作为补丁特征提取器,并通过设计的多类注意力模块实现多类型WSI分类。基于MIL的方法的主要弱点是,局部区域通常被视为单独的实例。这些实例的结构和空间分配信息很少被考虑,这在面对依赖组织结构模式的WSI分类任务时会导致显著的精度下降。
为了描述子区域之间的关系,提出了基于图的建模方法用于WSI分析[18], [23], [36], [43]–[45]。在[43]和[44]中,基于特征空间中的补丁相似性为WSI构建了图。研究[18], [23]基于WSI上补丁的邻接构建了图,其中补丁的空间关系得到了适当的描述。基于这些图,可以通过图神经网络(GCNs)实现WSI分析。
最近,Transformer结构[12], [22], [46]被用于WSI分析[14], [19], [47]–[50]。与RNN、MIL和基于GCN的模型相比,Transformer使得补丁之间的通信更为广泛。这个优点决定了它在细粒度WSI分析方面更有前景。然而,自注意力操作使得Transformer在计算量和内存成本上都变得昂贵,这是现有方法试图解决的问题。
例如,Huanget al. [47]利用随机采样减少送入Transformer的补丁数量。Li et al. [19]应用可变形Transformer[51]减少自注意力操作的计算复杂度。典型的是,TransMIL[14]配备了线性近似的自注意力模型,Nystr¨omformer[22],以保持较低的内存成本。
此外,TransMIL通过金字塔位置编码生成器(PPEG)模块增强了空间描述能力。但其设计仍然假设组织是一个固定大小的正方形区域,尚未妥善解决位置不一致和冲突的问题。
本文试图解决ViT在应用于WSI分析时在结构信息保留和计算效率方面的固有问题。这部分工作已经在会议论文[52]中提出。
三、讨论
值得注意的是,KAT中的内核与表示WSI上明确位置的锚点绑定。因此,我们可以将内核的表示视为对应锚点遮罩所在区域的特征,其语义级别高于补丁级别的表示。此外,所提出的分层遮罩策略使得内核表示能够描述不同尺度上的组织。这些内核的性质使得KAT能够为辅助诊断产生更易于解释的输出。这是我们选择在内核表示上建立对比约束,而不是在补丁表示上建立的一个动机。
在我们框架中,验证数据的一个作用是进行早停,我们在图4e
中报告了在验证数据上达到的最佳AUC。
这是不同λ
设置结果看起来非常接近的一个原因。实际上,我们发现λ
对模型训练过程有显著影响。
图10绘制了五个试验的平均宏观AUC作为训练周期的函数,每个曲线的最佳值用点标记。当λ=0.001
和λ=0
时,即没有对比损失时,最佳AUC出现在训练的早期阶段。但随着训练的继续,AUC下降。这意味着模型已经过拟合到验证数据。相比之下,当设置λ=0.01
和λ=0.1时,AUC随着训练的进展稳定增加,并在训练结束时达到最佳值。这表明模型对未见数据(例如测试数据)具有很好的泛化性能。这就是为什么λ=0.1
的模型在测试集上比没有对比损失的模型取得了显著的改进,如表II所示。
基于这些结果,我们得出结论,加权λ=0.01
和λ=0.1
的对比损失适合我们的方法。
SimCLR [61],MoCov2 [62]和BYOL [54]是在组织病理学WSI分析中应用的流行的自监督表示学习框架。SimCLR通常需要多达4096的大批量以获得完全性能[61]。MoCov2需要大小为65K的内存库和多个GPU以获得完全性能[62]。相比之下,BYOL
在不依赖内存库的同时,保持了对小批量大小256[54]的满意性能,这在计算上效率更高。此外,它在多个下游任务上实现了比SimCLR和MoCov2更好的性能[54]。这些特性使我们选择BYOL
作为CNN和KAT的表示学习器。
在我们之前的工作[52]中,我们利用EfficientNet-B0
[63]作为特征提取器,原因是它在以前基于ImageNet数据集[64],[65]预训练的EfficientNet-B0
的研究中实现了整体最佳性能。但是,通过扩展研究,我们发现当在对比表示学习范式下训练时,ResNet-50
相对于EfficientNet-B0
从0.71%到1.83%的宏观AUC稳定提高。我们推测主要原因是对比表示学习需要相当数量的参数才能达到良好的性能。因此,在本工作中,我们将特征提取网络从EfficientNet-B0
更改为ResNet-50
。
子宫内膜数据集和胃癌数据集的亚型的真实情况是由资深病理学家认证的。胃癌数据集中的HGIN亚型是介于LGIN亚型和腺癌之间的边界肿瘤,这在临床诊断中相对难以区分。在实验中,我们还观察到比较模型对LGIN、HGIN和腺癌亚型有明显的预测混淆,这与临床诊断一致。类似地,MDEA是WDEA和LDEA之间的中间组织病理学类型,因此对这些亚型的预测也存在明显的混淆。这是所有比较模型在这两个数据集上获得相对较低的准确性和F1分数(约0.5到0.6)的主要原因。
所提出的方法利用点积操作,遵循Transformer,来计算锚点表示和补丁表示之间的交叉注意力矩阵。理论上,点积操作也可以被其他操作所替代,例如径向基函数(RBF)和拉普拉斯核函数,如[66]中所建议的。
还有一些相关工作构建可训练的向量,并执行交叉注意力操作以进行细粒度的图像理解。这些可训练的向量在[67]中被称为学习部分字典。在更近的工作[68],[69]中,这些向量也被称为内核。所提出的模型的总体结构完全遵循Transformer,包括使用LayerNorm模块、MLP的结构、残差连接的使用、多头设计以及KA块的堆叠策略。这就是我们称所提出的模型为内核注意力Transformer的原因。
当前模型定义了均匀分布的遮罩来指导锚点学习特定组织区域,这是一种通用的建模策略,没有考虑到癌症类型之间的差异。这是工作的一个缺点,可以进一步改进。未来的一个工作重点将是基于可训练的相对距离嵌入构建对癌症类型敏感的锚点遮罩,以提高组织结构的描述能力。另一个未来的工作重点将是将内核与WSI的诊断报告对齐,并基于KAT构建案例级别的视觉-语言模型,以实现更智能的计算机辅助癌症诊断。
标签:基于,WSI,补丁,内核,KAT,全局,注意力,病理学 From: https://blog.csdn.net/qq_45404805/article/details/137033888