上交团队发布PathoDuet：面向H&E和IHC病理切片的自监督学习基础模型｜文献精析·24-09-09

小罗碎碎念

本期主题：HE&IHC

今天分享的文献于2024年7月31日发表于Medical Image Analysis，目前IF=10.7，作者来自上海交大。

作者类型	姓名	单位	单位翻译
第一作者	Shengyi Hua	Qing Yuan Research Institute, Shanghai Jiao Tong University, Shanghai 200240, China	清源研究院，上海交通大学，上海 200240，中国
通讯作者	Xiaofan Zhang	Qing Yuan Research Institute, Shanghai Jiao Tong University, Shanghai 200240, China	清源研究院，上海交通大学，上海 200240，中国

通讯作者简介

谷歌学术主页

文献速览

这篇论文介绍了PathoDuet，这是一个针对组织病理学图像（包括H&E和IHC染色）的基础模型系列，以及一个新的自监督学习框架。

研究背景：
- 问题：组织病理学评估是诊断特定癌症的金标准，主要依赖于病理学家对H&E染色切片和IHC染色切片的分析。然而，深度学习技术在诊断过程中的整合进展缓慢，部分原因是某些任务的标注数据有限。
- 难点：病理图像的标注过程需要专业知识，既耗时又耗资源。此外，病理图像与自然图像之间的差异使得现有的自监督学习方法难以直接应用。
- 相关工作：现有的基础模型主要依赖于自监督学习（SSL）方法，如对比学习（CL）和掩码自编码器（MAE）。这些方法在自然图像上表现出色，但在病理图像上需要特殊设计。
方法：
- 提出了一个新的自监督学习框架，通过引入预文本标记和任务提升器来利用图像之间的关系，如多倍镜检和多种染色。
- 设计了两个预文本任务：跨尺度定位和跨染色转移。跨尺度定位任务通过在低倍镜下识别整体结构和高倍镜下分析局部细节来增强对H&E图像的理解。跨染色转移任务则利用H&E模型的知识来理解和解释IHC图像。
- 在跨尺度定位任务中，模型通过将局部视图和全局视图的表示桥接起来，使用三个分支的网络架构，其中一个分支用于局部视图，另一个分支用于全局视图，第三个分支用于跨尺度定位。
- 在跨染色转移任务中，模型通过自适应实例归一化（AdaIN）将H&E特征转换为IHC风格的特征，使用两个分支的网络架构，一个分支用于H&E图像，另一个分支用于IHC图像。
实验：
- 在多种下游任务上验证了所提出模型的性能，包括H&E图像的结肠癌组织分型和全视野图像（WSI）分类，以及IHC图像的IHC标记表达水平预测、肿瘤识别和WSI级定性分析。
- 在结肠癌组织分型任务中，PathoDuet模型在100%训练数据下的准确率为0.964，F1分数为0.950，优于大多数对比模型。
- 在IHC标记表达水平预测任务中，PathoDuet模型在5%训练数据下的准确率为0.755，加权F1分数为0.732，表现出色。
- 在跨站点肿瘤识别任务中，PathoDuet模型在部分新域数据可用的设置下表现最佳，准确率为0.900，F1分数为0.881。
结果与分析：
- 实验结果表明，PathoDuet在大多数任务中优于其他对比模型。通过跨尺度定位和跨染色转移任务，模型能够更好地理解病理图像，并在多种下游任务中表现出色。
- 模型在数据需求方面也表现出色，能够显著减少下游任务的数据需求。
总体结论：
- PathoDuet展示了在计算病理学中开发和应用基础模型的重要性。通过结合领域知识和精心设计的SSL方法，即使在数据有限的情况下，也能取得优异的性能。
- 未来的工作将致力于收集更多数据以迭代和升级模型。

一、绪论

组织学评估是诊断特定癌症的金标准，主要依赖于病理学家的专业知识。

该评估主要基于苏木精-伊红（H&E）染色切片的分析，提供基本的结构信息。病理学家可以通过使用功能性染色，如免疫组化（IHC）来提供额外的诊断见解。

随着技术的发展，高通量的数字扫描仪已彻底改变了病理数据的获取方式。尽管数据量大，但深度学习技术在诊断过程中的整合进展相对缓慢，部分原因在于某些任务的标注数据有限。病理图像的标注过程需要专业知识，因此资源消耗大且耗时。

为解决这一挑战，基础模型作为一种可能的解决方案出现。这些模型通常利用无标注数据的潜力，减少对标注数据的依赖，从而有效地转移到下游任务。

现有基础模型主要依赖于自监督学习（SSL）方法。

SSL的本质是从数据本身生成监督信号，这一过程通常被称为预训练任务（Jing和Tian，2020）。作为SSL方法的主导分支，对比学习（CL）受到了显著关注（He等，2020；Chen等，2020；Oquab等，2023）。CL通常关注利用图像相似性来区分和归类图像。

另一个分支，以掩码自编码器（He等，2022）为特征，利用图像生成来提升模型的了解。与生成式SSL方法相比，CL在转移到区分性任务时表现更好（Shekhar等，2023）。

因此，考虑到许多病理任务与识别高度相关，本研究选择了CL。

然而，将针对自然图像设计的CL方法直接应用于组织病理学图像需要谨慎考虑。

CL认为大多数图像应具有语义独特性。一种常见做法是将同一图像的不同视图拉近，并将不同图像在语义空间中分离。

然而，病理全切片图像（WSI）被裁剪成更小的补丁以适应大多数模型的输入大小要求，限制了裁剪补丁与邻近补丁在语义上的差异性。过度隔离这些补丁可能导致语义空间的过度碎片化，从而影响模型性能。

因此，需要针对组织病理学图像的本质，特殊设计对比预训练任务。

病理学家的典型工作方法是检查过程中习惯于放大和缩小。

首先，他们使用低倍率观察整体结构和组织，确定需要进一步检查的区域；随后，在高倍率下分析单个细胞或细胞簇，对已识别区域进行理解和分类。

为模拟病理学家的放大和缩小操作，作者将一个预训练任务定义为“跨尺度定位”，利用大规模公共H&E数据集开发H&E染色的基础模型。

在此任务中，除了在CL中常用的不同增强图像视图的两个分支外，作者还添加了一个从邻近区域学习补丁表征的分支。这种操作使补丁能够从更广泛的角度理解，从而缓解了CL对语义分割的要求与病理补丁集中的矛盾。

此外，病理学家经常使用额外的功能性切片进行更全面的诊断。

特别是，IHC标记物被频繁使用，为癌症亚型提供宝贵见解。然而，没有H&E染色切片，无法有效解读IHC切片。H&E切片作为基本参考，提供必要的上下文信息和结构细节，以补充从IHC切片获得的特定分子信息。

因此，理想的IHC染色基础模型应能够根据标记物的表达水平评估IHC图像，并在组织结构方面与H&E模型在语义空间中对齐。在有限的公开可用IHC数据下，作者利用训练好的H&E基础模型，并引入“跨染色转移”预训练任务，以深化对不同染色方式的病理图像的理解。

作者引入了一个预训练令牌机制来统一两个提出的任务。

这两个任务都需要不同形式的辅助输入，即更小的补丁或染色提示。

与设计一个单独的网络来处理附加输入不同，作者在整个网络训练过程中将带有辅助信息的额外令牌输入到视觉变换器（ViT）模型（Dosovitskiy等，2020）中，从而将跨尺度或跨染色信息与原始表征相结合。

随后，通过精心设计的模块，称为任务提升器，明确关联这两种形式。这种机制以轻量级方式丰富了模型发现和利用任务与染色方式之间内在相关性的能力。

Fig. 1 提供了PathoDuet的概览，展示了两个预训练任务和一系列下游任务的框架。

左侧：预训练任务

跨尺度定位（Cross-scale Positioning）：
- 目标：通过模拟病理学家在不同放大倍数下观察切片的过程，设计了一个“跨尺度定位”任务。该任务利用大规模公共H&E数据集来开发H&E染色模型的基础模型。
- 方法：除了常用的两个不同增强图像视图的分支外，还增加了一个分支，用于从邻近区域学习补丁的表示。这使得补丁可以从更广泛的角度理解，从而缓解CL对语义分割的要求与病理补丁集中之间的冲突。
跨染色转移（Cross-stain Transferring）：
- 目标：设计了一个“跨染色转移”任务，以从现有的H&E基础模型中获取IHC解释器。由于IHC数据有限，利用H&E模型的知识来增强对IHC图像的理解。
- 方法：通过自适应实例归一化（AdaIN），将H&E特征转换为IHC风格的特征，从而注入H&E图像中可用的结构信息，同时保留IHC图像中的诊断信息。

右侧：下游任务

H&E图像的下游任务：
- 补丁级结肠癌组织分型：评估模型在H&E图像上的基本区分能力。
- 全视野图像（WSI）级分类：评估模型对病理切片的全局理解能力。
IHC图像的下游任务：
- IHC标记表达水平评估：评估模型对IHC图像的基本理解能力。
- 跨站点肿瘤识别：评估模型在不同数据集上的泛化能力。
- WSI级IHC定性分析：评估模型在IHC图像上的诊断能力。

Fig. 2 展示了PathoD焕在该研究中的整体性能表现。

每个任务都以训练数据集、特殊设置和评估指标命名。H&E任务用紫色表示，IHC任务用黄色表示。

H&E任务

NCT-CRC-HE数据集上的线性评估：
- 使用不同比例的训练数据进行评估，展示了模型在不同数据量下的性能。
- 结果显示，随着训练数据量的增加，模型性能逐渐提升，但在大多数情况下，提升幅度较小。
NCT-CRC-HE数据集上的全微调：
- 使用整个NCT-CRC-HE数据集进行评估，展示了模型在全面微调后的性能。
- 结果表明，PathoDuet在全微调策略下表现出色，准确率为0.973，F1分数为0.964。
CAMELYON16数据集上的WSI分类：
- 使用CLAM-SB框架进行多实例学习（MIL）评估。
- 结果显示，PathoDuet在CAMELYN16数据集上的准确率为0.930，AUC为0.956。
TCGA-NSCLC数据集上的WSI分类：
- 使用CLAM-SB框架进行多实例学习（MIL）评估。
- 结果显示，PathoDuet在TCGA-NSCLC数据集上的准确率为0.908，AUC为0.963。
TCGA-RCC数据集上的WSI分类：
- 使用CLAM-SB框架进行多实例学习（MIL）评估。
- 结果显示，PathoDuet在TCGA-RCC数据集上的准确率为0.954，AUC为0.993。

IHC任务

PD-L1表达水平评估：
- 使用不同比例的训练数据进行评估，展示了模型在不同数据量下的性能。
- 结果表明，PathoDuet在有限训练数据情况下表现出色，尤其是在5%训练数据下，准确率为0.755，加权F1分数为0.732。
跨站点肿瘤识别：
- 设计了四种不同的评估场景，展示了模型在不同数据集和域迁移情况下的性能。
- 结果显示，PathoDuet在部分新域数据可用的设置下表现最佳，准确率为0.900，F1分数为0.881。
CD5标记的WSI级定性分析：
- 使用CLAM框架进行评估。
- 结果显示，PathoDuet在CD5标记上的AUC为0.924，准确率为0.840。
CD10标记的WSI级定性分析：
- 使用CLAM框架进行评估。
- 结果显示，PathoDuet在CD10标记上的AUC为0.909，准确率为0.835。
CD21标记的WSI级定性分析：
- 使用CLAM框架进行评估。
- 结果显示，PathoDuet在CD21标记上的AUC为0.740，准确率为0.626。

二、数字病理学中的自监督学习

随着计算机视觉中SSL框架的发展，其概念和一些现有方法已被迁移到组织病理学。

除了传统的预训练任务，一些研究在数字病理学中设计了特定的预训练任务。

放大预测（Sahasrabudhe等，2020；Koohbanani等，2021）和染色预测（Koohbanani等，2021）是利用病理图像特性的两个简单任务。

分辨率序列预测（Srinidhi等，2022）是一个易于监督且性能显著的专用任务。其他方法则利用染色。RestainNet（Zhao等，2022），顾名思义，通过分离苏木精和伊红通道模拟去染色和重新染色过程。Ling等（2023）使用自监督方法实现不同领域病理图像的任意染色转换。

这些方法虽然考虑了组织病理学图像的特征，但其性能取决于预训练任务与下游任务之间的关联。

基于CL框架的一些工作

Huang等（2021）、Li等（2021）、Ciga等（2022）、Kawai等（2023）直接将传统的CL方法迁移到医学数据上，而一些研究考虑到组织病理学图像的独特性，提出了修改后的SSL框架。

CTransPath（Wang等，2022）保留了MoCo v3的主体，但添加了伪正选机制以避免语义相似补丁的假惩罚，并使用混合CNN-Transformer作为其主干编码器。同时，Wang等还提出了聚类引导的对比学习方法，并产生了模型RetCCL（Wang等，2023b）。

CS-CO（Yang等，2022）将组织病理学图像分为H通道和E通道，并在第一阶段使用跨染色预测任务，在第二阶段使用基于CL的方法。Abbet等（2022）利用领域信息。同时，一个研究方向专注于超大像素的全切片图像（WSIs）（Vu等，2023；Wang等，2023a；Lazard等，2023；Aryal和Yahyasoltani，2023；Schirris等，2022）。

近期，使用超大数量数据预训练的病理模型显示了其优越性。

Chen等（2023）收集了10万张幻灯片来预训练UNI模型，使用DINO v2框架；Virchow（Vorontsov等，2023）则使用了150万张幻灯片。

此外，一些研究着眼于多模态方法，如视觉-语言学习，并在大规模图像-文本数据集上预训练模型（Huang等，2023；Pisula和Bozek，2022；Lu等，2023；Zhang等，2023），但重点更多在于利用强大的语言模型。

综上所述，自监督学习在计算机视觉和数字病理学领域都有显著的发展。在计算机视觉领域，基于对比学习的方法因其关注不变特征而显示出优越性，而在数字病理学领域，特定的预训练任务和修改后的SSL框架被提出以适应病理图像的独特性。

此外，预训练模型的性能在很大程度上取决于预训练任务与下游任务之间的关联性。随着技术的发展，使用超大数量数据预训练的模型以及多模态方法的应用，为病理学研究和临床实践带来了新的可能性。

三、实验部分

3-1：预训练阶段

预训练阶段分为两个阶段，首先是预训练H&E模型，然后是转移到IHC模型。

在第一阶段，作者在MoCo v3框架下使用H&E数据集执行跨尺度定位任务。在下一阶段，作者使用跨染色数据集对H&E模型执行跨染色转移任务。

H&E数据集来源于TCGA，这是一个包含基因组、表观遗传组、转录组和图像数据的大规模公共数据集。在这项工作中，作者从其中收集了约3万张WSI，并选择了约1.1万张用于诊断的甲醛固定石蜡包埋（FFPE）WSI进行训练。

补丁在最高放大级别下裁剪，大小为256 × 256像素，而在次高级别下的区域大小为1024 × 1024像素。因此，区域与补丁之间的物理尺寸比例通常约为8。最终，获得了1,623,258个区域和13,166,437个补丁。

跨染色数据集来源于HyReCo（Lotz等，2022；van der Laak等，2021）和BCI数据集（Liu等，2022）。

HyReCo数据集包含九个连续切片的数据集，每个数据集包含分别用H&E、CD8、CD45和Ki67染色的四张切片。额外的PHH3染色切片是从褪色的H&E切片中重新染色的。总共获得了2,771对H&E和一种IHC的图像。

BCI数据集包含4,873对H&E和HER2图像，其中3,896对用于训练，977对用于测试。作者只使用3,896对训练对。为了获得更多训练数据，作者以另一种分辨率裁剪这些图像，最终在第二个任务中使用了21,126对。

在H&E模型的下游任务中，作者首先进行了补丁级别的结直肠癌（CRC）组织类型识别。这一任务旨在评估模型在细胞和组织层面的区分能力。其次，作者进行了WSI级别的分类，以检验模型对整体图像结构和组织布局的理解能力。

对于IHC模型，作者首先执行了IHC标记物表达水平的典型评估任务，这是评估模型对IHC图像中特定蛋白表达情况的理解能力的关键。此外，作者还进行了跨站点肿瘤识别任务，以展示模型在不同数据源上的泛化能力和对IHC图像的基本理解。

3-2：下游任务

1、补丁级别的组织亚型识别

补丁级别的组织亚型识别是计算机病理学中最重要的任务之一，尤其是在H&E图像中。

这项任务通过将全切片图像（WSI）裁剪成补丁，然后对补丁进行分类来完成。这种方法不仅研究了模型的原生能力，而且模拟了实际场景，提供了一种相对简单的方式来测试模型对H&E补丁的基本理解能力。

在实验中，预训练模型被用作裁剪补丁的特征提取器，后面接一个分类层。实验采用了两种不同的策略：一种是典型的线性评估策略，即只更新新添加的线性层，其余部分保持冻结；另一种是完全微调策略，这种策略更可能在实践中应用，预训练模型与线性分类器一起训练。

实验使用NCT-CRC-HE数据集，这是一个专门针对结直肠癌的病理图像数据集，包含9种组织类型，其中一种代表正常组织，其余8种代表结直肠癌组织。该数据集包含10万个大小为224 × 224像素的训练补丁和7,180个测试补丁。

在表1中，作者评估了提出的H&E模型在不同数量训练数据下的线性评估方法。

结果显示，作者的模型在不同数量的训练数据下表现良好，优于其他预训练模型。

在表2中，作者展示了使用整个NCT-CRC-HE数据集在不同训练策略下模型的性能。

结果显示，提出的模型在快速线性迁移和彻底的全微调协议下都是H&E图像的良好解释器。性能的提升可以归因于跨尺度定位任务，它增强了模型在更广泛视角下的理解能力。

为了验证这一假设，作者后续进行了消融研究。UNI也提供了不错的性能，这表明它在病理学上有很好的理解能力和强大的ViT-Large架构。

2、WSI级别的分类

WSI级别的分类与现实世界场景密切相关，处理单元是WSI而不是小补丁。

在实践中，WSI分类任务通常是弱监督的，因为只提供了全局注释，而WSI级别的标签可能只对应于其中的一小部分区域。因此，这个任务挑战了模型对病理图像全局理解的能力。

最近的研究（Campanella等人，2019；Shao等人，2021；Lu等人，2021）已经证明了多实例学习（MIL）在WSI弱监督分类中的有效性。这些基于MIL的方法通常遵循两步方法。

首先，WSI被划分为更小的补丁，利用预训练模型生成补丁级特征。其次，通过使用各种特征融合技术（包括循环神经网络（RNN）或基于Transformer的聚合器（Campanella等人，2019；Shao等人，2021）和基于注意力的池化（Lu等人，2021））来聚合补丁级特征，以生成WSI级别的预测。

对于预训练模型，作者冻结参数，并使用基于注意力的CLAM作为框架来执行MIL过程。

作者使用准确率（Acc）和受试者操作特征曲线下的面积（AUC）评分来评估WSI分类任务。当类别数量大于2时，使用宏观平均AUC。

在三个WSI级别数据集上评估了这一任务：CAMELYON16（CAM16）、TCGA非小细胞肺癌（NSCLC）和TCGA肾细胞癌（RCC）。

CAMELYON16数据集作为Camelyon16挑战的一部分发布，专注于两种乳腺癌的分类：良性组织和转移性乳腺癌。数据集包含总共399张全切片图像，其中270张用于训练，129张用于测试。尽管数据集提供了详细的像素级注释，但在弱监督分类的背景下，作者只利用全局切片级注释，即WSI是否包含肿瘤区域。

在设置方面，作者遵循CLAM，冻结作者的预训练模型，并使用Adam作为优化器，批量大小为1（WSI/袋）和权重衰减为0.00001。学习率设置为0.0002， epochs为50。

对于CAMELYON16数据集，作者采用官方的CAMELYON16挑战数据分割。对于TCGA-NSCLC和TCGA-RCC数据集，作者使用5折蒙特卡洛交叉验证以获得更稳定的结果。

在结果方面，在表3中，各种方法在三个不同的公共数据集上进行了比较。

UNI在这三个数据集上都取得了最佳成绩，展示了其在理解病理切片方面的强大能力。排除UNI，作者的模型在这些三个数据集上都表现出色，例如，在CAMELYON16中准确率提高了3.1%，在TCGA-NSCLC中提高了0.3%，在TCGA-RCC中提高了1.1%。这表明使用跨尺度定位任务可以有效增强病理图像的全局理解能力。

对于其他模型，病理模型在大多数情况下超越了原始CLAM和ImageNet模型，但优势并不一致。这可能归因于ImageNet获得的强大的泛化能力和全局理解，尤其是当视觉编码器被冻结时。

3-3：使用免疫组化（IHC）图像进行的下游任务

4.3.1. IHC表达水平的评估

评估IHC标记的表达水平是病理学家评估IHC切片的主要工作。

作者将其形式化为一个补丁级别的多类分类任务，因为简单的回归可能会忽视某些具有诊断意义的分数。作者手动选择了几个与病理学家检查密切相关的阈值，创建了一个罕见表达、轻度表达、中度表达和重度表达的补丁的4类分类任务。

在数据集方面，由于公共数据集的稀缺性，作者使用了内部数据集。作者从同一医疗中心收集了两组带有PD-L1标记的IHC补丁。在详细注释表达评分后，作者选择了0.05、0.2和0.5作为阈值，从而创建了一个4类分类任务。

在设置方面，作者保持了与第4.2.1节中相同的部分线性分类设置。对于完整的训练数据，批量大小为128，对于5%的训练数据，批量大小为64，学习率为0.02。

在结果方面，在表4中报告了不同模型在不同数量训练数据下的性能。

整体结果表明，H&E图像的病理基础模型对IHC图像有一定的洞察力，因为作者可以看到相对于ImageNet模型而言，其性能更优。

当作者关注个别模型时，作者的IHC模型在大多数指标上表现出色，特别是在有限的训练数据情况下。值得注意的是，CTransPath在训练数据充足时也表现出色，SimCLR-ciga在训练数据有限时提供了第二好的性能。这可能归因于它们使用了一些IHC图像作为预训练数据。

此外，尽管UNI在预训练时没有看到IHC图像，但它仍然展现了对IHC图像的强大泛化能力。当任务难度增加时，显式转移到IHC模型的优势更加明显。这表明，尽管H&E模型在足够的训练数据下可以提供令人满意的结果，但对于有限的标注数据，显式转移是必要的。

2、跨站点肿瘤识别

正如之前所提到的，识别IHC图像中的肿瘤细胞具有重要意义，但对于没有辅助H&E图像的病理学家来说，这是困难的。因此，这个任务可以进一步检验模型在这方面的能力。同时，通过来自两个不同站点的数据，作者可以进一步调查模型在分布外设置下的泛化能力。

在数据集方面，数据集也是私有的，包括来自两个医疗站点的IHC图像。注释简单地分为阳性（包含肿瘤细胞的图像）和阴性（不包含任何肿瘤细胞的图像）。

在设置方面，作者同样采用了线性探测方法。在Set L → Set S、Site 2 Seen和Site 2 Unseen设置中，批量大小为128，学习率为0.005。在Set S → Set L设置中，批量大小减少到64。所有模型的最大epoch数也设置为50以达到收敛。

在结果方面，在表5中报告了不同模型在四个评估场景下的性能。

在应用内站点设置时，ImageNet监督ViT、CTransPath、UNI和作者的IHC模型都表现出出色的性能。当在另一个站点进行测试时，ImageNet模型显示出减弱的性能。同时，作者的模型在部分可用的新领域数据设置中表现最佳，并在纯分布外设置中保持性能。

其他病理模型在另一个领域有一些先验信息时表现良好，但当测试集完全不可见时，可能无法保持这种优势。

3、IHC切片的定性分析

除了补丁级别的IHC任务外，直接从IHC切片进行诊断也非常重要。因此，作者收集了一些不同的IHC标记的切片，并邀请了一些专家为每张切片给出阳性或阴性标签。

这个任务进一步检验了模型在给定特定标记的情况下评估IHC切片的能力。作者仍然使用CLAM作为训练方法。评估指标包括AUC、准确率（Acc）、F1分数、召回率、精确率和特异性。

在数据集方面，数据集包括3种IHC标记：CD5、CD10和CD21。对于每种标记，作者收集了超过250张切片，并为每张切片标注了阳性或阴性标签。具体来说，作者收集了124/189张CD5阳性/阴性切片、139/111张CD10阳性/阴性切片和115/150张CD21阳性/阴性切片。作者使用每个标记单独进行5折交叉验证。

在结果方面，在表6至表8中，作者展示了CD5、CD10和CD21的切片级别预测结果。如果作者把这三张表作为一个整体来看，作者可以看到ImageSSL、SimCLR-ciga、CTransPath、UNI和作者的模型提供了相对良好和稳定的性能。

对于ImageSSL，一个有趣的事实是，它在所有统计数据上都超过了ImageSup。一个合理的猜测是，自监督学习帮助模型在很少见的领域中进行泛化。

对于SimCLR-ciga和CTransPath，如前所述，它们可能受益于一些用于预训练的IHC数据。对于UNI，它仍然表现出出色的性能，展示了其惊人的泛化能力。

对于作者的模型，它提供了杰出的性能，在所有三个数据集中至少获得了第二好的AUC，而没有其他模型能够做到这一点。这应该归功于跨染色转移，它利用了现有的H&E模型和少量的配对IHC和H&E数据。

总体来看，作者可以得出类似的结论。H&E图像的基础模型可以作为理解IHC图像的良好选择，与使用自然图像训练的模型相比。然而，当任务的难度相对较高，即大范围变化和有限的注释数据时，专门的IHC模型可以提供更多的见解。

四、讨论

为了验证跨尺度定位是否增强了模型的全局理解能力，作者选择了WSI分类任务，因为它与全切片的全局理解更相关。作者比较了使用作者的数据集纯粹预训练的MoCo v3模型和使用跨尺度定位的模型（命名为MoCo v3和+XSP）的性能。

从表9的结果可以看出，后者的模型在大多数指标上都优于纯粹的MoCo v3模型。

这些结果可以证明跨尺度定位有助于模型从更广泛的视角理解图像。此外，作者还对NCT-CRC-HE数据集进行了消融实验，如表10所示，在应用跨尺度定位任务后，性能略有提升。

在完全微调设置中，性能提升的幅度不大，这是合理的，因为两个模型共享相同的模型架构。如果作者把表9和表10的结果结合起来看，作者可以得出结论，跨尺度定位有助于模型更好地理解H&E图像。

从表11的结果中可以看出，显式转移有助于在强大的H&E基础上理解IHC图像，尤其是在训练数据有限的情况下。

标签：24,模型,09,任务,作者,图像,IHC,病理切片,数据
From： https://blog.csdn.net/qq_45404805/article/details/142055311