小罗碎碎念
今天分享的这篇文章于2024-05-21发表于Cell Reports Medicine。
这篇文章介绍了一个深度学习系统,该系统能够通过分析组织学图像来预测肿瘤微环境(TME),并提高癌症患者的预后准确性。
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Ruitian Gao | 上海交通大学生命科学与生物技术学院生物信息与生物统计系 |
通讯作者 | Jing Sun | 上海交通大学医学院附属瑞金医院普外科 |
通讯作者 | Yu Guang Wang | 上海交通大学数学科学学院 |
通讯作者 | Zhangsheng Yu | 上海交通大学生命科学与生物技术学院生物信息与生物统计系 |
研究者开发的IGI-DL模型能够预测基于组织学图像的ST表达,与现有方法相比,在三种癌症类型中显示出更高的预测准确性。此外,该系统还能够构建基于预测的TME信息的超图,用于乳腺癌和结直肠癌患者的生存预测,显示出比传统模型更优越的性能。
总的来说,这项研究提供了一种新的方法,可以在没有空间转录组学数据的情况下,利用组织学图像来提高癌症预后的精确度,推动了精准医疗的发展。
一、引言
组织学图像因其丰富的形态学信息及临床易获取性,在生存预测因素中尤为突出。
得益于机器学习的快速发展,多项研究试图直接利用组织学图像预测癌症患者的预后(参考文献1–5)。然而,这些研究往往未能充分刻画肿瘤微环境(TME)在分子层面的复杂性,导致生物医学解释性差,准确性提升空间大。
TME在实体肿瘤的起始、演变和转移中起着关键作用,越来越多的研究揭示了TME与癌症预后及治疗方案的相关性(参考文献6,7)。空间转录组学(ST)技术可以从空间基因表达的角度表征TME,并解析癌症患者预后相关的组织学亚群(参考文献8,9)。
然而,ST的高成本和实验周期长限制了其在大型癌症患者队列中的生存预测应用。
近年来,许多研究有效利用组织学图像预测关键的分子生物标志物。
例如,Naik等(参考文献10)使用深度学习模型从苏木精-伊红(H&E)染色的乳腺癌图像中预测雌激素受体状态;Schmauch等(参考文献11)利用bulk RNA测序结果指导模型训练,从组织学图像中预测肿瘤基因表达;Saldanha等(参考文献12)使用群学习从结直肠癌的H&E染色切片中预测BRAF突变状态和微卫星不稳定(MSI);Wagner等(参考文献13)提出了一种基于transformer的模型,从结直肠癌的组织学图像中预测MSI、BRAF突变状态和KRAS突变状态。这些发现证实了可以通过图像细节推导分子层面的信息,指出了进一步研究的必要性。
先前的研究尝试从H&E染色的组织学图像预测ST,并成为当前最先进(SOTA)模型(参考文献14–18)。这些研究主要利用基于图像的深度学习技术,如卷积神经网络(CNNs)和视觉transformer(ViT),提取组织学图像的像素强度特征(参考文献19)。
基因空间表达与组织学图像中的几何信息紧密相关,包括组织结构和细胞分布。图神经网络(GNNs)在捕捉细胞结构几何方面具有优势,因此在生物医学研究中得到了广泛应用(参考文献20)。
本研究假设,在组织学图像的核分割中融入先前的生物学知识,并使用GNNs进行Nuclei-Graphs建模,可以提高ST预测的准确性,有助于刻画复杂的TME。
本研究是一项回顾性模型开发与验证研究,利用广泛可得的组织学图像,旨在规避ST的高成本和有限的临床应用。因此,作者开发了一个深度学习系统,能够使用组织学图像预测相应区域的高维基因表达,并为癌症患者进行生存预后。
作者致力于在没有ST数据的大型回顾性队列中,从组织学图像上描绘TME,从而提高癌症患者预后预测的精确度。
二、结果
2-1:概述
本研究开发了一个深度学习系统,旨在利用组织学图像描绘的肿瘤微环境(TME)来改善癌症预后预测。
该系统构建了两项连接以弥合现有差距,一项连接组织学图像与空间基因表达,另一项连接由空间基因表达描绘的TME与癌症预后(图1A)。
在第一项连接中,为了利用组织学图像中的像素强度和结构特征的优势,本研究设计了一个集成的图与图像深度学习(IGI-DL)模型。该模型采用卷积神经网络(CNNs)和图神经网络(GNNs)将H&E染色的组织学图像投影到基因表达空间。
作者在三种实体肿瘤类型——结直肠癌(CRC)、乳腺癌和皮肤鳞状细胞癌(cSCC)中测试了IGI-DL模型的能力。在第二项连接中,作者使用由IGI-DL预测的空间基因表达构建的超块图,在癌症基因组图谱(TCGA)数据集的CRC队列和乳腺癌队列中进行预后预测,并在分子和细胞肿瘤学结直肠癌(MCO-CRC)数据集的外部测试集中进行了验证(参考文献21–23)。
具体而言,该系统包括以下三个步骤:H&E染色组织学图像预处理、空间基因表达预测模型以及基于预测空间基因表达的超块图生存模型。
如图1B所示,每个H&E染色的组织学图像首先根据每个点的坐标分割成多个不重叠的200×200像素的块,分辨率为0.5 mm/pixel。
对于每个块,作者构建了一个Nuclei-Graph,其中每个由Hover-Net24分割的细胞核作为一个节点,每个细胞核对之间的距离决定了它们之间是否存在边。
遵循图1C所示的架构,作者使用IGI-DL模型预测组织学图像中每个点的目标基因表达。
为了进一步基于空间基因表达描绘的TME进行预后预测,作者从每个癌症患者的H&E染色的全切片成像(WSI)中构建了一个超块图。然后,作者使用构建的超块图和临床特征作为输入,建立了一个基于图的生存预测模型(图1D)。
在实体肿瘤样本中,IGI-DL对基因表达预测的性能评估
作者评估了IGI-DL在来自三种不同实体肿瘤类型(包括CRC、乳腺癌和cSCC)的组织样本上的性能,并将其与五个先前最先进(SOTA)模型——ST-Net、14 HisToGene、15 Hist2ST、16 DeepSpaCE和SEPAL、18进行了比较,这些模型在基于H&E染色的组织学图像的空间基因预测方面取得了SOTA性能。
不同模型预测的目标基因保持一致,除了少数模型在预处理过程中排除了少量目标基因。作者在每种癌症类型的留一患者交叉验证集上评估了所有模型,以确保报告的结果可以跨患者样本推广。
为了进一步验证泛化性能,作者在留一患者交叉验证集的所有患者上训练了IGI-DL和其他SOTA模型,然后将训练好的模型应用于外部测试集中的组织样本以预测空间基因表达。在推理阶段,作者计算了测试组织样本中所有点的每个目标基因预测值与真实值对数表达之间的皮尔逊相关系数。
2-2:结直肠癌(CRC)
在结直肠癌的研究中,作者使用了来自上海交通大学瑞金医院的10名CRC患者,通过10x Visium技术测序的10个空间转录组(ST)数据集,共计41,492个点作为留一患者交叉验证集(表S1)。
我们需要注意的是Tumor Location——肿瘤在结肠或直肠中的具体位置,例如降结肠(Descending colon)、升结肠(Ascending colon)、回肠末端(Ileocecal valve)、直肠(Rectum)、乙状结肠(Sigmoid colon)和结肠肝曲(Hepatic flexure of colon)。
作者迭代地在九名患者上训练IGI-DL模型,并在内部CRC数据集中剩余的一名患者上进行推断,然后将IGI-DL预测的179个基因的皮尔逊相关性与五个最先进(SOTA)模型进行比较。
IGI-DL在10名留出患者上实现了平均皮尔逊相关系数0.343,显著优于其他模型,平均提高了0.233(图2A;表1)。
在每位患者的模型性能比较中,作者的模型在大多数情况下保持了相对于先前模型的优越性(图S1)。
作者IGI-DL模型预测的前五个基因的平均相关性可达0.471(表S2),与其他模型相比平均提高了0.263。
在CRC外部测试集的两个10x Visium样本的8,437个点上,所有目标基因的真实值与IGI-DL预测值之间的平均相关系数为0.286,相较于其他五个模型平均提高了0.228(图2B和S2)。
IGI-DL在前五个基因的平均相关性上达到了0.389,比其他模型平均提高了0.235(表S2)。
图2C和S3展示了所有留出患者样本的实验空间表达水平与作者IGI-DL预测水平,其中EPCAM在所有目标基因的预测结果中排名第一,平均相关系数为0.485。EPCAM在外部样本中的皮尔逊相关系数可达0.386(图S4)。
特别是,EPCAM与CRC的发展和转移相关,并有助于预测肿瘤分期(参考文献25)。
2-3:乳腺癌
在乳腺癌的研究中,作者使用了来自27名患者的92个组织样本,通过传统ST技术测序的34,678个点作为留一患者交叉验证集(表S4和S5)。
作者迭代地在26名患者的所有样本上训练IGI-DL模型,并在剩余的一名患者样本上进行推断,然后比较IGI-DL预测的187个基因的皮尔逊相关性与先前模型。
IGI-DL在27名留出患者上实现了平均相关系数0.231(表1)。
图3A中的小提琴图显示,作者的IGI-DL模型在所有SOTA模型中表现最佳,平均提高了0.142。
当单独比较每位患者的模型性能时,作者的模型在大多数情况下表现最佳(图S5)。
IGI-DL在前五个基因的平均相关性上达到了0.398,比其他模型的平均性能提高了0.175(表S2)。TMSB10,与乳腺癌不良预后相关(参考文献27),在乳腺癌留一患者交叉验证集中的所有目标基因中排名第一,平均相关系数为0.408。
在留一患者交叉验证集的187个预测基因中,有186个存在于乳腺癌外部测试集中,该测试集包含来自一名患者的四个组织样本的995个点,通过传统ST技术测序。
IGI-DL预测的这些基因的平均皮尔逊相关系数为0.250,比其他五个模型平均提高了0.115(图3B;表1)。
IGI-DL在前五个基因的平均相关性上达到了0.640(表S2),表明比其他模型的平均性能提高了0.200。B2M,乳腺癌肿瘤发生和转移的关键调节因子(参考文献28),在乳腺癌外部测试集中的所有目标基因中排名第一,平均相关系数为0.727(图S6)。
2-4:皮肤鳞状细胞癌(cSCC)
在皮肤鳞状细胞癌的研究中,作者使用了来自四名患者的12个组织样本,通过传统ST技术测序的4,353个点作为留一患者交叉验证集(表S6)。
作者迭代地在三名患者的所有样本上训练IGI-DL模型,并在剩余的一名患者样本上进行推断,然后比较IGI-DL预测的487个基因的皮尔逊相关性与先前模型。IGI-DL在四名留出患者上实现了平均相关系数0.198,在所有模型中表现最佳,比其他最先进(SOTA)模型的平均性能提高了0.131(图3C;表1)。
当单独比较每位患者的模型性能时,作者的IGI-DL模型在大多数情况下仍然表现最佳(图S7)。
IGI-DL在前五个基因的平均相关性上达到了0.355,超过了其他模型的平均性能0.132(表S2)。KRT5,一种与鳞状细胞癌相关的基因(参考文献29),在cSCC留一患者交叉验证集中的所有目标基因中排名第一,平均相关系数为0.370。
在留一患者交叉验证集的487个预测基因中,有467个存在于cSCC外部测试集中,该测试集包含来自一名患者的四个组织样本的9,411个点,通过10x Visium技术测序。对于cSCC外部测试集中的四个样本,所有目标基因的真实值与IGI-DL预测值之间的平均相关系数为0.197,显著高于ST-Net、HisToGene、Hist2ST、DeepSpaCE和SEPAL,平均提高了0.176(图3D)。
作者的IGI-DL在前五个基因的平均相关性上达到了0.450,略低于DeepSpaCE 0.061,但高于其他四个模型。图3E可视化了外部测试集中一个顶级基因SFN的真实值和预测表达模式,平均相关系数为0.485。
2-5:跨平台和跨癌症类型性能
在不同癌症类型的内部验证集和外部测试集中,最佳SOTA模型并非固定不变,但作者的IGI-DL模型性能始终优于其他模型,平均提高了0.171(表1)。
对于cSCC,内部交叉验证集使用传统ST技术,而外部测试集使用10x Visium技术。尽管cSCC的内部和外部数据集存在这种差异,作者的IGI-DL模型表现依然强劲,显示出良好的跨平台泛化能力。
作者进一步研究了IGI-DL的跨癌症预测性能。在CRC上训练的模型在cSCC的内部验证集和外部测试集上表现良好,平均相关系数分别为0.204和0.143(表S7)。然而,大多数跨癌症预测性能低于在单一癌症类型上进行训练和测试。结果表明,肿瘤区域的空间基因表达具有一定的癌症特异性,表明跨癌症预测的内在难度。
2-6:IGI-DL的消融实验
为了探索在IGI-DL架构设计中整合几何和纹理特征的作用,作者进行了消融实验,比较了基于图像和基于图的模型与集成模型的性能。
如图4A和表S8所示,作者在内部CRC数据集上使用留一交叉验证来评估不同模型的性能。
对于预测179个目标基因,IGI-DL表现最佳,所有留出患者的平均相关系数为0.343。此外,IGI-DL在所有目标基因中有97.21%和77.09%的基因预测性能良好,所有留出患者的平均相关系数分别大于或等于0.20和0.30。综合考虑这三个评估指标,作者可以得出集成模型的总体性能优于基于图像和基于图的模型。
在不同的集成模型中,IGI-DL使用四层图同构网络(GIN)作为图特征提取器,ResNet18作为图像特征提取器,表现最佳。表S9列出了IGI-DL预测的前五个基因,并与其他模型进行了性能比较。消融实验的结果表明,IGI-DL中由基于CNN的图像分支和基于GNN的图分支提取的组织形态学中的纹理特征和几何信息的结合,可以提升预测空间基因表达的性能。
2-7:IGI-DL描绘的肿瘤微环境(TME)
为了探索IGI-DL不同隐藏层提取的特征模式及预测的基因表达,作者使用了统一流形近似与投影(UMAP)技术30将潜在空间投影到低维子空间中。
将作者内部CRC数据集中所有患者上训练的IGI-DL应用于NCT-CRC-HE数据集。如图4B所示,公共数据集在CRC H&E染色图像中具有典型的小块,带有不同的标签,包括淋巴细胞、癌相关基质和结直肠腺癌细胞。
基于157个基因(平均相关系数0.25)的斑点聚类结果在CRC样本上的良好预测,也能够展示TME的异质性,并刻画肿瘤区域局部微环境生态位(图4D和S8)。
综上所述,作者IGI-DL预测的空间基因表达模式有助于从组织学图像的角度进一步揭示TME。
2-8:超级斑块图的预后预测
作者将IGI-DL应用于从H&E染色的组织学图像中推断空间基因表达,构建了超级斑块图,并在The Cancer Genome Atlas乳腺癌(TCGA-BRCA)队列(表S10)和The Cancer Genome Atlas结直肠癌(TCGA-CRC)队列(表S11)中进行了5折交叉验证的预后预测,这些队列包含乳腺癌和CRC患者的WSI和生存数据。
作者比较了使用不同斑块特征提取方法构建的超级斑块图上的基于图的生存模型性能,包括IGI-DL预测的空间基因表达,以及DenseNet31和ResNet32提取的特征。
作者还与基于手工特征的传统Cox模型进行了比较。
如图5A所示,使用IGI-DL预测的空间基因表达作为超级斑块图中节点特征,可以提升作者生存模型在乳腺癌和CRC上的性能。
在TCGA-BRCA队列中,基于带有空间基因表达节点特征的超级斑块图的生存模型在5折交叉验证中可以达到平均一致性指数(C-index)为0.747,高于基于DenseNet、ResNet特征和传统Cox模型的0.714、0.687和0.627。在TCGA-CRC队列中,基于带有空间基因表达节点特征的超级斑块图的生存模型在5折交叉验证中可以达到平均C-index为0.725,高于比较模型的0.658、0.681和0.578(表S12)。
图5B展示了基于每个验证折中超级斑块图空间基因表达特征的乳腺癌和CRC患者总体生存的Kaplan-Meier曲线。
在大多数验证折中,高风险组(超级斑块图风险评分高于中位风险评分)的患者的总体生存明显短于低风险组。这些结果表明,预测的超级斑块图风险评分可以作为乳腺癌和CRC患者的独立预后指标。
作者进一步研究了基于空间基因表达的超级斑块图生存模型在早期患者(I期和II期)的预后性能。对于早期乳腺癌患者,5折验证的平均C-index为0.682,对于早期CRC患者,平均C-index为0.743(表S13)。
如图5C所示,所有患者和早期患者在每个验证折中的C-index有所波动,但总体而言,作者的模型在所有病例和早期病例的生存预后中取得了相当满意的表现。
2-9:外部测试集的预后性能
作者在TCGA所有CRC患者上训练了基于空间基因表达的超斑块图生存模型,并将其应用于一个外部测试集MCO-CRC,该测试集包括WSI和生存信息。
如图5D所示,作者的模型在MCO-CRC的1,210名CRC患者中的C指数为0.690,高于基于DenseNet特征、ResNet特征的超斑块图模型和基于手工特征的传统Cox模型,后三者的C指数分别为0.600、0.621和0.605。
这进一步验证了作者生存模型的预测优越性和泛化能力。作者计算了不同生存模型预测的风险评分的Spearman相关性。
基于空间基因表达的超斑块图模型预测的风险评分与基于DenseNet和ResNet特征的超斑块图模型以及基于手工特征的传统Cox模型之间的Spearman相关性分别为0.548、0.682和0.379(图S9)。
作者的生存模型基于图模型,考虑了WSI的整体空间结构,使作者能够捕捉肿瘤的异质性。同时,在使用Nuclei-Graph预测空间基因表达时,作者也充分利用了核的手工组织学特征中固有的信息。最终,作者的模型在所有比较模型中实现了最佳的预后性能。
图5E展示了基于空间基因表达特征的超斑块图风险评分的所有MCO-CRC患者总体生存的Kaplan-Meier曲线。
高风险组患者的总体生存明显短于低风险组。对于MCO-CRC中的早期患者,作者生存模型的C指数为0.684。如图5F所示,早期患者风险评分的中值也有效地区分了早期阶段内的高风险和低风险个体。
这表明预测的超斑块图风险评分可以作为所有阶段患者以及特定早期阶段患者的独立预后指标。
三、讨论
在快速发展的医疗数据领域中,本研究为基于大量癌症患者队列的组织学图像的肿瘤微环境(TME)分析和癌症预后提供了一个强有力的工具。
作者构建了两项连接以弥合当前研究中的现有差距。
第一项连接是组织学图像与空间基因表达之间的联系。IGI-DL能够使用高分辨率的H&E染色组织学图像预测众多目标基因的空间表达水平。IGI-DL的融合策略和特定架构直接提升了相较于仅基于图或图像的模型的预测性能。通过这些技术,GIN能够从Nuclei-Graph中捕捉核的形态学特征及其与周围细胞的关系,而从头训练的ResNet18则从图像像素矩阵中提取细胞外基质特征和局部组织环境条件。
第二项连接是空间基因表达描绘的TME与癌症预后之间的关系。以预测的空间基因表达为节点特征的超斑块图预测的风险评分可以作为独立的预后指标。这一指标能有效区分高风险和低风险的癌症患者,为制定个性化治疗方案和最终推进精准医学的发展提供了可能。
IGI-DL的预测性能展现出一定程度的跨平台能力。
在CRC和乳腺癌中,内部交叉验证集和外部测试集使用的ST平台是一致的,分别为Visium和传统ST技术。对于cSCC,内部交叉验证集使用传统ST技术,而外部测试集使用Visium。
尽管cSCC的内部和外部数据集之间存在这种差异,作者的IGI-DL表现依然强劲,显示出良好的泛化能力。ST-Net和DeepSpaCE都是完全基于CNN的方法,分别采用DenseNet-121和VGG16架构。HisToGene和Hist2ST彼此相似,将整个组织学图像作为模型的单一输入。
HisToGene使用ViT,图像中的每个点成为一个标记。Hist2ST同时使用Transformer和GNN,每个点在GNN中作为一个节点。这两种方法在每张切片上的点数较少时更为适用,如传统ST技术,且对输入组织学图像的尺寸有严格要求,使得将其扩展到WSI变得具有挑战性。
SEPAL是一种两步训练方法,进一步增加了模型训练的难度。总之,与这些当前的SOTA模型相比,IGI-DL在多种实体肿瘤类型中展现了优越且稳定的性能,并且具有出色的跨平台泛化能力。
由于ST技术的高昂成本和漫长的实验周期,目前高分辨率组织学图像的ST数据积累有限。
有限的ST数据凸显了作者的IGI-DL模型的重要性,该模型基于易于获取的组织学图像预测空间基因表达。
尽管模型的训练基于相对充足的点级数据,但必须承认当前IGI-DL训练数据集中的患者级样本量有限,包括10名CRC患者、27名乳腺癌患者和4名cSCC患者。
CRC患者包括7名男性和3名女性,跨越II、III、IV期,年龄从32岁到81岁不等,肿瘤位置包括降结肠、升结肠、乙状结肠、直肠等。乳腺癌患者包括多种分子亚型,包括HER2 luminal、HER2 non-luminal、luminal A、luminal B和三阴性乳腺癌。然而,这些数据仍然不足以充分代表癌症生物学的异质性和人群多样性。
尽管作者的模型在单一癌症类型内表现出良好的性能,但其跨癌症预测性能目前尚不令人满意。未来,作者希望从癌症样本中积累更多的ST数据,以创建一个全面代表癌症异质性的训练集。此外,作者旨在构建一个空间基因表达预测的基础模型,以提高模型的跨癌症预测性能。
肿瘤微环境(TME)包含多种细胞类型,不同细胞类型之间的基因表达分布存在差异。
尽管传统ST技术和Visium尚未达到单细胞分辨率,但它们已能够从基因表达点的角度准确刻画不同区域,如肿瘤细胞、免疫细胞和肿瘤基质。
IGI-DL基于NCT-CRC-HE中不同标签的斑块预测的基因空间表达,在低维子空间中显示出独特的分布模式。这些从肿瘤、基质和免疫斑块推断出的基因表达分布是分离的,但彼此相邻,这与TME中不同成分各自发挥作用并且相互之间有密切互动的事实相符。
基于预测的空间基因表达值进行的点聚类结果也揭示了肿瘤区域内的异质性和复杂的生态位。作者的IGI-DL能够刻画TME,并作为有效桥梁连接图像和分子层面的信息。
对于基于H&E染色的WSI的生存预后,也存在一些传统方法,这些方法通过随机选择33或选择最密集图像的方式从WSI中选择一部分斑块。然后,这些选定的斑块被用来提取和汇总手工特征以进行后续的生存预后。
然而,这些手工特征的信息有限,并且在从不同斑块聚合特征的过程中,斑块在WSI中的位置信息也被丢弃。从WSI构建超斑块图可以描述肿瘤组织的整体拓扑结构和异质分布。现有研究通常使用在自然图像数据集(如ImageNet)上预训练的深度学习模型(如VGG34或ResNet32)来提取和矢量化每个斑块的特征,这些模型具有一定的表征能力,但在生物医学领域缺乏可解释性。
使用作者的深度学习系统,可以将分子级别的ST信息嵌入到相应的斑块区域中的超斑块图结构。TCGA-CRC、TCGA-BRCA和外部测试集MCO-CRC的结果一致表明,结合预测的空间基因表达信息作为节点特征的超斑块图得出的风险评分,不仅提高了对所有阶段癌症患者准确预后的能力,而且证明了在预测早期患者预后方面的有效性。
作者开发的深度学习系统IGI-DL是一个有效的整合工具,它结合了CNN和GNN,以全面探索组织学图像中的组织纹理信息和空间细胞结构,准确预测关键基因的空间表达。
基于图的生存模型以IGI-DL预测的分子级别ST信息作为节点特征的超级斑块图为输入,然后输出的风险评分可以作为独立的预后指标,有助于制定针对患者的治疗方案,并最终促进精准医学的发展。
作者的研究为这一领域的未来努力奠定了蓝图,推动了人工智能在计算病理学和更广泛医疗保健领域的应用前沿。
知识星球
如需获取推文中提及的各种资料,以及推送的pdf版本,欢迎加入我的知识星球!
标签:DL,预测,精析,顶刊,基因,26,患者,模型,IGI From: https://blog.csdn.net/qq_45404805/article/details/144737227