小罗碎碎念
这一期推文分享的文献是2022年发表于 Journal of Translational Medicine 的一篇文章,目前IF=6.1。
这篇文章值得刚入门病理AI领域的老师/同学仔细研读,因为思路清晰,该讲到的流程基本都涉及了,详细讲述了病理图像的各种纹理特征,并给出了具体的计算方式。
此外,还介绍了如何将提取出的纹理特征与基因测序数据结合起来。并且值得一提的是,这里用的测序数据有一部分还是来源于TCGA的,所以想用公开数据集的也可以参考一下这篇文章。
文献概述
这篇文章是关于一项多中心、回顾性研究,研究了多尺度病理图像纹理特征(Multi-scale pathology image texture signature,简称MPIS)对可切除肺腺癌(Lung adenocarcinoma, LUAD)预后的影响。
角色 | 姓名 | 单位 |
---|---|---|
第一作者 | Yumeng Wang | 桂林电子科技大学计算机科学与工程学院,中国 |
通讯作者1 | Cheng Lu | 广东省人民医院放射科,广东省医学科学院,中国 |
通讯作者2 | Zhenhui Li | 广东省人民医院放射科,广东省医学科学院,中国 |
通讯作者3 | Lixu Yan | 广东省人民医院病理科,广东省医学科学院,中国 |
通讯作者4 | Zaiyi Liu | 广东省人民医院放射科,广东省医学科学院,中国 |
通讯作者5 | Zhenbing Liu | 桂林电子科技大学计算机科学与工程学院,中国 |
背景
肺腺癌是最常见的肺癌亚型,具有最高的死亡率。肿瘤组织形态学分析在预测肺腺癌的预后中起着重要作用。
先前研究表明,计算机提取的图像纹理特征与预后结果相关。然而,目前尚缺乏一个全面、定量且可解释的预测指标。
方法
研究者从四个独立队列中纳入了可切除LUAD患者。
他们设计了一个自动化流程,用于从苏木精-伊红(Hematoxylin and eosin, H&E)染色的全切片图像(Whole slide images, WSIs)中提取肿瘤区域的纹理特征,这些图像在多种放大倍数下被分析。
通过最小绝对收缩和选择算子(LASSO)方法选择了与总生存期(Overall survival, OS)相关的判别性纹理特征来构建MPIS。
通过单变量和多变量分析评估了MPIS对OS的预后价值,并构建了一个包含临床病理变量和MPIS的Cox比例风险模型,以评估MPIS是否能改善预后分层。
结果
研究选择了一组八个纹理特征来构建MPIS。
在多变量分析中,MPIS越高与发现队列(Discovery set)和三个外部验证队列(Validation sets)中显著较差的OS相关。将MPIS与临床病理变量结合的模型在发现队列和三个外部验证队列中对OS的区分能力比基于临床病理变量的模型更好。
此外,研究还进行了组织基因组学分析,探索了纹理特征与生物途径之间的关联。
结论
MPIS是一个独立、稳健且可解释的预后生物标志物。将MPIS与临床病理变量结合使用,可以改善可切除LUAD的预后分层,并可能有助于提高个性化术后护理的质量。
文章还详细讨论了研究方法、患者纳入标准、图像获取和处理、纹理特征的提取和选择、统计分析等方法学细节。
一、背景
肺癌是全球最常见的恶性肿瘤之一,具有最高的死亡率[1, 2]。
肺腺癌(LUAD)是肺癌最常见的亚型[3],占所有肺癌类型的40%,非小细胞肺癌的超过55%。对于可切除的LUAD患者,手术切除以达到治愈目的是标准治疗方法[4],但仍有相当一部分患者在完全切除肿瘤后发生疾病复发并死亡[5]。
肿瘤-淋巴结-转移(TNM)分期[6]和肿瘤分化程度传统上被认为是重要的术后预后因素,但由于肿瘤异质性,即使在相同的TNM分期和肿瘤分化程度下,LUAD患者的术后预后也存在显著差异[7]。因此,需要一种新的预后生物标志物来量化肿瘤的生物行为,以便在可切除的LUAD中进行精确的风险分层。
组织病理学切片,提供肿瘤及其微环境在组织和细胞层面的形态学信息,是肺癌诊断的黄金标准[8, 9]。肿瘤的发生和生长高度依赖于与其相关微环境的相互作用[10]。通常,病理学家在显微镜下从低倍到高倍观察苏木精-伊红(H&E)染色的切片,以定性评估肿瘤的组织病理学模式,这在一定程度上有助于预测癌症行为。然而,手动评估耗时且主观。此外,复杂的组织病理学切片中存在许多亚视觉属性的肿瘤[11],允许对肿瘤及其微环境的形态进行全面的表征。
计算机技术的快速发展[12]和数字全切片图像(WSIs)为识别和量化与预后相关的亚视觉特征提供了机会。
例如,纹理特征可以定量测量图像中感兴趣区域内像素强度之间的相互作用。近期研究还表明,图像纹理分析在量化潜在的亚视觉肿瘤异质性方面发挥着重要作用[13, 14]。
然而,这些研究仅关注单一尺度的图像特征,如单个细胞或组织类型,忽略了多尺度信息,这可能降低结果预测的准确性。此外,从WSIs中提取的计算机深度特征也显示出预后价值[15]。然而,深度学习模型缺乏可解释性,可能在临床环境中难以获得广泛接受[16]。因此,尽管先前的研究已经确定了多种预后生物标志物,但在准确性和可解释性方面仍有改进空间。
在本研究中,作者开发并验证了一种多尺度病理图像纹理特征签名(简称MPIS),该签名从数字H&E染色的WSIs中提取多个放大倍数的纹理特征,然后利用MPIS结合Cox比例风险模型来预测可切除LUAD患者的总生存期(OS)。
作者假设MPIS是OS的独立预后因素,并且将MPIS与临床病理学变量相结合将改善可切除LUAD患者的预后分层。同时,作者还试图证明图像衍生的纹理特征与影响肿瘤发展的生物途径的基因表达相关。
二、方法
2-1:患者
本研究是一项多中心研究,使用了来自四个独立队列的患者数据:
- 一个发现集(广东省人民医院,GDPH)
- 三个外部验证集(云南省肿瘤医院,YNCH;山西省肿瘤医院,SXCH;癌症基因组图谱,TCGA)
作者纳入了2007年至2014年间在GDPH接受手术治疗的LUAD患者,2012年至2014年间在YNCH接受可切除LUAD治疗的患者,以及2014年至2020年间在SXCH接受治疗的患者。此外,从基因组数据公共数据门户(https://portal.gdc.cancer.gov/)下载了TCGA数据集。
总生存期(OS),定义为从手术到死亡的时间间隔,被选为研究的终点事件。收集了基线和临床病理学变量,包括:
- 手术时的年龄
- 性别
- 吸烟状况
- 肿瘤部位
- 辅助化疗
- 分化程度
- TNM分期
作者排除了接受新辅助治疗、剩余残留肿瘤或术后1个月内死亡的患者。
研究中纳入和排除标准如下表所示:
类别 | 标准 |
---|---|
纳入标准 | (1) 因肺腺癌接受手术治疗且具有治愈目的的患者; |
(2) 总生存期(OS)信息完整且可获得的患者; | |
(3) 美国癌症联合委员会(AJCC)TNM分期为I至III期的患者; | |
(4) 有随访记录的患者; | |
(5) 年龄18岁及以上的患者。 | |
排除标准 | (1) 有既往肺部手术史、术前新辅助治疗或其他恶性肿瘤的患者; |
(2) 手术切缘有残留肿瘤的患者; | |
(3) 总生存期小于1个月的患者; | |
(4) 缺少苏木精-伊红(H&E)染色全切片图像(WSIs)的患者; | |
(5) H&E染色WSIs的质量控制:排除模糊、有人工制品、染色不良以及肿瘤组织不足的图像。 |
这些标准确保了研究对象的一致性和研究结果的可靠性。纳入标准确保了研究集中于特定类型的肺腺癌患者群体,而排除标准则排除了可能影响结果解释的其他因素。
2-2:图像获取
从原发性肿瘤的H&E染色诊断组织切片中获取数字WSIs。
H&E染色切片由Leica Aperio-AT2 USA扫描仪以40×放大倍数(0.252 μm/像素)扫描。作者通过排除模糊、含有伪影、染色不良或缺乏足够肿瘤组织的WSIs来控制图像质量。
在TCGA数据集中,一些病例有多个切片(根据图像质量选择一个切片进行分析)。具有5年临床经验的病理学家(BB Li)和具有15年临床经验的病理学家(LX Yan)审查并同意所有WSIs的图像质量。
此外,这些经验丰富的病理学家从GDPH的67个WSIs上标注了肿瘤和正常组织,以对基于ResNet50[17]的预训练肿瘤分割模型进行微调。
2-3:WSIs上的自动肿瘤分割
图1展示了本研究的总体工作流程。
a. 全自动化的肿瘤区域分割:使用深度学习模型(如ResNet50),通过预训练和微调,自动从全切片图像(WSIs)中分割出肿瘤区域。
b. 多尺度图像块提取与纹理特征提取:
- 2.5× 放大倍数:提取整个肿瘤区域的图像,获取全局信息。
- 10× 放大倍数:提取肿瘤区域的组织级别特征。
- 40× 放大倍数:提取细胞级别的肿瘤特征。
- 在每个放大倍数下,从肿瘤区域提取多个图像块,并进行颜色标准化以减少染色差异对纹理分布的影响。
c. 特征选择(Lasso方法):
- 使用最小绝对收缩和选择算子(LASSO)方法,结合交叉验证,从多尺度纹理特征中选择与总生存期(OS)相关的判别性特征。
d. 生存分析和模型开发:
- 利用选择出的纹理特征,构建多尺度病理图像纹理特征(MPIS)。
- 通过单变量和多变量Cox比例风险模型分析,评估MPIS对OS的预后价值,并开发预后模型。
e. 组织基因组学分析:
- 基因本体(GO)富集分析:识别与纹理特征相关的生物学途径。
- 单样本基因集富集分析(ssGSEA):评估生物学途径与图像衍生纹理特征之间的关联,为纹理特征提供生物学解释。
这个流程图概括了从图像获取、特征提取、特征选择、模型构建到生物学意义解释的完整研究过程,展示了如何将数字化病理图像转化为具有临床意义的预后生物标志物,并探索其生物学基础。
首先,使用ResNet50进行肿瘤区域分割。
为了减少标注工作量,作者使用了来自相似领域的数据进行迁移学习。作者从Camelyon16[18]数据集中获得了270个(肿瘤=160,正常=110)乳腺癌WSIs。
然后,作者提取了数百万个大小为224×224像素(40×放大倍数)的小阳性和小阴性图像块以预训练模型,用于分类肿瘤或正常组织。
使用来自GDPH的67个标注WSIs的100,000个图像块对预训练模型进行微调。
作者使用OTSU方法[19]获取WSIs的组织区域掩膜。
一个大小为224×224像素的窗口在整个组织区域上滑动,无重叠区域。
作者使用训练好的模型预测滑动窗口下的图像块,并为每个图像块生成预测概率。进一步为每个组织病理学图像生成预测概率热图。
最后,作者使用OTSU方法对预测热图进行二值化,并保留最大的连通区域作为每个WSI的肿瘤掩膜。
2-4:多尺度纹理特征提取
基于肿瘤区域分割的结果,作者在2.5×、10×和40×放大倍数下获取了几个图像块。
对这些图像块进行了颜色标准化[20],以减少染色差异对图像纹理分布的影响。
在2.5×放大倍数下,直接获取整个肿瘤区域的图像。在10×和40×放大倍数下,作者在肿瘤区域获取了1024×1024像素大小的图像块。
为了在肿瘤区域内获取相对密集的图像块,本研究使用了大于75%组织面积的图像块。在40×放大倍数下,作者随机采样了200个图像块,以减少每个WSI的计算时间并避免潜在的主观偏差[14]。
作者自动提取了每个尺度下肿瘤区域的68个纹理特征,包括:
- 一阶统计量(n=17)
- 灰度共生矩阵(GLCM,n=7)
- 灰度行程长度矩阵(GLRLM,n=44)纹理特征
一阶统计量特征描述了图像区域内像素强度的分布。基于GLCM的特征考虑了在一定距离内像素灰度的变化。基于GLRLM的特征量化了定义为相同灰度连续像素数量的灰度行程。
总的来说,在三个尺度(即2.5×、10×和40×放大倍数)上共提取了204个纹理特征。
知识点补充
在数字图像处理和纹理分析中,一阶统计量特征、基于灰度共生矩阵(GLCM)的特征和基于灰度行程长度矩阵(GLRLM)的特征是常用的纹理描述符,用于定量分析图像的纹理特性。
-
一阶统计量特征(First-order statistics features):
- 这类特征直接从图像的灰度值出发,不考虑像素之间的空间关系。
- 包括图像的平均亮度(mean)、标准差(standard deviation)、偏度(skewness)、峰度(kurtosis)、最小和最大灰度值等。
- 它们描述了图像灰度值的分布特性,可以反映图像的明暗、对比度和分布形状。
-
基于灰度共生矩阵的特征(Features based on Gray Level Co-occurrence Matrix, GLCM):
- 这类特征考虑了像素与其邻近像素的空间关系,通过计算不同灰度值在特定方向和距离上共同出现的频率来构建共生矩阵。
- 从GLCM中可以提取多种特征,如能量(energy)、均匀性(homogeneity)、对比度(contrast)、相关性(correlation)和方向性(directionality)等。
- 这些特征能够描述图像纹理的粗糙度、平滑度、局部变化和模式等。
-
基于灰度行程长度矩阵的特征(Features based on Gray Level Run Length Matrix, GLRLM):
- 这类特征关注的是图像中灰度值相同的像素序列(行程)的长度和分布。
- 通过统计图像中连续具有相同灰度值的像素个数,构建行程长度矩阵。
- 从GLRLM中提取的特征包括短行程突出度(short run emphasis)、长行程突出度(long run emphasis)、行程长度非均匀性(run length nonuniformity)和行程大小(run size)等。
- 这些特征可以反映纹理的粗糙度、纹理的连续性和纹理的复杂性。
每种特征提取方法都有其独特的优势和应用场景,通常结合使用这些特征可以更全面地描述和分析图像的纹理信息。在病理学图像分析中,这些特征有助于揭示组织结构和细胞形态的细微变化,从而可能与疾病的诊断和预后相关联。
一阶统计量特征
一阶统计量特征(First-order statistics features)是图像处理中最基本的纹理分析工具,它们描述了图像中像素灰度值的分布情况,不涉及像素间的相对位置或空间关系。
- Minimum (最小值): 图像中所有像素灰度值的最小值。
- Maximum (最大值): 图像中所有像素灰度值的最大值。
- Mean (均值): 图像中所有像素灰度值的平均值。
- Median (中位数): 将图像所有像素灰度值排序后位于中间位置的值。
- Range (范围): 图像灰度值的最大值与最小值之差,表示灰度变化的范围。
- 10th Percentile (第10百分位数): 将所有像素灰度值排序后,有10%的值小于此数值。
- 90th Percentile (第90百分位数): 有90%的像素灰度值小于此数值。
- Interquartile Range (四分位距): 第75百分位数与第25百分位数之间的差值,表示中间50%像素灰度值的分布范围。
- Energy (能量): 也称为方差,描述灰度值分布的集中程度。
- Entropy (熵): 表示图像灰度值分布的随机性和复杂性。
- Uniformity (均匀性): 描述图像灰度值分布的一致性或均匀性。
- Skewness (偏度): 描述灰度值分布的不对称性,表明图像灰度值分布的偏斜方向和程度。
- Kurtosis (峰度): 描述灰度值分布的尖锐程度或平坦程度,与分布的“峰”的形状有关。
- Variance (方差): 描述图像灰度值的离散程度,即各像素灰度值与均值的偏差平方的平均值。
- Standard Deviation (标准差): 方差的平方根,同样描述灰度值的离散程度。
- Root Mean Squared (RMS, 均方根): 所有像素灰度值偏差平方的平均数的平方根,与标准差相似,描述灰度值的波动大小。
- Mean Absolute Deviation (MAD, 平均绝对偏差): 所有像素灰度值与均值差的绝对值的平均值,是另一种描述灰度值分布离散程度的度量。
这些一阶统计量特征为图像提供了丰富的信息,可以用来分析图像的纹理特性,如粗糙度、均匀性、复杂性等,它们在图像分析、图像理解以及图像分类等领域有着广泛的应用。在医学图像分析中,这些特征有助于识别和区分不同的组织类型和病变状态。
基于灰度共生矩阵的特征
基于灰度行程长度矩阵的特征
2-5:特征选择和特征签名构建
为了使特征数量与样本大小成比例,作者通过十折交叉验证的套索(LASSO)方法从发现集中选择了与预后相关的特征(图1c)。
在特征选择之前,作者根据Z-score方法对特征值进行了标准化。此外,可视化与预后相关的纹理特征至关重要,以便所有临床医生都能理解它们。作者通过小提琴图和特征热图对所选纹理特征进行了量化和可视化。
MPIS通过判别性纹理特征及其相应系数的加权线性组合计算得出。发现集中的MPIS中值被确定为区分风险水平患者的截止值,任何大于截止值的值被归类为高风险,任何等于或小于截止值的值被归类为低风险。从发现集中确定的阈值然后应用于外部验证集,以区分高风险和低风险组。
2-6:组织基因组分析
对于TCGA队列,匹配生存分析中的TCGA数据量后,有244名患者具有归一化的信使核糖核酸(mRNA)表达数据。
作者移除了在患者样本中mRNA表达水平为0的基因,以探索生物途径的基因表达与组织病理学图像衍生的纹理特征之间的关联。
首先,根据MPIS将患者分为高风险或低风险。作者使用Wilcoxon秩和检验来识别在高风险和低风险组之间显著差异表达的基因。使用Benjamini & Hochberg方法调整P值。
然后,作者使用差异表达基因(DEGs)进行基因本体(GO)富集分析[21],以识别基因集中过度表达的生物途径。基于确定的途径,作者选择了可能代表与肿瘤生长和发展相关的生物过程的途径。
最后,作者通过单样本基因集富集分析(ssGSEA)[22]评估生物途径的基因表达与图像衍生的纹理特征之间的关联。每个基因集中的每个患者的ssGSEA富集分数计算,这评估了基因集中成员基因在样本中的协调上调或下调程度。
作者使用Wilcoxon秩和检验来选择与图像衍生的纹理特征显著差异表达的途径。
2-7:统计分析
分类数据以计数(百分比)报告。
四个队列之间年龄、性别、吸烟状况、肿瘤部位、治疗、分化程度和TNM分期的差异通过Pearson卡方检验或Fisher精确检验进行评估,视情况而定。不同肿瘤分化程度对应的MPIS数据分布也通过独立样本t检验进行分析。
作者使用对数秩检验来估计高风险和低风险组之间的OS差异,进行Kaplan–Meier生存分析。MPIS和其他临床变量(即年龄、性别、吸烟状况、肿瘤部位、治疗、分化程度和TNM分期)的预后能力通过单变量分析进行评估。然后,在多变量分析中采用单变量分析中P<0.05的因素。在多变量分析中,使用赤池信息准则(AIC)来确定和评估独立的预后因素。
在发现集中,通过纳入多变量分析中选择的独立因素建立了完整模型,并通过独立临床病理学变量建立了临床模型。完整模型和临床模型在三个独立的外部验证集中进行了验证。使用Harrell的一致性指数(C指数)来确定模型的判别能力。使用时间依赖的受试者工作特征(ROC)曲线和5年OS下的曲线下面积(AUC)来评估预后准确性。
作者使用R软件(版本4.1.2,http://www.R-project.org[23])进行统计分析。用于统计分析的R软件包包括glmnet、cutof、survival、survminer、rms、timeROC 和 vioplot。当双尾P值小于0.05时,认为因素具有统计学意义。
综上所述,本研究通过多中心队列研究,开发并验证了一种基于多尺度病理图像纹理特征的多尺度病理图像纹理特征签名(MPIS),用于预测可切除肺腺癌(LUAD)患者的总生存期(OS)。
研究流程包括肿瘤区域的自动分割、多尺度纹理特征的提取、特征选择和签名构建,以及与临床病理学变量的整合,以改善LUAD患者的预后分层。
此外,本研究还探索了图像衍生的纹理特征与生物途径基因表达之间的关联,并通过统计分析方法评估了MPIS的预后准确性。这项工作不仅为LUAD的预后评估提供了新的视角,而且为理解肿瘤异质性和发展个性化医疗策略提供了有价值的数据。
三、结果
3-1:患者
本研究在应用所有纳入和排除标准后,总结了合格的患者。
发现集(n=111)来自GDPH,用于特征发现和模型训练。三个独立队列用于验证训练好的模型,分别来自YNCH、SXCH和TCGA。这三个队列分别表示为外部验证集V1(n=115)、外部验证集V2(n=116)和外部验证集V3(n=246)。
表1显示了四个队列中人口统计学和临床病理学变量的详细分布。
-
患者数量:发现集(Discovery set)有111名患者,而三个外部验证集(Validation sets)分别有115(V1)、116(V2)和246(V3)名患者。
-
年龄分布:
- 发现集中65岁以下的患者占36.9%,而65岁及以上的患者占63.1%。
- 在外部验证集中,V1的65岁以下患者比例最低,为16.5%,而V3的65岁以下患者比例最高,为50.4%。
-
性别分布:
- 所有集中男性患者的比例在44.7%到52.3%之间,女性患者的比例在47.7%到55.3%之间,性别分布相对均衡。
-
吸烟状态:
- 在所有集中,吸烟状态已知的患者中,曾经吸烟的患者比例从V1的35.7%到V3的86.6%不等,显示出显著差异。
-
肿瘤位置:
- 上/中叶肿瘤和下叶肿瘤的分布没有明显模式,但在V3中,下叶肿瘤的比例稍高。
-
治疗方式:
- 手术治疗的患者比例在68.5%到83.5%之间,而接受手术加化疗的患者比例在16.5%到31.5%之间。
-
分化程度:
- 发现集中77.5%的患者肿瘤分化程度为G1/G2(良好或中度分化),而22.5%为G3/G4(分化不良)。
- 在外部验证集中,分化程度的数据不可用(NA)。
-
TNM分期:
- 在所有集中,I期患者的比例在42.2%到71.2%之间,II期和III期患者的比例较低。
-
统计学显著性:
- 除了性别(P=0.1603)和肿瘤位置(P=0.2230)之外,其他所有临床特征在四个集中都显示出显著差异。
-
P值:
- 使用Pearson卡方检验或Fisher精确检验评估了不同集中变量的差异,P值小于0.05被认为是统计学上显著的。
这个表格提供了不同数据集中患者特征的详细比较,有助于了解研究的包容性和不同数据集之间的可比性。通过这些数据,研究人员可以评估不同患者群体的预后因素,并调整分析以确保结果的准确性和可靠性。
除了性别(P=0.1603)和肿瘤部位(P=0.2230)外,四个队列之间在所有包括的临床特征上均观察到显著差异。
3-2:特征选择和签名构建
使用LASSO方法从204个多尺度纹理特征中选择了一组八个潜在预测因子。
Table S1 提供了所选纹理特征的具体定义,这些特征是从病理图像中提取的,用于研究肺腺癌的预后因素。
-
glrlm_SRLGLE_90_2.5: 在2.5倍放大倍率下,灰度运行长度矩阵(GLRLM)中90度方向的短运行低灰度强调(Short Run Low Gray Level Emphasis)。
-
glrlm_SRLGLE_90_40: 在40倍放大倍率下,GLRLM中90度方向的SRLGLE。
-
glcm_dissimilarity_2.5: 在2.5倍放大倍率下,灰度共生矩阵(GLCM)的不相似性(Dissimilarity)。
-
Kurtosis_10: 在10倍放大倍率下,灰度值的峰度(Kurtosis)。
-
glrlm_LRHGLE_90_2.5: 在2.5倍放大倍率下,GLRLM中90度方向的长运行高灰度强调(Long Run High Gray Level Emphasis)。
-
glrlm_SRE_0_40: 在40倍放大倍率下,GLRLM中0度方向的短运行强调(Short Run Emphasis)。
-
glcm_ASM_2.5: 在2.5倍放大倍率下,GLCM的角度二阶矩(Angular Second Moment)。
-
Percentile_10th_40: 在40倍放大倍率下,灰度值的第10百分位数(10th Percentile)。
这些特征通过不同的数学和统计方法从病理图像的纹理中提取出来,反映了图像的灰度分布、纹理的均匀性、方向性以及灰度值的分布特性。它们可以用于病理图像分析,帮助研究者识别和预测肺腺癌的预后。
这些纹理特征及其相应的回归系数如图1所示。MPIS通过这些特征值的线性组合计算得出,权重由相应的回归系数确定。发现集中MPIS的中值(-0.061)被用作区分患者的截止值。
如图2所示,作者量化和可视化了在高风险和低风险组之间观察到显著差异的图像纹理特征。
低风险示例在特征glrlm_SRLGLE_90_2.5、glrlm_SRLGLE_90_40、glcm_dissimilarity_0_2.5和Kurtosis_10的值上高于高风险示例(图2(a-d)),
而在特征glrlm_LRHGLE_90_2.5、glrlm_SRE_0_40、glcm_ASM_0_2.5和Percentile_10th_40的值上低于高风险示例(图2(e-h))。
3-3:MPIS的评估和验证
MPIS预测OS的Kaplan-Meier曲线显示,低风险组的生存率明显优于高风险组(图3)。
在单变量分析中,MPIS在四个队列中均具有统计学意义,如表2所示。
在发现集中,MPIS与OS相关(风险比[HR],9.90;95%置信区间[CI],3.44-28.49;P<0.0001)。
此外,MPIS在外部验证集V1(HR,2.36;95%CI,1.08-5.16;P=0.0312)、外部验证集V2(HR,3.47;95%CI,1.60-7.52;P=0.0016)和外部验证集V3(HR,2.57;95%CI,1.59-4.17;P=0.0001)上也与OS相关。
进行了多变量分析,使用了在单变量分析中达到统计学意义(P<0.05)的因素(治疗、TNM分期、分化、MPIS)。
在多变量分析中,作者进一步证明MPIS是发现集(HR,5.32;95% CI 1.17-16.44;P=0.0037)、外部验证集V1(HR,2.63;95% CI 1.10-6.29;P=0.0292)、外部验证集V2(HR,2.99;95% CI 1.34-6.66;P=0.0075)和外部验证集V3(HR,1.93;95% CI 1.15-3.23;P=0.0125)的独立预后因素。
MPIS可以预测TNM分期I和早期(TNM分期I和II)LUAD患者的OS(附加文件1:图S2,S3)。
对于早期LUAD患者,高风险组的生存结果明显不如低风险组。尽管在外部验证集V1中没有发现MPIS与OS的统计学关联(P=0.13),作者仍可观察到高风险组预后不良的明显趋势。
对于TNM分期I的LUAD患者,低风险组预后较好。此外,当根据临床病理学变量分层患者时,包括年龄(≥65岁或<65岁)、性别(女性或男性)、吸烟状况(曾吸烟或从未吸烟)、治疗(仅手术或接受化疗)和分化程度(良好/中度分化或不良未分化),MPIS与OS在大多数亚组中相关(附加文件1:图S4-S8)。
此外,MPIS在外部验证集V1、V2和V3中均显著高于不良未分化组,与良好/中度分化组相比(附加文件1:图S4)。
图4展示了多尺度病理图像纹理特征(MPIS)在不同分化程度的肺腺癌(LUAD)患者中的分布情况。
- 分化程度的分组:
- LUAD患者根据肿瘤的分化程度分为两组:G1/G2(良好至中度分化)和G3/G4(分化不良)。
- MPIS分布差异:
- 图4显示了在发现集(a)、外部验证集V1(b)和外部验证集V2(c)中,G1/G2组与G3/G4组之间MPIS分布的显著差异。
- 统计显著性:
- 发现集中G1/G2组与G3/G4组之间MPIS的差异非常显著(P<0.0001),表明MPIS在不同分化程度的肿瘤中具有显著不同的分布特征。
- 外部验证集V1中也观察到显著差异(P=0.0314)。
- 分化程度与预后的关系:
- 通常,肿瘤的分化程度越低(G3/G4),其预后越差。图4的分析结果支持这一观点,因为分化不良的患者组(G3/G4)MPIS值显著高于分化较好的患者组(G1/G2)。
- MPIS作为预后指标的潜力:
- MPIS在不同分化程度的肿瘤中的分布差异表明,它可能作为一个有用的预后指标,帮助区分患者的预后风险。
- 颜色编码:
- 特征映射图中的颜色编码(红色、橙色、绿色和蓝色)代表图像中灰度级的变化,从低到高,这有助于直观地识别肿瘤区域的纹理特征。
- 独立样本t检验:
- 用于计算P值的独立样本t检验是一种统计方法,用于比较两组之间平均值的差异。
- 研究结论:
- 该分析结果进一步支持了MPIS作为肺腺癌预后生物标志物的潜力,并可能有助于指导临床决策和个性化治疗策略。
图4的分析结果强调了MPIS在区分不同分化程度的肺腺癌患者中的潜在价值,并为未来的研究和临床实践提供了有价值的信息。
综上所述,本研究的结果表明,基于多尺度病理图像纹理特征的多尺度病理图像纹理特征签名(MPIS)能够有效预测可切除肺腺癌(LUAD)患者的总生存期(OS)。
MPIS在发现集和所有外部验证集中均显示出与OS的显著相关性,且在多变量分析中作为独立预后因素。此外,MPIS在早期LUAD患者中也显示出良好的预测能力,且与不良预后相关的特征在不同亚组中保持一致。
这些发现支持MPIS作为LUAD患者预后评估和风险分层的一个有价值的工具,并为个性化医疗策略的发展提供了科学依据。
3-4:评价和验证完整模型
基于赤池信息准则(AIC)的逐步回归方法识别了独立预后因素,包括MPIS、分化和TNM分期(表2)。
在发现集中,作者建立了包含上述独立因素的完整模型,并建立了包含两个临床病理学变量(即分化和TNM分期)的临床模型。观察到完整模型的C指数(0.837;95% CI 0.784–0.890;表3)高于临床模型(C指数,0.798;95% CI 0.729–0.867),完整模型的AIC值小于临床模型(235.991 vs. 244.905;表3)。
因此,完整模型在区分和校准方面优于临床模型。同时,作者还证明了将MPIS整合到临床模型中显著提高了OS的预测能力(P=0.0010,似然比检验),如表3所示。
绘制了60个月的时间依赖性ROC曲线和不同时间点的时间依赖性AUC曲线,如图5a所示。
完整模型(AUC,0.890;95%CI,0.822–0.958;对于5年OS)在预测性能上明显优于临床模型(AUC,0.843;95%CI,0.759–0.927;对于5年OS)。此外,作者还以诺模图的形式可视化了完整模型和临床模型,以方便应用完整模型(附加文件1:图S9)。
作者进一步验证了完整模型在独立的外部验证集(表3)中的性能。完整模型在外部验证集V1和V2中均显示出更好的区分和校准能力(V1:C指数,0.704 vs. 0.679;P<0.0001,似然比;AIC,219.568 vs. 222.908;V2:0.728 vs. 0.666;P<0.0001;AIC,307.537 vs. 313.815)。
在图5b和c中,AUC曲线显示,完整模型在两个外部验证集的每个时间点上都表现出更好的性能(V1:AUC,0.732 vs. 0.708;对于5年OS;V2:AUC,0.789 vs. 0.658)。
此外,由于外部验证集V3中缺乏与肿瘤分化相关的信息,因此完整模型仅包含两个变量(即TNM分期和MPIS),而临床模型仅包含一个变量(即TNM分期)。
观察到完整模型(C指数,0.696 vs. 0.669;AIC,717.869 vs. 722.453;似然比,P<0.0001;AUC,0.706 vs. 0.671;对于3年OS)在区分和校准方面仍优于临床模型(表3,图5d)。
为了进一步证明MPIS的增量价值,作者还从每个尺度选择了特征,计算了相应的单尺度病理图像签名,并构建了包括2.5×模型、10×模型和40×模型的单尺度模型。在每个尺度上选择的特征及其相应的系数在附加文件1:表S3-S5中详细列出。
2.5×、10×和40×放大倍数的单尺度纹理签名与发现集和三个外部验证集的OS相关(附加文件1:图S10-S12)。
与单尺度模型相比,完整模型在大多数时间点的AUC值仍然较高(附加文件1:图S13)。
3-5:组织基因组分析
转录组数据包括来自TCGA-LUAD的19,645个注释基因。
作者进行了差异基因表达分析,并发现了194个在MPIS定义的高风险和低风险组之间差异表达的基因。这些DEGs通过GO富集分析识别了16个显著的生物途径。这些显著的途径涉及细胞因子活性、细胞增殖、代谢、生长、分裂和细胞外基质结构,它们被认为是与肿瘤生长和发展相关的。
具体来说,DEGs在生物途径中显著富集,如体液免疫响应、肽酶活性的调节、信号释放和细胞外结构组织(附加文件1:图S14)。
DEGs和途径的完整列表在附加文件2中呈现。
此外,作者还评估了生物途径的基因表达与图像衍生的纹理特征之间的关系,使用单样本基因集富集分析(ssGSEA)。
作者使用16个生物途径计算了用于构建MPIS的8个纹理特征的富集分数。如图6所示,从组织病理学图像中提取的肿瘤区域纹理特征(即glrlm_SRLGLE_90_2.5、glcm_ASM_0_2.5和Percentile_10th_40)与细胞外结构组织、细胞骨架的结构成分、激素活性和细胞外基质结构成分等生物途径显著相关。
综合上述结果,本研究通过开发和验证了一种多尺度病理图像纹理特征签名(MPIS),该签名能够有效预测可切除肺腺癌(LUAD)患者的总生存期(OS)。MPIS在发现集和所有外部验证集中均显示出与OS的显著相关性,且在多变量分析中作为独立预后因素。
此外,MPIS在早期LUAD患者中也显示出良好的预测能力,且与不良预后相关的特征在不同亚组中保持一致。这些发现支持MPIS作为LUAD患者预后评估和风险分层的一个有价值的工具,并为个性化医疗策略的发展提供了科学依据。
组织基因组分析进一步证实了MPIS与影响肿瘤生长和发展的关键生物途径之间的关联。
这些生物途径包括细胞因子活性、细胞增殖、代谢、生长、分裂和细胞外基质结构,与MPIS的预测能力相一致。此外,ssGSEA分析表明,从组织病理学图像中提取的纹理特征与这些关键生物途径的基因表达密切相关,这进一步验证了MPIS的生物学相关性。
综上所述,本研究的结果表明,MPIS不仅能够准确预测LUAD患者的预后,而且还能够提供有关肿瘤生物学行为的有用信息。这些发现对于指导临床决策和开发个性化的治疗策略具有重要意义,并为未来的研究提供了基础。
四、讨论
对于可切除的肺腺癌(LUAD),准确的预后能够指导临床决策并改善风险分层。
尽管病理学家通过常规组织病理学切片的形态学检查可以预测癌症行为,但手动审查无法量化肿瘤的亚视觉特征。
在本研究中,作者开发了一个完全自动化的管道,通过从H&E染色的WSI中的肿瘤区域提取多尺度纹理信息来分析肿瘤及其微环境。作者使用纹理信息构建了MPIS,并评估了其在预测可切除LUAD患者的总生存期(OS)方面的预后能力。结果显示,MPIS是OS的独立预后因素。
此外,将MPIS与临床病理学变量相结合可以改善可切除LUAD的风险分层。同时,从图像中衍生的多尺度纹理特征与影响肿瘤发展的生物途径相关。作者在四个独立队列中验证了预后模型,包括来自TCGA队列的大型多机构数据。
MPIS在这四个队列中都是OS的独立预后因素,尽管这四个队列之间存在统计学上的显著差异(表1)。同时,作者观察到在大多数亚组中存在显著分层(附加文件1:图S2–S8)。这表明MPIS是可切除LUAD中OS的稳健预后生物标志物,并且可以很容易地推广到其他中心。
近年来,许多组织病理学生物标志物已被开发用于预测肺癌患者的预后。
例如,Yu等人[13]和Chen等人[24]使用CellProfiler软件[25–27]定量测量组织病理学图像中的细胞表型,并将这些特征与预后相关联。几项研究[28–30]从分割的核中捕获细胞级特征描述符,用于预测早期非小细胞肺癌的预后。
此外,Wang等人[31]提供了关于LUAD患者肿瘤形状与预后之间关系的见解。然而,这些潜在的生物标志物主要集中在单尺度信息上,要么是组织病理学图像的细胞级,要么是组织级。
与此不同,本研究利用肿瘤区域的跨尺度纹理特征构建了预测LUAD患者OS的图像签名。量化多尺度纹理特征的动机基于病理学家对组织病理学切片的常规检查。病理学家通常首先用低倍镜观察整个切片组织,然后用高倍镜选择性地检查细胞水平的形态学特征。
具体来说,2.5×放大倍数的图像包含整个肿瘤的全局信息,10×放大倍数的图像包含组织水平上的肿瘤区域特征,40×放大倍数的图像包含细胞水平上的肿瘤特征。与单尺度纹理签名相比,作者发现MPIS可以改善可切除LUAD的风险分层,并且整合了MPIS和临床病理学变量的完整模型具有更好的预测能力(附加文件1:图S13)。
这表明MPIS可以有效地捕捉组织病理学图像从细胞水平到组织水平的多尺度信息,并可以全面评估肿瘤的形态学特征。
过去几年,许多基于深度学习的方法被提出来量化肿瘤及其周围微环境,从而产生各种基于深度特征的预后生物标志物[32–34]。
例如,Coudray等人[15]证明了深度学习模型可以协助病理学家自动检测癌症亚型或基因突变。Shi等人[33]提出了一种高效且节省劳动力的深度学习方法,为患者风险分层提供了有价值的方法。然而,他们只能主观地基于切片逐张的定性评估提供假设性解释,更不用说客观地将深度特征与生物学现象联系起来,尽管类激活图[35, 36]可以可视化端到端CNN模型中的感兴趣的图像区域。
相比之下,作者的工作可以直接与生物学概念相关联,并为组织病理学和基因组学提供可解释性。一方面,作者从组织病理学角度追踪可观察的纹理特征,以降低虚假相关性的风险。具体来说,作者观察到MPIS在良好/中度分化和不良未分化组之间的分布存在显著差异(图4)。
这似乎表明MPIS与病理学家进行的肿瘤分化之间存在显著关联。例如,肿瘤细胞和间质生长模式的丰富性和空间分布可能反映在WSI的纹理特征中。MPIS可以通过量化这些纹理特征来区分肿瘤分化的程度。
此外,作者发现所选的多尺度纹理特征可能直接与组织病理学图像中的表型信息相关,并为研究者提供可解释性。
更具体地说,特征glrlm_SRLGLE测量了图像中连续像素的低灰值模式。在组织病理学图像的背景下,较大的glrlm_SRLGLE特征值可能反映了组织图像中细胞分布的稀疏性。这种生物学现象可能指示LUAD的鳞状或腺状生长模式(图2a, b)。
特征glcm_ASM测量了图像的灰度均匀性。较大的值表示更高的均匀性。如图2g所示,底部图的glcm_ASM特征值较高。观察到肿瘤组织与顶部图相比,生长相对更密集,肿瘤生长模式似乎是实心的。
另一方面,作者还通过组织基因组分析研究了可能驱动肿瘤发展的生物途径,从而从基因组学角度进一步阐明了纹理特征的可解释性。
在本研究中,所选的纹理特征与影响肿瘤发展的显著生物途径相关。例如,细胞外基质结构成分与特征glrlm_SRLGLE_90_2.5和Percentile_10th_40显著相关。这些途径的基因表达已被证明会影响肿瘤及其微环境[37],可能表明间质组织结构会影响肿瘤区域的纹理分布。
此外,细胞微环境通过细胞骨架重塑不断调节细胞生长、凋亡和分化[38]。作者发现细胞骨架的结构成分与图像衍生的纹理特征(如glrlm_SRLGLE_90_40)之间存在显著相关性,这清楚地表明纹理特征可能受到与细胞凋亡和分化相关的途径的驱动。细胞因子活性[39, 40]可能是影响肿瘤区域纹理分布的另一个潜在原因,反映了组织和细胞的存活、生长、分化和效应功能。
本研究存在一些局限性。
首先,作者的研究基于回顾性队列,这可能会受到某些风险变量的影响和随访丢失。未来,作者将进一步在更大的队列或前瞻性研究中验证作者的模型。
其次,MPIS是在不同机构的数据上开发和验证的,这意味着一些相关的人口统计参数在某些数据集中不可用。
第三,本研究使用了一种基于迁移学习的深度学习方法来分割肿瘤区域。然而,病理学家仍然需要注释一小部分切片以微调分割模型,提高模型的性能。
未来,作者将使用弱监督或无监督学习模型进行定量分析,以最小化病理学家的标注工作。
五、结论
总的来说,作者开发并验证了MPIS,该方法能够成功地将可切除LUAD患者分为高风险和低风险组,两组在OS上存在显著差异。
MPIS是OS的独立预后因素,将MPIS与临床病理学变量相结合可以改善可切除LUAD患者的预后分层。
本研究显示,MPIS是一个全面、稳健且可解释的预测工具,可以贡献于精准医学领域,通过帮助改善个性化术后护理的质量,从而提高个体化医疗的质量。
标签:24,精读,特征,09,纹理,MPIS,灰度,图像,肿瘤 From: https://blog.csdn.net/qq_45404805/article/details/141040522