《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet

标签：乳腺 MobileNet 模型 BI RADS 病变 4A

《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCY AMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》
原文地址：链接

文章目录

摘要
简介
方法
结果
讨论
结论

摘要

本研究旨在开发一个基于超声（US）图像的深度学习模型，以降低在术前超声检查中被诊断为乳腺影像报告和数据系统（BI-RADS）4A类的乳腺病变的恶性率。共纳入了479例在术前超声检查中被诊断为BI-RADS 4A的乳腺病变病例，其中362例为良性病变，117例为恶性病变，恶性率为24.4%。超声图像从数据库服务器中获取，并按4:1的比例随机分为训练和测试队列。为了正确分类BI-RADS 4A类超声诊断的良性和恶性肿瘤，开发了四个深度学习模型，包括MobileNet、DenseNet121、Xception和Inception V3。通过受试者工作特征曲线下面积（AUROC）、准确率、灵敏度、特异性、阳性预测值（PPV）和阴性预测值（NPV）对深度学习模型的性能进行比较。同时，通过五折交叉验证评估模型的稳健性。在四个模型中，MobileNet模型在BI-RADS 4A乳腺病变的良性和恶性分类中表现最佳。MobileNet模型在测试队列中的AUROC、准确率、灵敏度、特异性、PPV和NPV分别为0.897、0.913、0.926、0.899、0.958和0.784。预计约有14.4%的患者在超声检查中可在MobileNet模型的帮助下升级为BI-RADS 4B类。MobileNet深度学习模型可以帮助降低BI-RADS 4A乳腺病变在术前超声检查中的恶性率，对临床医生在超声检查中识别可疑乳腺病变时具有重要参考价值。
关键词：深度学习、超声检查、乳腺影像报告与数据系统、乳腺肿瘤

简介

根据世界卫生组织国际癌症研究机构（IARC）2020年的报告，乳腺癌已经取代肺癌，成为全球最常见的恶性肿瘤，也是女性癌症相关死亡的主要原因。乳腺癌的早期诊断在改善预后方面起着至关重要的作用。与乳腺X线检查（MG）相比，超声检查（US）在检测乳腺导管内和结节性病变方面更为敏感，尤其是对于年轻或怀孕女性。在中国，考虑到乳腺X线检查对高密度乳腺组织的低敏感性，超声检查被认为与乳腺X线检查具有同等的重要性，临床医生通常将超声检查与乳腺X线检查结合，以便为可疑乳腺病变制定治疗方案。
2013年，美国放射学会（ACR）更新了超声成像的乳腺影像报告和数据系统（BI-RADS）。BI-RADS的词汇表帮助超声医生和乳腺外科医生标准化乳腺病变的恶性概率，并根据BI-RADS评分制定适当的治疗方案。因此，BI-RADS词汇表得到了广泛接受。然而，由于乳腺病变的高度异质性和多样性，临近BI-RADS评分的临界点模糊但非常重要，尤其是BI-RADS 3/4A和4A/4B的分界点。
在我们的乳腺癌中心，BI-RADS 4A是决定治疗策略的关键节点。对于BI-RADS 3类病变，外科医生通常建议随访或在门诊通过Mammotome系统进行微创手术，而对于BI-RADS 4A乳腺病变，通常会在日间手术病房进行外科切除。BI-RADS 4B类患者则接受住院治疗，准备处理恶性乳腺肿瘤。由于我们中心的BI-RADS 4A类病变不进行术前活检，超声医生对报告非常谨慎，因为这决定了临床决策。
在我们中心收集的统计数据表明，BI-RADS 4A类乳腺病变的恶性率约为20%到30%，远高于ACR推荐的2%到10%。这意味着我们中心大约20%的BI-RADS 4A乳腺病变被低估，可能会延误这些恶性肿瘤的治疗，术后14天才会提供石蜡病理结果。因此，与之前通过辅助方法将一部分BI-RADS 4A乳腺病变降级为BI-RADS 3的研究不同，我们的目的是将部分BI-RADS 4A乳腺病变升级为BI-RADS 4B，以降低BI-RADS 4A乳腺病变的恶性率。
超声图像的评估通常具有主观性，可能受到超声医生经验的影响。计算机辅助技术，尤其是深度学习，克服了这种主观性的缺点。在本研究中，我们旨在评估深度学习模型在降低BI-RADS 4A类病变恶性率中的表现，以实现更准确的风险分层。

方法

患者

本研究经复旦大学上海癌症中心伦理委员会批准，免除了书面知情同意。从2013年8月至2020年12月，共纳入了479例在核心针活检或手术前通过超声被诊断为BI-RADS 4A的乳腺病变，其中包括477名患者。为了获得最佳的深度学习诊断性能，每个乳腺病变选择至少两张超声图像，最终纳入了1748张图像。纳入标准包括：（i）由两名超声医生诊断为BI-RADS 4A；（ii）灰度图像中病变清晰，没有测量标签或彩色多普勒样本窗口；（iii）病变大小小于5厘米；（iv）病理确认。如果数据库中只有一张图像或肿瘤无法通过病理确认，患者将被排除。

图像获取与处理

本研究中的所有超声图像均来自复旦大学上海癌症中心，使用的设备包括Philips IU-22和EPIQ7、GE LOGIQ-E9、Toshiba Aplio500、Mindray Resona7和Esaote MylabTwice。两位经验丰富的乳腺超声放射科医生执行所有检查。所有病变均根据超声BI-RADS词汇表进行评估和评分，并通过术后病理确认。
我们将所有超声图像按4:1的比例随机分为训练数据集和独立测试数据集。训练数据集用于训练所有深度学习模型，并选择表现最佳的模型作为最终模型。独立测试数据集用于验证已训练的深度学习模型的性能。

深度学习模型

深度学习模型作为本研究中的计算机辅助工具。与传统机器学习中手动提取特征不同，“端到端”的深度学习模型通过复杂的网络结构自动提取特征。具体来说，相关特征是从超声图像中自动提取的。此外，还建立了超声成像数据与乳腺癌病理分类之间的复杂函数映射。深度学习模型包含多个隐藏层，将低级乳腺图像特征自动组合在一起，形成更抽象的高级表示，进而发现超声数据的实际类别。
为了开发 BI-RADS 4A 的乳房 US 图像端到端映射，我们使用 5 倍交叉验证来比较四个模型的性能，包括成熟的轻量级卷积神经网络 MobileNet、著名的参数较少的复杂深度学习模型 DenseNet121、SOTA 多尺度卷积神经网络 InceptionV3 和应用最广泛的图像分类模型 Xception。在五重交叉验证中，训练数据（1398 张图像）与验证数据（350 张图像）的比率为 4：1。在每个数据集中，被平均分成五倍。其中一个折叠被选为验证集，另一个折叠被选为训练集来开发模型。这个过程重复了五次。选择性能最佳的 MobileNet 模型（参见结果）作为本研究中使用的模型。我们使用 Tensorflow（Google，Mountain View City，CA，USA）框架对所有深度学习模型进行编码。我们的研究工作流程如图 3 所示。MobileNet 模型基于深度 sepa rable 卷积（图 4）和快捷方式连接（San dler 等人，2018 年）。深度可分离卷积结合了不同的特征通道。它还显著减少了模型参数的数量和计算复杂性。捷径连接结构显著消除了训练深度神经网络的难度，使 MobileNet 能够捕获更多抽象特征。MobileNet 的理论基础是每个通道的特征可以映射到低维子空间中的流形区域。在完成卷积操作后，通常会增加一层激活函数，以增加特征的非线性。只要能通过特征图还原高维输入数据，计算复杂度就大大降低了。MobileNet 模型依赖于数据科学中的基本假设，即高维数据必须具有低维结构。因此，可以通过 MobileNet 将高维乳腺超声图像数据简化为低维可计算子空间，以准确分类良恶性肿瘤。
在这里插入图片描述

图 1.37 岁女性，患有恶性乳腺病变（浸润性导管癌，II 级） 0.8 £ 0.6 £ 0.5 cm。（a）灰度图像。（b）苏木精和伊红（HE）染色。原始放大倍数：100 英镑。（c）. HE 染色。原始放大倍率：200 英镑。（d） HE 染色。原始放大倍率：400 英镑。

统计分析

深度学习模型的性能在敏感性、特异性、阳性预测值（PPV）、阴性预测值（NPV）和受试者工作特征曲线下面积（AUROC）方面进行了评估
在这里插入图片描述

图 2.44 岁女性，乳腺病变（纤维腺瘤）开始 1.5 英镑 1.4 英镑 1.4 厘米。（a）灰度 US 图像;（b）苏木精和伊红（HE）染色。原始放大倍数：100 英镑。（c）. HE 染色。原始放大倍率：200 英镑。（d） HE 染色。原始放大倍率：400 英镑

在这里插入图片描述

图 3.使用深度学习模型在乳腺成像报告和数据系统 4A 结节中对恶性和良性乳腺肿瘤进行分类的工作流程。

结果

对 477 例年龄在 16 至 90 岁之间的女性患者的 479 例乳腺病变进行评分作为 BI-RADS 4A（平均值 § 标准差：44.3 § 13.1）。表 1 概述了所有乳腺病变的病理亚型。良性肿瘤 362 例（75.6%），恶性肿瘤 117 例（24.4%）。大多数良性肿瘤是纤维腺瘤（362 例中的 153 例，42.3%），大多数恶性肿瘤是浸润性导管癌（117 例中的 71 例，60.7%）表 2 和表 3 列出了五重交叉验证的性能。MobileNet 的训练预测准确率分别为 94.3%、98.3%、91.7%、94.6% 和 95.7%;其验证预测准确率分别为 90.5%、90.2%、90.6%、90.6% 和 90.1%。图 5 显示了交叉验证中的 ROC 曲线。MobileNet 在交叉验证中的 AUROC 分别为 89.2%、86.6%、82.2%、89.7% 和 88.9%。表 4 中描述了四个模型中测试数据集的结果。在这四种模型中，MobileNet 的诊断性能最好，在测试数据集中的 AUROC 为 89.7%，准确率为 91.3%。其他 3 种模型的 AUROC 范围为 75.2%、78.7%。图 6 示意图混淆矩阵，它通过将预测与事实进行比较来评估测试数据集中的模型。在矩阵中，列表示恶性和良性类的真实标签，行表示 MobileNet 模型预测的类。图 7 是测试数据集中的 ROC 曲线。MobileNet 模型的 AUROC 为 89.7%，高于其他三种深度学习模型。在这里插入图片描述

图 4.深度可分离卷积

在这里插入图片描述

表 1.良恶性乳腺病变的病理类型

讨论

在本研究中，24.4% 的乳腺病变为恶性癌。这一比率远高于 ACR BI-RADS 词典定义的 BI-RADS 4A 乳腺病变的 2%- 10% 的恶性肿瘤发生率。本研究旨在建立和验证一种基于想象的深度学习模型，该模型区分 BI-RADS 4A 乳腺病变中的良性和恶性肿瘤。在这 4 个模型中，MobileNet 模型性能最佳，AUROC 为 0.897，表明 MobileNet 模型通过将部分 BI-RADS 4A 病灶升级为 BI-RADS 4B 来帮助医生将 BI-RADS 4A 乳腺病灶的恶性发生率控制在 10% 以下。US 主要推荐用于乳腺病灶的筛查和术前检查。BI RADSscore 为乳腺病变确定治疗策略提供了有价值的参考。在 BI-RADS 3、4A 和 4B 中，BI-RADS 4A 是我们癌症中心的重要切入点，用于为要随访的乳腺病变（BI-RADS 3）或手术切除（BI-RADS 4A）以及门诊手术（BI-RADS 4A）或住院手术（BI-RADS 4B）。以前的大多数研究都非常注重研究在多种新技术的帮助下将 BI-RADS 4A 病变降级为 BI-RADS 3 的必要性，例如弹性成像、对比增强超声造影（CEUS）和计算机辅助技术，以避免对乳腺病变进行不必要的活检（Li 等人，2016 年;Koh 等人，2019 年;Zheng 等人，2019 年;Weismann 2021）。例如，Koh 等人（2019）使用应变 elas 成像将个人风险因素的 4A 类乳腺病变降级。这种研究工作在一些乳腺疾病中心是非常必要的，因为大多数乳房手术都是针对良性病变进行的。这些中心的医生通常对可疑的乳腺病变非常谨慎，因此 BI RADS 4A 而不是 BI-RADS 3 对于良性乳腺肿瘤非常常见。因此，BI-RADS 4A 中良性乳腺肿瘤的比例通常相当高，需要将某些乳腺病变的 BI-RADS 4A 降级为 BI-RADS 3，以避免不必要的手术
复旦大学附属肿瘤医院是中国最大的乳腺癌中心之一，大约一半的乳房手术是针对恶性乳腺肿瘤进行的。医生面临的挑战是识别具有非典型超声特征（BI-RADS 4A 或 BI-RADS 3）的恶性乳腺肿瘤，以避免局部切除后的第二次手术。根据我们的统计数据，我们发现 BI-RADS 4A 乳腺病变被低估的问题在我们中心的医生中很常见。根据医生的说法，BI-RADS 4A 乳腺病变的恶性肿瘤发生率约为 20%，其中 30% （未发表的数据）。这些恶性乳腺肿瘤患者中的大多数在门诊接受手术切除，然后接受乳房切除术进行标准乳腺癌治疗。这可能会增加 hema togenous 转移的机会（胡 et al. 2003;Ismail 等人，2004 年; Li et al. 2019）。即使对于非常有经验的医生来说，用肉眼区分良性和恶性乳腺肿瘤之间的细微差别也非常具有挑战性。因此，医生报道的 BI-RADS 4A 乳腺病变中乳腺肿瘤的良恶性精确区分对于优化治疗策略和改善临床结局至关重要。在这项研究中，我们首次应用了深度学习这种人工智能技术来解决这一临床问题。人工智能，包括放射组学、机器学习和深度学习，在乳腺病变的计算机辅助诊断中发挥了重要作用。该计算机优于医生，因为它具有更低的主观性和更强大的操作能力（Munir 等人，2019 年;Tagliafico 等人，2020 年）。众多研究证明，基于 MG、磁共振成像（MRI）或超声成像的人工智能可以区分恶性和良性乳腺病变（Dogan 等人，2010 年;Shia 等人，2021 年;Zhang 等人，2021 年）。Lee 等人（2018）试图使用超声影像组学来区分 f ibroadenoas 和三阴性乳腺癌。Fleury 和 Marcomini （2019）比较了五种机器学习方法在选择指定感兴趣区域（ROI）的情况下量化五种 BI RADS 放射组学超声特征的性能。概述的 ROI 确定了乳腺肿瘤的确切定位;但是，它需要大量的人力。同时，在放射组学中，需要手动划定乳腺病变的边缘，这可能会带来观察者之间和观察者内部的变化，特别是对于那些边缘不明确的病变（Valdora 等人，2018 年;Isik 等人，2020 年;Conti 等人，2021 年）。相比之下，深度学习模型可以自动学习和提取图像中的特征。深度学习已被广泛用于区分乳腺和甲状腺病变中的良恶性肿瘤（Niu 等人，2020 年;周 et al. 2020a;Ha 和 Baek 2021），预测导管原位癌的下调时间（Qian 等人，2021 年）和预测乳腺癌的腋窝淋巴结转移（周等人，2020b）。在本研究中，我们构建了一个基于 MobileNet 的轻量级深度神经网络，以区分 BI-RADS 4A 病灶中的良恶性乳腺肿瘤。与其他三种深度学习模型相比，MobileNet 具有以下优势：（i）采用深度可分离卷积构建轻量级深度神经网络，可嵌入手持美式设备中自由使用。（ii） MobileNet 需要更少的计算资源，并且可以应用于医院环境。据我们所知，这是第一次使用 MobileNet 模型帮助对 BI-RADS 4A 乳腺病变进行风险分层的试验，结果令人鼓舞。MobileNet 的健壮性和准确性非常出色。有必要在 US 医生和生物医学工程师之间的合作下探索临床应用。尽管如此，还需要考虑这项研究的一些限制。首先，这是一项回顾性研究，这可能会削弱我们结果的可信度。其次，对于深度学习模型来说，乳腺病变的数量相对较小。最后，数据来自没有外部验证集的单个中心。这些限制有望在未来的研究中得到克服。
在这里插入图片描述