原创 | 文 BFT机器人
01
摘要
使用自然图像数据集(如ImageNet)中的大型预训练模型进行迁移学习已经成为医学成像深度学习应用的实际方法。然而,由于自然图像分类和医学成像任务之间的差异,对迁移学习的影响了解甚少。
本文对医学影像迁移学习进行了探讨,并对两个大型医学成像任务进行了性能评估,结果显示传输学习对性能几乎没有好处。同时,研究表明,一些差异是由于标准模型的过度参数化,而不是复杂的特征重用。
研究还探讨了通过权重缩放引起的独立于特征的迁移的好处。因此,简单、轻量级的模型在医学影像处理中可以与ImageNet体系结构相比,并且对于更有效的模型探索具有重要的意义。
02
介绍
随着深度学习的发展,迁移学习在许多应用中已经成为重要的一部分,尤其在医学成像领域。目前的标准是采用现有的自然图像数据集(如ImageNet)设计的架构,搭配相应的预训练权重,然后在医学成像数据上进行微调。
迁移学习在多个医学专业中被广泛采用。其中两个主要研究方向是在放射学中使用ResNet、DenseNet等架构进行胸部X光照片的训练,以及在眼科学中使用Inception-v3、ResNet等进行视网膜眼底图像的训练。
眼科学研究甚至已获得FDA批准,并在临床中得到全面应用。其他应用包括早期检测阿尔茨海默病、从皮肤癌照片中识别皮肤癌,甚至用于体外受精程序中的人类胚胎质量评估。
尽管在医学成像中迁移学习广受欢迎,但对其精确效果的研究仍较少,即使在自然图像领域中的最近研究也对许多常见观点进行了挑战。
医学成像设置中,许多类似的问题仍然存在。如上所述,迁移学习通常通过采用标准ImageNet架构及其预训练权重,然后在目标任务上进行微调。然而,ImageNet分类和医学图像诊断在数据特性和任务规模上有明显差异。
首先,许多医学成像任务始于感兴趣的身体区域的大型图像,并利用局部纹理变化来识别病理。例如,在视网膜眼底图像中,小的红色“点”是微血管瘤和糖尿病视网膜病变的指示标志,而在胸部X光片上,局部白色浓密斑块是肺实变和肺炎的迹象。而在自然图像数据集(如ImageNet)中,通常会有一个清晰的全局图像主体(图1)。因此,ImageNet特征重用对于医学图像是否有益仍然是一个问题。
此外,大多数医学数据集的图像尺寸较大(以便搜索局部变化),但图像数量远少于ImageNet的约一百万张。与之相比,医学数据集的图像数量范围从几千张到几十万张。
最后,医学任务通常具有较少的类别(例如,糖尿病视网膜病变诊断有5个类别,胸部X光片中有5-14个类别),而标准ImageNet分类有1000个类别。由于标准ImageNet架构在更高层级上有大量参数,集中在更高层级有着这个原因,所以这些模型的设计可能对医学场景不太理想。
在本文中,作者对医学图像的迁移学习进行了细粒度研究。他们的主要贡献包括:
[1] 作者评估了标准的自然图像架构,例如ImageNet,以及一组非标准的较小、更简单的模型,在两个大规模的医学成像任务上的性能,这些任务当前使用迁移学习是常态。我们发现:(i)在所有这些情况下,迁移学习对性能没有显著帮助;(ii)较小、更简单的卷积架构与标准的ImageNet模型表现相当;(iii)ImageNet性能不能预测医学任务的性能。这些结论在数据量非常小的情况下也成立。
[2] 鉴于性能相当,我们研究了使用预训练权重是否会导致不同的学习表示,通过使用(SV)CCA [22] 来直接分析隐藏表示。我们发现预训练确实会影响隐藏表示,但模型大小存在混淆问题,即大型的标准ImageNet模型在微调过程中变化不大,这通过初始化时和收敛后的表示相似性之间出现的令人惊讶的相关性证实。
[3] 通过进一步分析和权重转移实验,我们发现了有意义的特征重用发生在哪些位置,并探索了混合迁移学习方法,其中部分预训练权重被使用,网络的其他部分重新设计,变得更轻量级。
[4] 我们展示了预训练的权重也有特征无关的好处,仅重用预训练权重的缩放部分而不使用特征,可以大大加快收敛速度。
03
迁移学习模型与性能评估
为了奠定研究基础,作者选择了多个神经网络架构,并在两种情况下评估它们的性能:随机初始化训练和从ImageNet进行迁移学习。他们训练了标准的、高性能的ImageNet架构,这种在迁移学习中很流行,同时也训练了一系列较小的卷积神经网络,这些较小的模型在医疗任务上表现相当好。
有限的研究关注ImageNet迁移学习对较小、非标准的ImageNet架构的影响。在医疗环境中,这一调查尤其重要,因为大型、计算昂贵的模型可能会限制在移动设备上的应用。此外,标准的ImageNet模型参数大部分集中在顶层,用于执行1000类分类。然而,医学诊断通常需要的分类数量较少,例如视网膜眼底图像和胸部X光片只有5个分类,这意味着ImageNet模型可能被过度参数化。
研究结果显示,在各种数据集和模型中,迁移学习并不显著改善性能。此外,较小的轻量级卷积网络家族的表现与标准ImageNet模型相当,尽管在ImageNet上的准确性明显较低,这表明ImageNet任务并不一定适用于医疗数据集的性能预测。最后,作者观察到这些结论在数据非常有限的情况下也成立。
模型描述
对于标准的ImageNet架构,作者评估了ResNet50和Inception-v3,这两种架构都广泛用于医疗转移学习应用。论文还设计了一系列简单、更小的卷积架构。该家族的基本构建块是流行的(2d)卷积序列,然后是批归一化和relu激活。每个体系结构都有4到5个这个基础层的重复。称这种模式家庭为CBR。根据卷积滤波器大小的选择(对于整个架构是固定的),通道和层的数量,然后得到了一系列架构,其大小范围从标准ImageNet模型大小的三分之一(CBR-LargeT, CBR-LargeW)到尺寸的二十分之一(CBR-Tiny)。完整的架构细节见附录。
非常小的数据管理
论文进行了额外的实验来研究在数据非常有限的情况下迁移学习的效果。大多数医学数据集远远小于ImageNet,我们的两个数据集也是如此。然而,我们的数据集仍有约20万个样本,而其他情况可能只有几千个。为了研究在这种非常小的数据情况下的影响,我们在视网膜数据集上只使用5000个数据点训练了模型,并考察了迁移学习的效果。结果表明,虽然在非常小的数据量下,迁移学习的效果更大,但模型大小也会影响结果 - 迁移学习主要有助于大型模型(这些模型设计用于使用数百万个样本进行训练),而较小的模型在迁移和随机初始化之间几乎没有明显差异。
04
迁移效应的表征分析
论文通过用(SV)CCA定量直接分析、比较不同神经网络群体学习的隐藏表征揭示了迁移学习对神经网络表征的影响。较大的模型在迁移学习和训练过程中变化较小,而较小的模型在这两个过程中表现得更相似。
在医学图像中,我们发现迁移学习和从随机初始化学习对性能几乎没有好处。这些结果为新的混合迁移学习方法提供了指导,例如部分重用预训练权重并对网络进行轻量级重新设计。
此外,我们展示了仅重用预训练权重的特征无关好处,可显著提高收敛速度。这些发现为医学图像领域的深度学习应用提供了重要的见解和指导。
05
融合:特征独立优势与权重迁移
在本节中,论文研究了迁移学习对收敛速度的影响,发现:
迁移学习通过更好的权重缩放仅提供了特征无关的收敛优势。
使用来自最低两个层/阶段的预训练权重对收敛速度有最大的影响,进一步支持前一节的发现,即任何有意义的特征重用集中在这两个最底层(图3)。这些结果表明了一些混合迁移学习的方法,只使用预训练权重的子集(最低层),并对网络的顶部进行轻量级的重新设计,甚至使用完全合成的特征。我们展示了这些混合方法捕捉到了迁移学习的大部分优势,并使其应用更加灵活。
独立特征迁移的优势:权重缩放
测试了预训练权重是否具有特征无关的好处,比如更好的权重缩放。具体来说,将权重独立初始化为从预训练权重的均值和方差采样得到的独立同分布(iid)权重。这样做会继承预训练权重的缩放,但会破坏所有特征。我们将其称为均值方差初始化,发现它显著加快了收敛速度(图6)。附录中还有其他关于批归一化、权重采样等的额外实验。
权重转移与特征重用
接下来,我们研究有意义的特征重用仅限于网络的最底层。我们通过进行权重转移实验来验证这一结果,即将一组连续的一些预训练权重转移到网络中,然后对其余部分进行随机初始化,并在医学任务上进行训练。在图7中绘制训练曲线和达到阈值AUC所需的步骤,确实显示出在最低几层使用预训练权重具有最大的训练加速效果。有趣的是,仅仅对Resnet的conv1层使用预训练权重就能获得最大的增益,尽管转移Resnet块意味着多个层现在正在重用预训练权重。
主要结果:混合式迁移学习方法
通过转移实验的结果,我们可以提出一些混合式、更灵活的迁移学习方法。首先,对于Resnet等较大的模型,我们可以考虑重用预训练权重,例如到Block2层,重新设计网络的顶部(其中包含大部分参数),使其更加轻量化,然后将这些层随机初始化,并将新的精简模型进行端到端的训练。考虑到conv1的重要性不成比例,我们还可以研究将conv1初始化为合成的Gabor滤波器(详见附录F.3),而将其余网络层随机初始化的效果。在图8中,我们说明了这些混合式方法。通过这种方式减少网络顶部的参数与迁移学习具有相同的收敛性和性能,并且使用合成的Gabor滤波器来初始化conv1与使用预训练权重来初始化conv1具有相同的效果。这些变体展示了许多新的、丰富而灵活的迁移学习方法。
06
结论
在这篇论文中,研究人员探讨了迁移学习在医学成像应用中的核心问题。通过对两个大型医疗任务中标准ImageNet架构和非标准轻量级模型进行基准测试,发现迁移学习对性能提升有限,小型架构可以与标准ImageNet模型相媲美。
他们对表征相似性和特征重用进行了探索,发现标准ImageNet模型在初始化和训练后的表征相似性之间有显著相关性,证明它们在任务中过度参数化。
此外,他们还发现有意义的特征重用主要发生在模型的最底层,并通过探索更灵活、混合的迁移方法提出了新的可能性。这些方法保留了迁移学习的优势并拓展了其应用范围。
此外,研究人员还展示了迁移学习的特征无关的好处,特别是在获得更好的权重缩放和收敛速度方面。总的来说,该论文通过深入研究迁移学习在医学成像领域的应用,揭示了一系列有关性能和特征重用的关键发现,并提出了更灵活和有效的迁移方法。
作者 | 淳豪
排版 | 居居手
更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。
标签:训练,权重,CVPR,模型,学习,PointASNL,2020,ImageNet,迁移 From: https://blog.51cto.com/bftrobot/6947354