首页 > 其他分享 >[重读经典论文]ResNet

[重读经典论文]ResNet

时间:2023-04-03 23:44:15浏览次数:61  
标签:映射 论文 残差 网络 ResNet resnet 恒等 重读

1. 前言

ResNet由微软亚洲研究院在论文《Deep Residual Learning for Image Recognition》中提出,获得2015年ImageNet图像分类、定位、检测,MS COCO竞赛检测、分割五条赛道的冠军,通过引入残差连接,有效解决深层网络训练时的退化问题,可以通过加深网络大大提升性能。

ResNet在ILSVRC-2015图像分类竞赛中获得了top-5误差3.57%的冠军成绩,在图像分类任务上首次超过人类能力。ResNet常用于迁移学习和fine-tuning微调的特征提取的基模型。

2. resnet解决了什么问题

我们知道,从Alexnet开始,到VGG,到GooLeNet,网络的层数逐渐加深,性能也逐渐提高,网络越深提取的特征层次也越丰富,但是我们也知道,越深的网络,越容易出现梯度消失或者爆炸,导致难以收敛,但是这些问题可以通过适当的权重初始化(Xarvier,MSRA)加上BN层进行解决。

真正的问题是,随着网络越深,出现了网络退化,深层的网络都和浅层的网络相比,在训练误差和测试误差上都要差,如下图所示:

Snipaste_2023-04-03_20-36-50

明显56层的网络也学到了东西,也不是过拟合造成的这个问题。

3. resnet如何解决网络退化问题

作者的思路是这样的,现在我们有一个比较浅的模型,还有在这个基础上加了更多层的深层模型,按理来说存在一种情况,就是增加的层是一个恒等映射,其他的权重从浅层模型照搬,按照这种情况的话,更深的模型实际上是不应该比浅模型还要差的。但是目前实验证明还无法找到方法去训练这样的恒等映射(或者比这个恒等映射更好的东西,也可能暂时无法实现)

那解决办法就显而易见了,让模型能够学到这样的恒等映射就可以了。

如果把网络设计为H(x) = F(x) + x,即直接把恒等映射作为网络的一部分。就可以把问题转化为学习一个残差函数F(x) = H(x) - x.

只要F(x)=0,就构成了一个恒等映射H(x) = x。 而且,拟合残差至少比拟合恒等映射容易得多。

于是作者提出了本作的重点,残差模块(Residual block),如下图所示:

Snipaste_2023-04-03_20-55-39

右边的分支叫短路连接(shortcut connection),它是恒等映射,直接把输入x直接连到输出了,左边支线通过两个卷积层,其中第二个卷积层后面不使用激活函数,输出与原输入逐元素相加,然后通过Relu激活函数后,作为本模块的输出。

用数学语言描述,假设Residual Block的输入为x,则输出y等于:

image

image就是我们需要学习的残差,以上图为例,残差部分是中间有一个Relu激活的双层权重,即:

image

残差部分至少要有两层,不然只有一层的话,就相当于:

image

就变成了一个线性层了,跟没加差不多。

因为输出是逐元素相加,因此就必须保持输入x与残差模块的输出的形状是需要一致的,论文中说到如果不一致就通过引入一个投影方阵进行转换:

image

至于这个投影矩阵如何做,在后面有两种方案。

其实这里也提了一嘴,在式子(1)中也可以为x加这么一个方阵,相当于加多一个学习的权重,但是最后他们发现直接恒等映射效果就很好了,而且很经济,这些实验可以参考他们的另外一篇论文《Identity Mappings in Deep Residual Networks》

4. 网络结构

v2-03f393009c383ce8ec8b956399a105a8_720w

如上图所示,左边是宣称very deep的Vgg,中间是没有加残差的34层卷积网络,右边是加了残差的34层的resnet,resnet突出的就是一个字:深。

至于短接部分,实线表示短接前后的输入输出维度是一样的,直接相加;虚线表示前后不一样,残差部分进行了下采样,长宽减半,通道翻倍。

面对这种情况,有两种解决的方案:

  • 对多出来的通道全部用0进行填充
  • 用1*1卷积进行升维

这里说得还是有点模糊的,如果是方案1,则输入的长宽是输出的两倍,他们要怎么相加呢,我估计是在相加的时候按stride=2进行相加,假如原来x的尺寸为w*h,则沿w方向取下标为(0,2,4,…w),h方向取(0,2,4,……h)这样长宽就一致了。

第二种方案是使用1*1卷积进行升维,但是长宽呢,答案是设置stride=2,这个从pytorch的res block的实现得出:

image

对比普通卷积网络和加入残差的resnet,更深的网络,性能就更好了,如下图所示:

image

左边为未加残差的网络,出现了网络退化的问题,在测试集和验证集上34层的都比18层的网络差,加了残差后,34层的就比18层的网路要好多了。

总共提出了5种残差网络:

image

为了减少参数量和计算量,还提出了一种bottleneck的残差模块,以使用到更深的网络中,如下图所示:

image

左边用在resnet18/24中,右边的bottleneck模块使用子啊resnet50/101/152中。

5. resnet为什么能解决网络退化

理论一:深层梯度回传顺畅

  • 恒等映射这一路的梯度是1,把深层梯度注入底层,防止梯度消失。
  • 没有中间商层层盘剥。

理论二:类比其它机器学习模型

  • 集成学习boosting,每一个弱分类器拟合“前面的模型与GT之差”。
  • 长短时记忆神经网络LSTM的遗忘门。
  • Relu激活函数。

理论三:传统线性结构网络难以拟合“恒等映射

  • 什么都不做有时很重要。
  • skip connection可以让模型自行选择要不要更新
  • 弥补了高度非线性造成的不可逆的信息损失。(MobileNet V2)

6. 参考

[1] Resnet到底在解决一个什么问题呢?
[2] Resnet是否只是一个深度学习的trick?
[3] 为什么resnet效果会那么好?

[4] 【精读AI论文】ResNet深度残差网络

(完)

标签:映射,论文,残差,网络,ResNet,resnet,恒等,重读
From: https://www.cnblogs.com/harrymore/p/17284952.html

相关文章

  • 大数据经典论文解读 - 分布式锁 Chubby
    Chubby在谷歌“三驾马车”中3个系统都是单Master系统,这个Master是系统的单点,一旦Master故障集群就无法提供服务。使用BackupMaster,通过监控机制进行切换。但是:如何实现BackupMaster和Master完全同步?监控程序也是单点,如何确定是Master宕机还是监控程序到Master的网络断了?后者......
  • 多精度 simulator 中的 RL:一篇 14 年 ICRA 的古早论文
    目录全文快读0abstract1intro2relatedwork3背景&假设3.1RL&KWIK(knowwhatitknows)的背景3.2问题定义4Multi-FidelityBanditOptimization4.1MF寻找最优arm的算法(MF-bandit)4.2一个例子4.3理论证明5Multi-FidelityRL5.1MFRLalgorithm5.2一个例子5.3理论......
  • 巧用ChatGPT编写万字长文的论文,纯干货实操
    文/ 韩彬 用ChatGPT写文章属于它的基本操作了,现在我们看看如何使用ChatGPT编写论文级的文章。 论文的编写步骤通常有这四步: 1、定主题 2、写提纲 3、填内容 4、改标题(可选项) 这几点其实可以运用于我们对ChatGPT的操作。 这里面有个小技巧,建议你先用英文......
  • GPT-1论文阅读
    简介题目:ImprovingLanguageUnderstandingbyGenerativePre-Training翻译:改善语言理解通过生成式预训练点击下载pdf概要:自然语言理解包含很多问题:文本蕴含、问答、语义相似度评估、文献分类。大量的无标签文本语料库是丰富的,打标签语料库是匮乏的,分别去训练模型很难有良好效......
  • GPT-2论文阅读
    简介题目:LanguageModelsareUnsupervisedMultitaskLearners翻译:语言模型是无监督多任务学习者点击下载pdf概要:以往的自然语言处理任务:问答、翻译、阅读理解、总结,需要使用特定的有标签数据集进行监督训练。本文仅仅使用从网页搜集的数据集WebText,而没有使用任何监督数据,15亿......
  • 【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
    【论文速递】ICLR2018-用于小样本语义分割的条件网络【论文原文】:CONDITIONALNETWORKSFORFEW-SHOTSEMANTICSEGMENTATION(Workshoptrack-ICLR2018)【作者信息】:KateRakellyEvanShelhamerTrevorDarrellAlexeiEfrosSergeyLevine获取地址:https://openreview.net/pdf?......
  • 【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性
    【论文速递】MMM2020-电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能【论文原文】:ANewLocalTransformationModuleforFew-shotSegmentation【作者信息】:YuweiYang,FanmanMeng,HongliangLi,QingboWu,XiaolongXuandShuaiChen获取地址:https://arxi......
  • 【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
    【论文速递】Arxiv2018-加州伯克利大学借助引导网络实现快速、准确的小样本分割【论文原文】:Few-ShotSegmentationPropagationwithGuidedNetworks【作者信息】:KateRakelly∗EvanShelhamer∗TrevorDarrellAlexeiEfrosSergeyLevine获取地址:https://arxiv.org/pdf/180......
  • 【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
    【论文速递】WACV2023-循环相似注意力的小样本医学图像分割【论文原文】:Few-shotMedicalImageSegmentationwithCycle-resemblanceAttention获取地址:https://arxiv.org/pdf/2212.03967.pdf博主关键词:小样本学习,语义分割,自监督,原型摘要:近年来,由于医学影像应用需求的不断提高......
  • 【论文速递】WACV2023 - CellTranspose:用于细胞实例分割的小样本域自适应
    【论文速递】WACV2023-CellTranspose:用于细胞实例分割的小样本域自适应【论文原文】:CellTranspose:Few-shotDomainAdaptationforCellularInstanceSegmentation获取地址:https://openaccess.thecvf.com/content/WACV2023/papers/Keaton_CellTranspose_Few-Shot_Domain_Adap......