原文链接:https://blog.csdn.net/weixin_52963585/article/details/124903050
在实际的试验中发现,随着卷积层和池化层的叠加,不但没有出现学习效果越来越好的情况,反而两种问题:
梯度消失和梯度爆炸
梯度消失:若每一层的误差梯度小于1,反向传播时,网络越深,梯度越趋近于0
梯度爆炸:若每一层的误差梯度大于1,反向传播时,网络越深,梯度越来越大
退化问题
随着层数的增加,预测效果反而越来越差。
为了解决梯度消失或梯度爆炸问题,ResNet论文提出通过数据的预处理以及在网络中使用 BN层来解决。 为了解决深层网络中的退化问题,可以人为地让神经网络某些层跳过下一层神经元的连接,隔层相连,弱化每层之间的强联系。这种神经网络被称为 残差网络 。
在残差块中,输入可通过跨层数据线路更快地向前传播
小结
学习嵌套函数(nested function)是训练神经网络的理想情况。在深层神经网络中,学习另一层作为恒等映射(identity function)较容易(尽管这是一个极端情况)。
残差映射可以更容易地学习同一函数,例如将权重层中的参数近似为零。
利用残差块可以训练出一个有效的深层神经网络:输入可以通过层间的残余连接更快地向前传播。
标签:卷积,梯度,残差,网络,ResNet,神经网络 From: https://www.cnblogs.com/Dongmy/p/18130230