首页 > 其他分享 >机器学习之梯度消失和梯度爆炸

机器学习之梯度消失和梯度爆炸

时间:2024-10-10 13:19:56浏览次数:3  
标签:机器 函数 爆炸 梯度 消失 求导 神经元

第一部分:梯度消失问题描述

我们以多层单神经元为例,同时,为了简化问题描述,我们省略偏置b:

假设我们现在想要更新参数w1:

那么通过链式法则求导就是:

假设我们使用的是sigmoid函数:

那么sigmoid的求导函数图像为:

倒数的范围为0~1/4,而不是0~1之间,如果是0~1之间,那么上面的这四个求导下来,变化幅度不大而且真实,但是现在是每个求导都是被缩减到原先1/4的水平,到最前面w1的时候就变成了1/256,这个时候缩小的太快了,导致直接近似变成0了,也就是所谓的“梯度消失”,这个梯度的意思指的是多个连续相乘。

第二部分:梯度爆炸问题描述

还是以第一部分为例:

如果我们刚开始初始化的w比较大,那么三个连乘之后的数将会变得非常大,也就是所谓的“梯度爆炸

第三部分:总结梯度消失和梯度爆炸

无论是梯度消失还是梯度爆炸,都是“梯度信号的一种严重失真!”

它们产生的原因都是因为:“神经网络的串联式结构”、“反向传播算法”、“不合适的激活函数”以及“权重初始值设置不太好”等。

梯度消失:导致网络退化(因为前面那几层的参数几乎为零,也就是前面几层神经元都失去了作用,相当于摆设)

梯度爆炸:导致网络不稳定(传到前面的神经元就会变得太大,需要来回调整,非常不稳定)

第四部分:解决方法

(1)使用relu函数或它的变体等激活函数

(2)使用梯度剪切

(3)权重正则化

(4)残差网络(跳跃式)

标签:机器,函数,爆炸,梯度,消失,求导,神经元
From: https://blog.csdn.net/weixin_74009895/article/details/142778814

相关文章

  • 一文详细解读自动驾驶与机器人所需各种传感器的原理与优缺点
    更多优质内容,请关注公众号:智驾机器人技术前线1.激光雷达(LiDAR)工作原理:激光雷达通过发射短脉冲的激光束,测量光束从目标物体反射回来所需的时间(即飞行时间),从而计算出物体的距离。LiDAR通常通过旋转激光发射器来获取360度的视场,生成点云数据,反映周围环境的三维信息。优势:高......
  • 机器学习:opencv--图像拼接
    目录前言一、两个函数1.显示图像2.计算图片特征与描述符二、代码实例1.准备图像2.特征检测3.特征匹配4.图像变换5.图像融合前言图像拼接是一种将多张图像合成一幅大图的技术,常用于全景图生成、图像拼接和图像合成等应用场景。 一、两个函数1.显示图像defcv......
  • 《机器学习初步》笔记
    第一章绪论1.1引言机器学习的经典定义:利用经验(数据)改善系统自身的性能经典的机器学习过程:机器学习最重要的理论模型:PAC(概览近似正确)1.2基本术语数据集:一组记录的集合学习/训练:通过执行某个学习算法,得到模型,学的的模型对应数据的某种潜在规律示例:不包含结果(标记label)......
  • 《机器学习初步》笔记
    第一章绪论1.1引言机器学习的经典定义:利用经验(数据)改善系统自身的性能经典的机器学习过程:机器学习最重要的理论模型:PAC(概览近似正确)1.2基本术语数据集:一组记录的集合学习/训练:通过执行某个学习算法,得到模型,学的的模型对应数据的某种潜在规律示例:不包含结果(标记label)......
  • TensorFlow Serving: 高性能机器学习模型部署利器
    servingTensorFlowServing简介TensorFlowServing是一个专为生产环境设计的灵活、高性能机器学习模型服务系统。它主要处理机器学习的推理(inference)阶段,负责管理训练后模型的生命周期,并通过高性能的引用计数查找表为客户端提供版本化访问。虽然TensorFlowServing原生支持Ten......
  • 《机器学习初步》笔记
    第一章绪论1.1引言机器学习的经典定义:利用经验(数据)改善系统自身的性能经典的机器学习过程:机器学习最重要的理论模型:PAC(概览近似正确)1.2基本术语数据集:一组记录的集合学习/训练:通过执行某个学习算法,得到模型,学的的模型对应数据的某种潜在规律示例:不包含结果(标记label)......
  • 【MATLAB源码-第239期】基于matlab的孔雀优化算法(POA)机器人栅格路径规划,输出做短路
    操作环境:MATLAB2022a1、算法描述孔雀优化算法(PeafowlOptimizationAlgorithm,简称POA)以孔雀(peafowl)的求偶展示行为为灵感,通过模拟这一过程来解决复杂的优化问题。以下是对孔雀优化算法的详细描述:孔雀优化算法是一种基于自然界中孔雀求偶展示行为的群体智能优化算法。孔雀......
  • 明达IO:赋能工业机器人新未来
    摘要:明达技术以其卓越的分布式IO(MR30)与一体式IO(MR20)产品,为工业机器人行业提供了完美的信号交互解决方案。在集群式机器人应用场景中,MR30分布式IO以其稳定性能和自由热插拔功能,降低了成本,提升了竞争力。而在单个或少量机器人应用场景中,MR20一体式IO则以其小巧的体积、合理的空......
  • 机器学习
    一、绪论启发式小故事:AlphaGo理论算法数据建模对策学习16万局业余棋手比赛AlphaGoZero3天后:100:0超越AlphaGoLee21天后:达到AlphaGoMaster40天后:超过所有之前的版本ThoughtsaboutAlphaGoZero:无师自通:没有任何人类的经验自问:人类的经验是有害的?人类因......
  • 莫托曼机器人GP110B操作手柄故障维修全攻略
     莫托曼机器人GP110B操作手柄故障机器人维修全攻略       一、前言       莫托曼机器人GP110B操作手柄是机器人控制系统的重要组成部分,它允许操作人员对机器人进行精确的控制和操作。然而,在使用过程中,操作手柄可能会出现各种故障。本文将为您提供一......