首页 > 其他分享 >机器学习-梯度消失爆炸

机器学习-梯度消失爆炸

时间:2023-04-11 21:02:27浏览次数:34  
标签:机器 函数 sigmoid 爆炸 梯度 ReLU 神经网络 神经元


梯度消失

本层的神经元的激活等于上一层神经元对应的权值进行加权和运算,
最后通过一个非线性函数(激活函数)如ReLusigmoid等函数,
最后得到的结果就是本层神经元的输出,
逐层逐神经元通过该操作向前传播,最终得到输出层的结果。

梯度消失的影响:

  1. 浅层基本不学习,后面几层一直在学习,失去深度的意义。
  2. 无法收敛。

梯度消失的现象呢?因为通常神经网络所用的激活函数是sigmoid函数
这个函数有个特点:

就是能将负无穷到正无穷的数映射到0和1之间,并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。
因此两个0到1之间的数相乘,得到的结果就会变得很小了。
神经网络的反向传播是逐层对函数偏导相乘,因此当神经网络层数非常深的时候
最后一层产生的偏差就因为乘了很多的小于1的数而越来越小,最终就会变为0,从而导致层数比较浅的权重没有更新

一是在深层网络中,网络层数过多二是采用了不合适的损失函数,比如sigmoid

梯度爆炸

就是由于初始化权值过大,前面层会比后面层变化的更快,就会导致权值越来越大,梯度爆炸的现象就发生了。

解决

ReLU激活函数来替代sigmoid函数。

区别:(1)sigmoid函数值在[0,1],ReLU函数值在[0,+无穷],所以sigmoid函数可以描述概率,ReLU适合用来描述实数;(2)sigmoid函数的梯度随着x的增大或减小和消失,而ReLU不会。

早期多层神经网络如果用sigmoid函数或者hyperbolic tangent作为激活函数,如果不进行pre-training的话,会因为gradient vanishing problem而无法收敛。

而预训练的用处:规则化,防止过拟合;压缩数据,去除冗余;强化特征,减小误差;加快收敛速度。而采用ReLu则不需要进行pre-training


标签:机器,函数,sigmoid,爆炸,梯度,ReLU,神经网络,神经元
From: https://blog.51cto.com/u_16066155/6183897

相关文章

  • 机器学习-线性回归
    每个特征变量可以首先映射到⼀一个函数,然后再参与线性计算,模型如下:其中表示自变量(特征分量),表示因变量,是权重,是偏移项(截距);越大,说明对结果的影响越⼤输入空间映射到特征空间(映射函数),建模.为特征映射相关技术,包括特征哈希、特征学习、Kernel等目标函数预测值$h_\theta(x)y$之......
  • 1041. 困于环中的机器人
    题目链接:1041.困于环中的机器人方法:模拟解题思路模拟机器人的行动过程,若再重复四轮之后仍没有回到起始状态,则机器人可以离开,否则不能离开。代码classSolution{public:boolisRobotBounded(stringinstructions){intmov[4][2]={{0,1},{1,0},{0,-1}......
  • python ssh Linux机器 paramiko库的简单使用
    pythonsshLinux机器paramiko库的简单使用以用户名密码方式连接Linux主机defconn_by_password():"""1)如果抛出异常:SSHException:Server'172.17.140.17'notfoundinknown_hosts则需要设置ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy(......
  • Cacti监控远程linux机器配置(被监控端)
    一、被监控机安装snmpyum-yinstallsnmp二、被监控机的配置vi/etc/snmp/snmpd.conf做以下更改: 1、找到com2sec notConfigUser  default       public 改为:com2sec notConfigUser   192.168.1.1(改成监控服务器的ip)       public 2、找到access......
  • 困于环中的机器人
    在无限的平面上,机器人最初位于(0,0)处,面朝北方。注意:-北方向是y轴的正方向。-南方向是y轴的负方向。-东方向是x轴的正方向。-西方向是x轴的负方向。机器人可以接受下列三条指令之一:-"G":直走1个单位-"L":左转90度-"R":右转90度机器人按顺序执行指令......
  • 事实胜于雄辩,苹果MacOs能不能玩儿机器/深度(ml/dl)学习(Python3.10/Tensorflow2)
    坊间有传MacOs系统不适合机器(ml)学习和深度(dl)学习,这是板上钉钉的刻板印象,就好像有人说女生不适合编程一样的离谱。现而今,无论是Pytorch框架的MPS模式,还是最新的Tensorflow2框架,都已经可以在M1/M2芯片的Mac系统中毫无桎梏地使用GPU显卡设备,本次我们来分享如何在苹果MacOS系统上......
  • 在「机器人领域」使用ChatGPT提高生产力
    以下文章来源于空中机器人前沿 ,作者小米编辑:一点人工一点智能原文:在「机器人领域」使用ChatGPT提高生产力最近几个月,ChatGPT大火,它是OpenAI于去年11月底推出的人工智能聊天机器人程序,已经成为了历史上增长最快的消费者应用程序[1]。毫无疑问,ChatGPT受到了各个行业的广泛关注。其......
  • 全网最详细中英文ChatGPT-GPT-4示例文档-智能聊天机器人从0到1快速入门——官网推荐的
    目录Introduce简介setting设置Prompt提示Sampleresponse回复样本APIrequest接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字,生成流畅和有趣的回答。如果你想跟上AI时代的潮流......
  • 机器学习-吴恩达课程笔记
    z-score归一化通过正态分布来放缩范围,注意任何放缩  在x缩小完范围以后都要改变原先的公式即y,不能只改变x的范围。缩放基本没有副作用。 多项式回归表明特征值的数量不一定等于曲线公式中x的数量,如上图,有两个x但是特征值只有一个,其实之所以会产生这个疑问还是在于x没......
  • 小程序入门4—钉钉群机器人消息通知和钉钉工作通知
    前言在消息通知这块,钉钉可谓是玩出了花,比如工作通知、群机器人通知,还有那万恶的Ding一下。钉钉的通知不仅花样多,而且大部分渠道都支持自定义,也即可以自定义设置发送时间、发送内容,并且还支持多种样式的消息如文本、卡片、Markdown等。这篇文章我主要介绍一下常用的两类:钉钉群机......