机器学习-梯度消失爆炸

时间：2023-04-11 21:02:27浏览次数：34

梯度消失

本层的神经元的激活等于上一层神经元对应的权值进行加权和运算，
最后通过一个非线性函数（激活函数）如ReLu，sigmoid等函数，
最后得到的结果就是本层神经元的输出，
逐层逐神经元通过该操作向前传播，最终得到输出层的结果。

梯度消失的影响：

浅层基本不学习，后面几层一直在学习，失去深度的意义。
无法收敛。

梯度消失的现象呢？因为通常神经网络所用的激活函数是sigmoid函数
这个函数有个特点:

就是能将负无穷到正无穷的数映射到0和1之间，并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。
因此两个0到1之间的数相乘，得到的结果就会变得很小了。
神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候
最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，最终就会变为0，从而导致层数比较浅的权重没有更新
一是在深层网络中，网络层数过多二是采用了不合适的损失函数，比如sigmoid

梯度爆炸

就是由于初始化权值过大，前面层会比后面层变化的更快，就会导致权值越来越大，梯度爆炸的现象就发生了。

解决

用ReLU激活函数来替代sigmoid函数。

区别：（1）sigmoid函数值在[0,1],ReLU函数值在[0,+无穷]，所以sigmoid函数可以描述概率，ReLU适合用来描述实数；（2）sigmoid函数的梯度随着x的增大或减小和消失，而ReLU不会。

早期多层神经网络如果用sigmoid函数或者hyperbolic tangent作为激活函数，如果不进行pre-training的话，会因为gradient vanishing problem而无法收敛。

而预训练的用处：规则化，防止过拟合；压缩数据，去除冗余；强化特征，减小误差；加快收敛速度。而采用ReLu则不需要进行pre-training。

标签：机器,函数,sigmoid,爆炸,梯度,ReLU,神经网络,神经元
From： https://blog.51cto.com/u_16066155/6183897

机器学习-线性回归
每个特征变量可以首先映射到⼀一个函数，然后再参与线性计算,模型如下：其中表示自变量（特征分量），表示因变量，是权重，是偏移项（截距）;越大，说明对结果的影响越⼤输入空间映射到特征空间(映射函数)，建模.为特征映射相关技术，包括特征哈希、特征学习、Kernel等目标函数预测值$h_\theta(x)y$之......
1041. 困于环中的机器人
题目链接：1041.困于环中的机器人方法：模拟解题思路模拟机器人的行动过程，若再重复四轮之后仍没有回到起始状态，则机器人可以离开，否则不能离开。代码classSolution{public:boolisRobotBounded(stringinstructions){intmov[4][2]={{0,1},{1,0},{0,-1}......
python ssh Linux机器 paramiko库的简单使用
pythonsshLinux机器paramiko库的简单使用以用户名密码方式连接Linux主机defconn_by_password():"""1)如果抛出异常:SSHException:Server'172.17.140.17'notfoundinknown_hosts则需要设置ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy(......
Cacti监控远程linux机器配置（被监控端）
一、被监控机安装snmpyum-yinstallsnmp二、被监控机的配置vi/etc/snmp/snmpd.conf做以下更改： 1、找到com2sec notConfigUser default public 改为：com2sec notConfigUser 192.168.1.1（改成监控服务器的ip） public 2、找到access......
困于环中的机器人
在无限的平面上，机器人最初位于(0,0)处，面朝北方。注意:-北方向是y轴的正方向。-南方向是y轴的负方向。-东方向是x轴的正方向。-西方向是x轴的负方向。机器人可以接受下列三条指令之一：-"G"：直走1个单位-"L"：左转90度-"R"：右转90度机器人按顺序执行指令......
事实胜于雄辩,苹果MacOs能不能玩儿机器/深度(ml/dl)学习(Python3.10/Tensorflow2)
坊间有传MacOs系统不适合机器(ml)学习和深度(dl)学习，这是板上钉钉的刻板印象，就好像有人说女生不适合编程一样的离谱。现而今，无论是Pytorch框架的MPS模式，还是最新的Tensorflow2框架，都已经可以在M1/M2芯片的Mac系统中毫无桎梏地使用GPU显卡设备，本次我们来分享如何在苹果MacOS系统上......
在「机器人领域」使用ChatGPT提高生产力
以下文章来源于空中机器人前沿，作者小米编辑：一点人工一点智能原文：在「机器人领域」使用ChatGPT提高生产力最近几个月，ChatGPT大火，它是OpenAI于去年11月底推出的人工智能聊天机器人程序，已经成为了历史上增长最快的消费者应用程序[1]。毫无疑问，ChatGPT受到了各个行业的广泛关注。其......
全网最详细中英文ChatGPT-GPT-4示例文档-智能聊天机器人从0到1快速入门——官网推荐的
目录Introduce简介setting设置Prompt提示Sampleresponse回复样本APIrequest接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人，它能够理解图片和文字，生成流畅和有趣的回答。如果你想跟上AI时代的潮流......
机器学习-吴恩达课程笔记
z-score归一化通过正态分布来放缩范围，注意任何放缩在x缩小完范围以后都要改变原先的公式即y，不能只改变x的范围。缩放基本没有副作用。多项式回归表明特征值的数量不一定等于曲线公式中x的数量，如上图，有两个x但是特征值只有一个，其实之所以会产生这个疑问还是在于x没......
小程序入门4—钉钉群机器人消息通知和钉钉工作通知
前言在消息通知这块，钉钉可谓是玩出了花，比如工作通知、群机器人通知，还有那万恶的Ding一下。钉钉的通知不仅花样多，而且大部分渠道都支持自定义，也即可以自定义设置发送时间、发送内容，并且还支持多种样式的消息如文本、卡片、Markdown等。这篇文章我主要介绍一下常用的两类：钉钉群机......

机器学习-梯度消失爆炸

梯度消失

梯度爆炸

解决

相关文章

赞助商

阅读排行