首页 > 其他分享 >神经网络与深度学习——第7章 网络优化与正则化

神经网络与深度学习——第7章 网络优化与正则化

时间:2024-06-04 21:33:01浏览次数:24  
标签:正则 梯度 深度 神经网络 算法 参数 归一化 优化 仿射变换

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第7章 网络优化与正则化

网络优化与正则化

在这里插入图片描述

网络优化

在这里插入图片描述
在这里插入图片描述

网络结构多样性

在这里插入图片描述

高维变量的非凸优化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

神经网络优化的改善方法

在这里插入图片描述

优化算法

在这里插入图片描述

小批量梯度下降

在这里插入图片描述
在这里插入图片描述

批量大小选择

在这里插入图片描述
在这里插入图片描述

学习率调整

在这里插入图片描述

学习率衰减

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

学习率预热

在这里插入图片描述
在这里插入图片描述

周期性学习率调整

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AdaGrad算法

在这里插入图片描述
在这里插入图片描述

RMSprop算法

在这里插入图片描述

AdaDelta算法

在这里插入图片描述
在这里插入图片描述

梯度估计修正

在这里插入图片描述

动量法

在这里插入图片描述在这里插入图片描述

Nesterov加速梯度

在这里插入图片描述

Adam算法

在这里插入图片描述
在这里插入图片描述

梯度截断

在这里插入图片描述
在这里插入图片描述

优化算法小结

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参数初始化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于固定方差的参数初始化

在这里插入图片描述
在这里插入图片描述

基于方差缩放的参数初始化

在这里插入图片描述

Xavier初始化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

He初始化

在这里插入图片描述

正交初始化

在这里插入图片描述
在这里插入图片描述

数据预处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

逐层归一化

在这里插入图片描述
在这里插入图片描述

批量归一化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

层归一化

在这里插入图片描述
在这里插入图片描述

权重归一化

在这里插入图片描述

局部相应归一化

在这里插入图片描述

超参数优化

在这里插入图片描述

网格搜索

在这里插入图片描述

随机搜索

在这里插入图片描述

贝叶斯优化

在这里插入图片描述
在这里插入图片描述

动态资源分配

在这里插入图片描述
在这里插入图片描述

神经架构搜索

在这里插入图片描述

网络正则化

在这里插入图片描述
在这里插入图片描述

l 1 l_1 l1​和 l 2 l_2 l2​正则化

在这里插入图片描述
在这里插入图片描述

权重衰减

在这里插入图片描述

提前停止

在这里插入图片描述

丢弃法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

循环神经网络上的丢弃法

在这里插入图片描述
在这里插入图片描述

数据增强

在这里插入图片描述

标签平滑

在这里插入图片描述
在这里插入图片描述

总结和深入阅读

在这里插入图片描述
在这里插入图片描述

习题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
代入可知,KaTeX parse error: Undefined control sequence: \K at position 15: \frac{\alpha}{\̲K̲}可以看作是真正的学习率,如果不成正比,那么会出现过大或者过小的情况,使参数更新不稳定或者过慢。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看出,如果 β 1 \beta_1 β1​和 β 2 \beta_2 β2​都接近1, M ^ t \hat M_t M^t​接近 M t M_t Mt​, G ^ t \hat G_t G^t​接近 G t G_t Gt​,当 M 0 = 0 , G 0 = 0 M_0=0, G_0=0 M0​=0,G0​=0,初期的均值和未减去均值的方差都很大,因为 t t t较小时,由于从0开始增长的很慢,所以基本都趋于0,所以和真实值差距很大,因此需要进行修正, β 1 t \beta^t_1 β1t​在 t t t变大的时候越来越趋于0,这样就会使初期的 M t M_t Mt​和 G t G_t Gt​更新较大,后期更新较小。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
AdaDelta算法的 G t G_t Gt​计算和RMSprop算法一样,是参数更新差值不同:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
其实就是为了让激活函数 f ( ⋅ ) f(\cdot) f(⋅)的净输入适合激活函数,如果在仿射变换之前进行归一化,那经过了仿射变换以后分布还是变了,可能不适合激活函数的定义域。当用Logistic函数时,如果归一化到[0,1],仿射变换可能让数值大于1,那么梯度就消失了,如果用ReLU函数, x > 0 x > 0 x>0时都是它本身,那么在仿射变换之后可能小于0了,梯度也消失了。
在这里插入图片描述
在这里插入图片描述
γ \gamma γ和 β \beta β表示缩放和平移的参数向量,通过这两个参数,可以调整输入分布,防止ReLU死亡问题,然后有了 β \beta β的存在,仿射变换就不需要偏置参数。
在这里插入图片描述
RNN的梯度随时间反向计算,有一个累积的过程,如果重复进行归一化,会导致梯度爆炸。而且批量归一化是使用小批量的均值和方差来近似整个序列的均值和方差,RNN的序列长度不同,批量均值和方差可能无法反映整个序列的统计特性。批量归一化通常假设批量中的样本是独立同分布的,这和RNN的每一层内不同,RNN的每一层是有时间步的关系。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
很明显,对每个时刻的隐藏状态进行随机丢弃,会损坏网络的时间维度上的记忆能力。
在这里插入图片描述
在这里插入图片描述

标签:正则,梯度,深度,神经网络,算法,参数,归一化,优化,仿射变换
From: https://blog.csdn.net/a_blade_of_grass/article/details/139380755

相关文章

  • Python用GRU神经网络模型预测比特币价格时间序列数据2案例可视化|附代码数据
    全文链接:https://tecdat.cn/?p=36389原文出处:拓端数据部落公众号门控循环单元(GRU)是一种循环神经网络(RNN)类型,旨在有效地捕获序列数据中的长期依赖关系。它是传统RNN的扩展,与长短期记忆(LSTM)网络具有相似性。我们将简要了解GRU模型以及如何帮助客户在PyThon中使用GRU实现序列数据......
  • 深度解读大模型最火的智能体(Agent)
    前言:Copilot和Agent有没有区别?上周写了一篇文章,讲大模型两种模式,一种是Copilot,一种是Agent。(没有看过的同学可以看下。)大模型Copilot和Agent有什么区别?文章出来之后引起了讨论,有同学留言觉得Copilot和Agent没啥区别,核心原因是认为,Copilot是传统软件使用AI增......
  • 快速入门C++正则表达式
    正则表达式(RegularExpression,简称Regex)是一种强大的文本处理工具,广泛用于字符串的搜索、替换、分析等操作。它基于一种表达式语言,使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式不仅在各种编程和脚本语言中被广泛支持,还是很多文本编辑器和处理工......
  • 基于 PyTorch 的 Python 深度学习:注意力机制
    基于PyTorch的Python深度学习:注意力机制深度学习在近年来取得了巨大的进步,而注意力机制(AttentionMechanism)作为其中的一个重要概念,为模型提供了一种捕捉输入数据中不同部分之间关系的能力。在本文中,我们将探讨注意力机制的基本概念,以及如何在PyTorch框架下实现注意......
  • 揭秘电商数据丨API接口开发:lazada虾皮(Shopee)商品详情数据深度解析
    在电商领域,获取并解析商品详情数据对于市场分析、产品定价、竞争对手分析等方面都至关重要。对于在Lazada和虾皮(Shopee)等电商平台运营的商家或数据分析师来说,能够访问和解析这些平台的商品详情数据将是一个巨大的优势。下面,我们将探讨如何通过API接口开发来深度解析Lazada和虾......
  • 拜登-赫尔采访音频因 AI 深度伪造风险被美国司法部保密|TodayAI
    近日,美国司法部决定将总统乔·拜登与特别检察官罗伯特·赫尔的音频采访保密,主要原因是人工智能生成的深度伪造技术(AIdeepfakes)带来的威胁。司法部在周五的法院文件中称,拜登试图利用行政特权隐藏音频的行为遭遇法律挑战,并公开表示将音频保密的理由。司法部在提交的文件中承认......
  • 正则表达式
    正则表达式含义:正则表达式是由一些具有特殊含义的字符组成的字符串,多用于查找、替换符合规则的通俗来讲就是按照某种规则来匹配符合条件的字符串。一、元字符元字符:即为有特定含义的字符,常见的元字符如下:代码说明.匹配除换行符以外的任意字符,只有一个字符例外(\n)\s匹配......
  • Django使用正则表达式
    本书1-7章样章及配套资源下载链接:https://pan.baidu.com/s/1OGmhHxEMf2ZdozkUnDkAkA?pwd=nanc 源码、PPT课件、教学视频等,可以从前言给出的下载信息下载,大家可以评估一下。在Django框架的新版本(v2.0+)中,URLconf模块虽然更改了配置方式,但它依然可以对老版本进行兼容,兼容的......
  • neural network structure 神经网络
    分类多层感知神经网络——最基础卷积神经网络——善于图像识别长短期记忆网络——善于语音识别多层感知——数字识别以一张28*28像素的单个数字图片为例,输出对应0-9![](file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml17560\wps1.jpg)每个像素点的灰度值0-1,即输入为......
  • 【WAF】雷池的动态防护深度体验
    1.前言随着网络安全的不断发展,我们看到了越来越多的技术和策略应用于保护个人和组织的数据免受恶意攻击和侵入。从传统的防火墙和反病毒软件到先进的人工智能和机器学习算法,网络安全领域正在不断创新和进步。未来,我们可以期待更多基于数据分析和预测的安全解决方案,以及对人工......