首页 > 编程语言 >AI-11. 优化算法

AI-11. 优化算法

时间:2023-08-04 10:45:22浏览次数:41  
标签:11 函数 AI 梯度 最小值 算法 深度 优化

优化算法对于深度学习非常重要。一方面,训练复杂的深度学习模型可能需要数小时、几天甚至数周。优化算法的性能直接影响模型的训练效率。另一方面,了解不同优化算法的原则及其超参数的作用将使我们能够以有针对性的方式调整超参数,以提高深度学习模型的性能。

11.1. 优化和深度学习

  对于深度学习问题,我们通常会先定义损失函数。一旦我们有了损失函数,我们就可以使用优化算法来尝试最小化损失。在优化中,损失函数通常被称为优化问题的目标函数。尽管优化提供了一种最大限度地减少深度学习损失函数的方法,但本质上,优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标,后者则关注在给定有限数据量的情况下寻找合适的模型。

深度学习优化存在许多挑战。其中最令人烦恼的是局部最小值、鞍点和梯度消失。

局部最优:通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优。只有一定程度的噪声可能会使参数跳出局部最小值。事实上,这是小批量随机梯度下降的有利特性之一。在这种情况下,小批量上梯度的自然变化能够将参数从局部极小值中跳出。

鞍点:鞍点(saddle point)是指函数的所有梯度都消失但既不是全局最小值也不是局部最小值的任何位置。

梯度消失:某些函数会出现梯度很小的情况,例如tanh(x)在x非常大时梯度非常小,

练习:

1考虑一个简单的MLP,它有一个隐藏层,比如,隐藏层中维度为d和一个输出。证明对于任何局部最小值,至少有!d!个等效方案。

2假设我们有一个对称随机矩阵M,其中条目Mij=Mji各自从某种概率分布pij中抽取。此外,假设pij(x)=pij(−x),即分布是对称的(详情请参见 (Wigner, 1958))。

证明特征值的分布也是对称的。也就是说,对于任何特征向量v,关联的特征值λ满足P(λ>0)=P(λ<0)的概率为P(λ>0)=P(λ<0)。为什么以上没有暗示P(λ>0)=0.5?

3假设你想在(真实的)鞍上平衡一个(真实的)球。为什么这很难?能利用这种效应来优化算法吗?

标签:11,函数,AI,梯度,最小值,算法,深度,优化
From: https://www.cnblogs.com/CLGYPYJ/p/17605272.html

相关文章

  • 代码随想录算法训练营第四十五天| 503.下一个更大元素II 42. 接雨水
    503.下一个更大元素II 要求:数组是环,需要找到下一个最大的元素思路1:先作为直线遍历,然后没有的节点,放到首部,再找比他大的节点注意:头节点代码:1//要求:返回循环数组中下一个更大的数字步数2//思路:先不循环遍历,3//然后对每个-1节点,以他为起始,放到数组的开头,计算有几......
  • 配置pytorch环境时出现的问题 Failed to load image Python extension
    安装了torch1.12.0+torchvision0.13.0+torchaudio0.12.0版本后,condainstallpytorch==1.12.0torchvision==0.13.0torchaudio==0.12.0cudatoolkit=11.3-cpytorch按照《动手学深度学习》输入 fromd2limporttorchasd2l命令,跳出警告UserWarning:Failed......
  • 如何学习AI大模型?
    AI介绍近年来,随着人工智能技术的快速发展,大模型成为了人们关注的焦点之一。这些大模型以其强大的计算能力和学习能力,为我们带来了许多惊喜和创新。本文将探讨AI大模型的美妙之处。首先,AI大模型在自然语言处理方面表现出色。通过深度学习的方法,这些模型能够理解和生成人类语言,实现自......
  • Dell R740 服务器设置磁盘直通,不做 RAID 虚拟磁盘阵列
    实验环境1.不做RAID2.磁盘直通3.安装win2016切换non-RAID模式F2进入DeviceSettings后选择第一行的PERCH730,之后点击PhysicalDiskMangement然后查看硬盘的状态,是否均为ready,若是ready说明可以被设置为阵列但未配置,若您不需配置阵列则需要将硬盘转换为non-......
  • C++11
    1.VariadicTemplate可以传入任意数量的参数,并且参数的类型不定。voidprintX(){}template<typenameT,typename...Types>voidprintX(constT&firstArg,constTypes&...args){cout<<firstArg<<endl;printX(args...);}其中,...是pack包,用于模板参数中(typenam......
  • 算法工程师学习运筹学 笔记一 P,NP,NPC问题
    算法的时间复杂度我之前理解的时间复杂度,是指的解决一个问题所需要的时间。但其实并不准确,时间复杂度应该是 当问题规模扩大后,程序需要的时间长度增长得有多快。时间复杂度有两种类型:一种是O(1),O(log(n)),O(n^a)等,我们把它叫做多项式级的复杂度,因为它的规模n出现在底数的位置;......
  • 【总结】百家稷学!重点汇总有三AI(教育)服务过的那些企业与学校
    近一年多来我们开始服务B端用户,已经陆续和许多企业和学校进行了长短期的合作,2021年年关将至,下面来简单做一个汇总。阿里云阿里云是我们的第一个客户,合作次数最多,历经时间也最长。自从2019年开始以深度学习模型设计为主题在阿里云开启了3次直播之后,我们后面又与阿里云进行了多次合作......
  • 【总结】超1000页有三AI文档资源领取方法汇总!
    这几年我们平台输出了很多内容,有免费的也有付费的,有图文也有视频,本次对我们所有文档类资源领取方法做一个汇总。有三的书相关资料至今有三已经出版了4本书,分别是《深度学习之图像识别》,《深度学习之模型设计》,《深度学习之人脸图像处理》,《深度学习之摄影图像处理》,介绍如下:一些书......
  • 【总结】从视频到图文,代码实战,有三AI-GAN学习资料汇总!
    GAN无疑是这几年深度学习领域里最酷的技术,不管是理论的研究,还是GAN在图像生成,图像翻译,语音图像等基础领域的应用,都非常的丰富。我们公众号输出过非常多的GAN相关资源,本次做一个简单汇总,我们平台已有的GAN资源包括免费与付费的视频课,知识星球中的GAN模型原理解读专题,公众号的GAN付费......
  • 强化学习Chapter4——两个基本优化算法(1)
    强化学习Chapter4——两个基本优化算法(1)上一节导出了状态价值函数的贝尔曼方程以及最优状态价值函数:\[\begin{aligned}V^\pi(s)&=E_{a\sim\pi,s’\simP}[r(s,a)+\gammaV^\pi(s‘)]\\&=\sum_{a}\pi(a|s_t)(r(s_t,a)+\gamma\sum_{s'}p(s'|s_t,a)V^\pi(s'))\\V^*(s)&am......