首页 > 其他分享 >神经网络优化篇:详解调试处理(Tuning process)

神经网络优化篇:详解调试处理(Tuning process)

时间:2024-01-24 10:13:28浏览次数:33  
标签:varepsilon Tuning process beta 神经网络 参数 搜索 取值 调试

调试处理

关于训练深度最难的事情之一是要处理的参数的数量,从学习速率\(a\)到Momentum(动量梯度下降法)的参数\(\beta\)。如果使用MomentumAdam优化算法的参数,\(\beta_{1}\),\({\beta}_{2}\)和\(\varepsilon\),也许还得选择层数,也许还得选择不同层中隐藏单元的数量,也许还想使用学习率衰减。所以,使用的不是单一的学习率\(a\)。接着,当然可能还需要选择mini-batch的大小。

结果证实一些超参数比其它的更为重要,认为,最为广泛的学习应用是\(a\),学习速率是需要调试的最重要的超参数。

除了\(a\),还有一些参数需要调试,例如Momentum参数\(\beta\),0.9就是个很好的默认值。还会调试mini-batch的大小,以确保最优算法运行有效。还会经常调试隐藏单元,用橙色圈住的这些,这三个是觉得其次比较重要的,相对于\(a\)而言。重要性排第三位的是其他因素,层数有时会产生很大的影响,学习率衰减也是如此。当应用Adam算法时,事实上,从不调试\(\beta_{1}\),\({\beta}_{2}\)和\(\varepsilon\),总是选定其分别为0.9,0.999和\(10^{-8}\),如果想的话也可以调试它们。

但希望粗略了解到哪些超参数较为重要,\(a\)无疑是最重要的,接下来是用橙色圈住的那些,然后是用紫色圈住的那些,但这不是严格且快速的标准,认为,其它深度学习的研究者可能会很不同意的观点或有着不同的直觉。

现在,如果尝试调整一些超参数,该如何选择调试值呢?在早一代的机器学习算法中,如果有两个超参数,这里会称之为超参1,超参2,常见的做法是在网格中取样点,像这样,然后系统的研究这些数值。这里放置的是5×5的网格,实践证明,网格可以是5×5,也可多可少,但对于这个例子,可以尝试这所有的25个点,然后选择哪个参数效果最好。当参数的数量相对较少时,这个方法很实用。

在深度学习领域,常做的,推荐采用下面的做法,随机选择点,所以可以选择同等数量的点,对吗?25个点,接着,用这些随机取的点试验超参数的效果。之所以这么做是因为,对于要解决的问题而言,很难提前知道哪个超参数最重要,正如之前看到的,一些超参数的确要比其它的更重要。

举个例子,假设超参数1是\(a\)(学习速率),取一个极端的例子,假设超参数2是Adam算法中,分母中的\(\varepsilon\)。在这种情况下,\(a\)的取值很重要,而\(\varepsilon\)取值则无关紧要。如果在网格中取点,接着,试验了\(a\)的5个取值,那会发现,无论\(\varepsilon\)取何值,结果基本上都是一样的。所以,知道共有25种模型,但进行试验的\(a\)值只有5个,认为这是很重要的。

对比而言,如果随机取值,会试验25个独立的\(a\),似乎更有可能发现效果做好的那个。

已经解释了两个参数的情况,实践中,搜索的超参数可能不止两个。假如,有三个超参数,这时搜索的不是一个方格,而是一个立方体,超参数3代表第三维,接着,在三维立方体中取值,会试验大量的更多的值,三个超参数中每个都是。

实践中,搜索的可能不止三个超参数有时很难预知,哪个是最重要的超参数,对于的具体应用而言,随机取值而不是网格取值表明,探究了更多重要超参数的潜在值,无论结果是什么。

当给超参数取值时,另一个惯例是采用由粗糙到精细的策略。

比如在二维的那个例子中,进行了取值,也许会发现效果最好的某个点,也许这个点周围的其他一些点效果也很好,那在接下来要做的是放大这块小区域(小蓝色方框内),然后在其中更密集得取值或随机取值,聚集更多的资源,在这个蓝色的方格中搜索,如果怀疑这些超参数在这个区域的最优结果,那在整个的方格中进行粗略搜索后,会知道接下来应该聚焦到更小的方格中。在更小的方格中,可以更密集得取点。所以这种从粗到细的搜索也经常使用。

通过试验超参数的不同取值,可以选择对训练集目标而言的最优值,或对于开发集而言的最优值,或在超参搜索过程中最想优化的东西。

希望,这能给提供一种方法去系统地组织超参数搜索过程。另一个关键点是随机取值和精确搜索,考虑使用由粗糙到精细的搜索过程。

标签:varepsilon,Tuning,process,beta,神经网络,参数,搜索,取值,调试
From: https://www.cnblogs.com/oten/p/17983994

相关文章

  • 卷积神经网络学习笔记
    全连接神经网络的结构全连接神经网络的整体结构可以简化为智能函数\(y=f_θ(x)\)输入和输出层一般为数据矩阵全连接网络的单元结构神经网络的思路:从单元到整体一个单元的结构:\(X_1,X_2,X_3...\)是很多矩阵,然后这些矩阵分别乘上对应的权重矩阵,再加上偏置矩阵b,输......
  • 基于信号功率谱特征和GRNN广义回归神经网络的信号调制类型识别算法matlab仿真
    1.算法运行效果图预览 2.算法运行软件版本MATLAB2022a 3.算法理论概述       本课题,我们主要对MPSK和MFSK调制类型进行识别。在进行信号调制方式区分之前,首先需要对PSK和FSK进行区分,提出了一种基于信号功率谱的PSK和FSK调制方式的识别方法。信号的功率谱计算过程......
  • 李宏毅《机器学习》总结 - 类神经网络
    核心问题:CriticalPoint在GradientDescent的时候,如果遇到梯度为0的情况,导致无法继续optimization,这样的点叫做CritcalPoint如果最后优化的结果不好,则出现这样的点的原因有2个:一个是到localminima了,另一个是在驻点了(也叫鞍点,SaddlePoint)。现在主要关注的是如何判......
  • 神经网络优化篇:详解局部最优的问题(The problem of local optima)
    局部最优的问题在深度学习研究早期,人们总是担心优化算法会困在极差的局部最优,不过随着深度学习理论不断发展,对局部最优的理解也发生了改变。向展示一下现在怎么看待局部最优以及深度学习中的优化问题。这是曾经人们在想到局部最优时脑海里会出现的图,也许想优化一些参数,把它们称......
  • python 多线程multiprocessing
    该多线程,简单计算结果可以使用,在django里想并行处理多个实体进行计算不行,请自行验证importmultiprocessing#要在进程池中并行执行的任务函数defprocess_data(data):#执行任务的逻辑result=data*2returnresultif__name__=='__main__':#创......
  • 神经网络优化篇:详解学习率衰减(Learning rate decay)
    学习率衰减加快学习算法的一个办法就是随时间慢慢减少学习率,将之称为学习率衰减,来看看如何做到,首先通过一个例子看看,为什么要计算学习率衰减。假设要使用mini-batch梯度下降法,mini-batch数量不大,大概64或者128个样本,在迭代过程中会有噪音(蓝色线),下降朝向这里的最小值,但是不会精......
  • 完全没有数模基础都能看懂的神经网络笔记【零基础系列】
    神经网络算法前言(可跳过)作为数模小白,看了很多讲解新概念新模型的文章,这些文章往往要么讲的很浅不讲原理只讲应用,让人知其然不知其所以然。要么讲的很深小白看不懂,同时总是忽略关键部分,经常性引入陌生概念让初学者疑惑,因此有了本文,任何能熟练掌握线性代数知识且逻辑思维能力尚可......
  • 深度学习-神经网络原理-39
    目录1.神经网络算法是有监督的学习算法,2.分类3.训练4.代码进入新的内容,深度学习啦万事万物的产生不是一下子就变出来的,学术上也是,一点点的进步才催生出一门新的学科或者技术,神经网络用于机器学习也不例外,前面的机器学习的内容,线性回归,逻辑回归,多分类,决策树,以及各种集成学习......
  • Process Explorer高级技巧
    ProcessExplorer是一款功能丰富的进程系统工具,远比windows自带的任务管理器强大。  还原线程堆栈 点击菜单Options--ConfigureSymbols... 配置Symbol符号表:srv*D:\Symbols\sys*http://msdl.microsoft.com/download/symbols;D:\Symbols\MyGame然后把MyTest1-Win6......
  • linux修改max user processes limits
    突破ulimit限制修改普通用户单个用户可同时运行的最大进程数(默认为4096)[root@xxxdevops]#cat/etc/security/limits.d/20-nproc.conf#Defaultlimitfornumberofuser'sprocessestoprevent#accidentalforkbombs.#Seerhbz#432903forreasoning.*......