首页 > 其他分享 >吴恩达2022机器学习专项课程(一) 4.4 学习率

吴恩达2022机器学习专项课程(一) 4.4 学习率

时间:2024-03-31 11:29:22浏览次数:16  
标签:4.4 吴恩达 函数 步幅 梯度 学习 最小值 2022 最小化

问题预览/关键词

  1. 学习率太小有什么影响?
  2. 学习率太大有什么影响?
  3. 如果成本函数达到局部最小值,使用梯度下降还能继续最小化吗?
  4. 为什么学习率固定,而最小化成本函数的步幅却越来越缓?
  5. 如何选择合适的学习率?

笔记

1.学习率太小

学习率太小,导数项会乘以非常小的数,梯度下降速度过慢,不符合尽快下降的要求。在这里插入图片描述

2.学习率太大

学习率太大,步幅太大,导致梯度下降会反复横跳,无法最小化成本函数。在这里插入图片描述

3.梯度下降继续更新最优解参数

不会继续最小化。此时切线斜率为0,因此导数项为0,w参数一直能够让成本函数的值最小。
在这里插入图片描述

4.学习率固定,下降步幅发生变化

w参数越近函数最小值,导数项(斜率)也会越来越小,因此w每次更新的数值越来越小,所以更新幅度越来越缓慢。
在这里插入图片描述

5.学习率选择

常见的初始学习率为0.01。

总结

如果学习率太大,梯度下降可能会反复横跳,无法到达最低点。如果学习率太小,则下降到最低点的进度缓慢,影响算法性能。如果成本函数的值已经是局部最小值,那么继续使用梯度下降也不会最小化成本函数。学习率是调整步幅的,但是如果学习率固定,越接近最小值,更新幅度却会发生变化,变得越来越小。因为越接近最小值,参数点切线的斜率越小,导数项越小,因此参数更新的幅度也会越来越缓慢。

标签:4.4,吴恩达,函数,步幅,梯度,学习,最小值,2022,最小化
From: https://blog.csdn.net/AIGC_xuexishe/article/details/137193849

相关文章

  • CMU15445 2022fall project1
    cmu154452022falllab1BufferPool此project实现一个bufferpool,缓存住磁盘查询的数据。Task1这部分需要我们实现一个可扩展的哈希表,这部分的难点在于插入操作时的分裂,由于Remove不需要我们将目录和桶收缩回去,所以它也很简单。先分析清楚目录和桶的结构。我们可以先实现简......
  • CMU15445 2022fall project4
    CMU154452022fallproject4这个project整体难度稍微高于project3,主要难点在于task1。Task1这部分实现一个锁管理器处理事务对表和行的加锁解锁,是这个project中最复杂的部分。问题:关于为什么在各个隔离级别下,锁要设计成下面这样?REPEATABLE_READ:Thetransactionisr......
  • 2022DASCTF MAY 出题人挑战赛
    上午开题,下午才做。补了三道web浅写一下wpPowerCookie靶机还没打开就有思路了,应该是需要对cookie进行修改,下午和同队的师傅们交流了一下我又发现可以用火狐插件进行改,那就不用在burp里面修改了。(第三种方法就是在谷歌里面改)添加文件头(admin=1)魔法浏览器什么是魔法浏览......
  • P8312 [COCI2021-2022#4] Autobus floyd最短路
    [P8312COCI2021-2022#4]Autobus-洛谷|计算机科学教育新生态(luogu.com.cn)思路:nnn数据范围很小可以用Floyd算法。注意:最多坐......
  • 2024.4 模拟赛日志
    2024年syzx春季训练1(20240315)https://www.cnblogs.com/caijianhong/p/18076181SS240323(20240323)http://cplusoj.com/d/senior/contest/65fd9320ccaa6dc9eee1e44f[A魔环上的树]计数,数树,平面图三角剖分[B序列舞蹈]斜率相关,数据结构C脱单计划最小费用最大流,曼哈顿距......
  • P8162 [JOI 2022 Final] 让我们赢得选举
    P8162[JOI2022Final]让我们赢得选举贪心+dp题目要求最小耗时,可以考虑贪心和dp。先考虑贪心。首先,假如我们此时有\(b\)个州得到了选票和协作者,那么下一次演讲一定是\(b\)个协作者和自己一起去同一个州演讲,时间为\(\frac{a_i/b_i}{b+1}\),这样我们的时间一定不会浪费掉。......
  • 蓝桥杯 2022 省A 选数异或
    一种比较无脑暴力点的方法,时间复杂度是(n²+m)。(注意==的优先级比^高,记得加括号(a[i]^a[j])==x)#include<iostream>#include<vector>#include<bits/stdc++.h>//包含一些C++标准库中未包含的特定实现的函数的头文件usingnamespacestd;intmain(){intn,......
  • 2022 Tesla AI Day -特斯拉自动驾驶FSD的进展和算法软件技术之数据以及虚拟
    2022TeslaAIDay-特斯拉自动驾驶FSD的进展和算法软件技术之数据以及虚拟附赠自动驾驶学习资料和量产经验:链接人工智能算法犹如电影的主演,我们很多时候看电影只看到主演们的精彩,但其实电影的创意和呈现都来自于背后的导演和制片等团队。而人工智能算法背后的有关数据的软件,设......
  • 【专题】2022年中国制造业数字化转型研究报告PDF合集分享(附原数据表)
    报告链接:http://tecdat.cn/?p=32145本文中所说的制造业数字化转型,指的是在制造企业的设计、生产、管理、销售及服务的每一个环节中,将新一代信息技术应用到制造企业的设计、生产、管理、销售及服务的每一个环节中,并可以以每一个环节中产生的数据为基础,展开控制、监测、检测、预测......
  • 中国500米逐年植被净初级生产力(NPP)数据集(2000-2022)
      净初级生产力(NPP)是指植物在单位时间单位面积上由光合作用产生的有机物质总量中扣除自养呼吸后的剩余部分,是生产者能用于生长、发育和繁殖的能量值,反映了植物固定和转化光合产物的效率,也是生态系统中其他生物成员生存和繁衍的物质基础。其中涉及的主要参量包括光和有效......