Datawhale X 李宏毅苹果书 AI夏令营第五期深度学习（进阶班）Task02 笔记分享

时间：2024-08-31 11:57:38浏览次数：6

标签：yi git 进阶 AI 李宏毅 sum 学习 theta sigma

文章目录

Task2-1：《深度学习详解》- 3.3&4&5 自适应学习率(9页+38分钟)

Part01：视频笔记

训练技巧：自适应学习率（Adaptive learning rate）：

通常人们认为训练卡住了是因为参数更新到一个临界值，梯度太小不更新了；
即使没有临界点（critical point），神经网络的训练也十分困难

Error surface 是一个凸函数（convex）
调整到较小的学习率：或许可以解决临界点的问题，但较小的学习率会导致训练无法逼近最终结果；

学习率应该为每一个参数特质化:

原来的参数更新公式 θ i t + 1 ← θ i t − η g i t \theta_i^{t+1} \leftarrow \theta_i^t - \eta g_i^t θit+1←θit−ηgit
以及 g i t = ∂ L ∂ θ i ∣ θ = θ t g_i^t = \frac{\partial L}{\partial \theta_i}|_{\theta=\theta^t} git=∂θi∂L∣θ=θt
自适应学习率后： θ i t + 1 ← θ i t − η σ i t g i t \theta_i^{t+1} \leftarrow \theta_i^t - \frac{\eta}{\sigma_i^t} g_i^t θit+1←θit−σitηgit
σ i t \sigma_i^t σit不仅是取决于某个参数，还和iteration相关；

Root Mean Square（均方根）： σ i t = 1 t + 1 ∑ i = 0 t ( g i t ) 2 \sigma_i^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t(g_i^t)^2} σit=t+11∑i=0t(git)2 （Adagrad）

梯度较大时，计算出 η \eta η值较小；梯度较小时，计算出 η \eta η较大；

动态调整学习率（RMSProp）： σ i t = α ( σ i t − 1 ) 2 + ( 1 − α ) ( g i t ) 2 \sigma_i^t =\sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha)(g_i^t)^2} σit=α(σit−1)2+(1−α)(git)2 （ 0 < α < 1 0<\alpha<1 0<α<1）

近的梯度相较于远的梯度有着更大的影响；

Learning Rate Scheduling：（让学习率与时间相关）

在这里插入图片描述

Learning rate decay：随着训练的进行，减小学习率；

Warm Up：先变大，后变小（超参数设置）；

Task2.2：《深度学习详解》- 3.6 分类(4页+19分钟)

分类（Classification）：

回归（Regression）：
在这里插入图片描述

先把label的class变成数字：如class1对应数字“1”，class2对应数字“2”……
将每一个class用one-hot vector（独热向量）来进行表示：解决了某些class关系密切（在树值上），而另一些关系疏远；

Softmax（归一化指数函数）函数：将 y ^ \hat{y} y^中的数值归一化到0,1之间；

y i ′ = e x p ( y i ) ∑ j e x p ( y i ) y_i'=\frac{exp(y_i)}{\sum_j exp(y_i)} yi′=∑jexp(yi)exp(yi)
Softmax函数的输入是：Logit

Cross-entropy： e = − ∑ i y i ^ l n y i ′ e=-\sum_i \hat{y_i}lny_i' e=−∑iyi^lnyi′：

最小化交叉熵（MInimizing cross-entropy）等价于最大化可能性（maximizing likelihood）；
MSE会在large loss的地方卡住，无法继续训练；

标签：yi,git,进阶,AI,李宏毅,sum,学习,theta,sigma
From： https://blog.csdn.net/NantongHHQ/article/details/141750537

一键AI去除视频水印和字幕！
我们做网创的，多多少少会去下载很多视频素材，但很多素材自己觉得非常好，但有那该死的水印和字幕就让人非常不爽，要么在剪辑的时候放大把字幕拉出屏幕外，又或者是用黑框该掉字幕，这着实影响美观！有什么办法可以直接去掉字幕和水印吗？答案是有的！今天就给大家分享这个神器：Video......
一键AI去除视频水印和字幕！
我们做网创的，多多少少会去下载很多视频素材，但很多素材自己觉得非常好，但有那该死的水印和字幕就让人非常不爽，要么在剪辑的时候放大把字幕拉出屏幕外，又或者是用黑框该掉字幕，这着实影响美观！有什么办法可以直接去掉字幕和水印吗？答案是有的！今天就给大家分享这个神器：Video......
一键AI去除视频水印和字幕！
我们做网创的，多多少少会去下载很多视频素材，但很多素材自己觉得非常好，但有那该死的水印和字幕就让人非常不爽，要么在剪辑的时候放大把字幕拉出屏幕外，又或者是用黑框该掉字幕，这着实影响美观！有什么办法可以直接去掉字幕和水印吗？答案是有的！今天就给大家分享这个神器：Video......
一键AI去除视频水印和字幕！
我们做网创的，多多少少会去下载很多视频素材，但很多素材自己觉得非常好，但有那该死的水印和字幕就让人非常不爽，要么在剪辑的时候放大把字幕拉出屏幕外，又或者是用黑框该掉字幕，这着实影响美观！有什么办法可以直接去掉字幕和水印吗？答案是有的！今天就给大家分享这个神器：Video......
3D智能导诊系统源码，基于AI引擎，针对患者的病情及症状，准确推荐医院科室
智能导诊系统源码，3D智能导诊源码，AI导诊系统源码，导诊小程序源码智能导诊系统是一种基于人工智能技术的医疗辅助工具，它通过自然语言处理、机器学习等技术，自动分析患者病情，并根据疾病类型和症状推荐合适的科室和医生，为患者提供准确的分诊服务。以下是智能导诊系统的主要特点和功能：智......
第二十九节 containerd的介绍与安装
一、containerd的介绍1、containerd介绍（1）早在2016年3月，Docker1.11的DockerEngine里就包含了containerd，而现在则是把containerd从DockerEngine里彻底剥离出来，作为一个独立的开源项目独立发展，目标是提供一个更加开放、稳定的容器运行基础设施。和原先包含在DockerEngine里con......
加油站监控ai智能分析
加油站监控ai智能分析系统的运作通过用视频智能优化算法，根据自动检索后监控画面后开展预警信息。加油站将依据预警信息立即预警现场的各种人的不安全行为。加油站监控ai智能分析系统，即时监控现场置放消防灭火器的实际操作情况，静电感应释放出来操作规范，并开展24钟头自动识别用火浓......
智慧加油站AI智能视频分析系统
根据智慧加油站AI智能视频分析系统算法分析，完成了对监控范围内加油站安全预警监控和货车装卸搬运环节的整个过程监管。智慧加油站AI智能视频分析系统适用鉴别各种各样监控画面人的各种行为，如打火、手机电话、火灾事故、浓烟、火灾事故、浓烟、安全通道堵塞、装卸搬运油实际操作出......
探索异步之美：aiohttp库的魔力与奥秘
文章目录探索异步之美：aiohttp库的魔力与奥秘背景：为何选择aiohttp？什么是aiohttp？如何安装aiohttp？简单函数使用方法场景应用常见Bug及解决方案总结探索异步之美：aiohttp库的魔力与奥秘背景：为何选择aiohttp？在当今这个快速变化的技术世界中，效率和性能是开发人员追求的......
“从手动到自动：探索Cursor编辑器和Claude-3.5-Sonnet的AI编程工具“
Cursor情况简介AI大神AndrejKarpathy都被震惊了！他最近在试用VSCodeCursor+ClaudeSonnet3.5，结果发现这玩意儿比GitHubCopilot还好用！Cursor在短短时间内迅速成为程序员群体的顶流神器，其背后的原因在于其默认使用OpenAI投资的Claude-3.5-Sonnet模型，这一举动不仅改变......

Datawhale X 李宏毅苹果书 AI夏令营第五期深度学习（进阶班）Task02 笔记分享

文章目录

Task2-1：《深度学习详解》- 3.3&4&5 自适应学习率(9页+38分钟)

Part01：视频笔记

训练技巧：自适应学习率（Adaptive learning rate）：

学习率应该为每一个参数特质化:

Root Mean Square（均方根）： σ i t = 1 t + 1 ∑ i = 0 t ( g i t ) 2 \sigma_i^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t(g_i^t)^2} σit=t+11∑i=0t(git)2 （Adagrad）

动态调整学习率（RMSProp）： σ i t = α ( σ i t − 1 ) 2 + ( 1 − α ) ( g i t ) 2 \sigma_i^t =\sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha)(g_i^t)^2} σit=α(σit−1)2+(1−α)(git)2 （ 0 < α < 1 0<\alpha<1 0<α<1）

Learning Rate Scheduling：（让学习率与时间相关）

Learning rate decay：随着训练的进行，减小学习率；

Warm Up：先变大，后变小（超参数设置）；

Task2.2：《深度学习详解》- 3.6 分类(4页+19分钟)

分类（Classification）：

Softmax（归一化指数函数）函数：将 y ^ \hat{y} y^中的数值归一化到0,1之间；

Cross-entropy： e = − ∑ i y i ^ l n y i ′ e=-\sum_i \hat{y_i}lny_i' e=−∑iyi^lnyi′：

相关文章

赞助商

阅读排行

Datawhale X 李宏毅苹果书 AI夏令营 第五期 深度学习（进阶班）Task02 笔记分享

文章目录

Task2-1：《深度学习详解》- 3.3&4&5 自适应学习率(9页+38分钟)

Part01：视频笔记

训练技巧：自适应学习率（Adaptive learning rate）：

学习率应该为每一个参数特质化:

Root Mean Square（均方根）： σ i t = 1 t + 1 ∑ i = 0 t ( g i t ) 2 \sigma_i^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t(g_i^t)^2} σit​=t+11​∑i=0t​(git​)2 ​（Adagrad）

动态调整学习率（RMSProp）： σ i t = α ( σ i t − 1 ) 2 + ( 1 − α ) ( g i t ) 2 \sigma_i^t =\sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha)(g_i^t)^2} σit​=α(σit−1​)2+(1−α)(git​)2 ​（ 0 < α < 1 0<\alpha<1 0<α<1）

Learning Rate Scheduling：（让学习率与时间相关）

Learning rate decay：随着训练的进行，减小学习率；

Warm Up：先变大，后变小（超参数设置）；

Task2.2：《深度学习详解》- 3.6 分类(4页+19分钟)

分类（Classification）：

Softmax（归一化指数函数）函数：将 y ^ \hat{y} y^​中的数值归一化到0,1之间；

Cross-entropy： e = − ∑ i y i ^ l n y i ′ e=-\sum_i \hat{y_i}lny_i' e=−∑i​yi​^​lnyi′​：

相关文章

赞助商

阅读排行

Datawhale X 李宏毅苹果书 AI夏令营第五期深度学习（进阶班）Task02 笔记分享

Root Mean Square（均方根）： σ i t = 1 t + 1 ∑ i = 0 t ( g i t ) 2 \sigma_i^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t(g_i^t)^2} σit=t+11∑i=0t(git)2 （Adagrad）

动态调整学习率（RMSProp）： σ i t = α ( σ i t − 1 ) 2 + ( 1 − α ) ( g i t ) 2 \sigma_i^t =\sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha)(g_i^t)^2} σit=α(σit−1)2+(1−α)(git)2 （ 0 < α < 1 0<\alpha<1 0<α<1）

Softmax（归一化指数函数）函数：将 y ^ \hat{y} y^中的数值归一化到0,1之间；

Cross-entropy： e = − ∑ i y i ^ l n y i ′ e=-\sum_i \hat{y_i}lny_i' e=−∑iyi^lnyi′：