Datawhale X 李宏毅苹果书AI夏令营 Task2打卡

时间：2024-08-31 23:25:43浏览次数：12

标签：Task2 frac AI 梯度学习 eta theta 打卡 sigma

3.3 自适应学习率

当梯度大小不再下降时，并不代表梯度本身已经变得很小接近于0了，有可能是梯度在波谷之间来回震荡。

原始的梯度下降在很简单的误差表面上都不一定能够达到临界点，因此引入自适应学习率。

3.3.1 AdaGrad

传统的梯度下降更新参数 \(\theta_t^i\) 的过程是

\[\theta_{t+1}^i \leftarrow \theta_t^i-\eta g_t^i \]

现在需要引入一个参数定制化的学习率

\[\theta_{t+1}^i \leftarrow \theta_t^i-\frac{\eta}{\sigma_t^i} g_t^i \]

对于不同参数其 \(\sigma\) 不同，\(\sigma_t^i\) 的下标表示与迭代相关，上边表示与参数 \(i\) 相关
参数相关的一个常见类型时算 梯度的均方根 即：

\[\sigma_t^i=\sqrt{\frac{1}{t+1}\sum_{k=0}^t(g_k^i)^2} \]

当某次迭代时梯度较大，则计算得到的 \(\sigma_t^i\) 也较大，得到的学习率就比较小，反之同理。

3.3.2 RMSProp

RMSProp 与 AdaGrad 的方法类似，不同点在于，AdaGrad 方法中认为每一个梯度具有同样的重要性所以他们的权重都为1，但是在 RMSProp 中引入了一个超参数可以调整梯度的重要性

\[\theta_{t+1}^i\leftarrow \theta_t^i-\frac{\eta}{\sigma_t^i}g_t^i \ \ \sigma_t^i = \sqrt{\alpha(\sigma_t^i)^2+(1-\alpha)(g_t^i)^2} \]

3.3.3 Adam

Adam 时最常用的优化策略或者优化器，可以看作时在 RMSProp 的基础上加上了动量，使用动量作为参数来更新方向，并且能够自适应的调整学习率。

3.4 学习率调度

只使用自适应学习率并不能很好的训练，因为在快到临界点时，周围的梯度比较小，此时的学习率较大移动的步伐也会很大，容易造成震荡和梯度突然暴增的问题。
通过引入学习率调度 可以缓解这个问题，之前自适应学习率中 \(\eta\) 是一个固定的值，而在学习率调度中 \(\eta\) 是和时间相关的。
一种最常见的学习率调度策略就是 学习率衰减 也称为学习率退火。

\[\theta_{t+1}^i\leftarrow \theta_t^i-\frac{\eta_t}{\sigma_t^i}g_t^i \]

还有另外一种经典的学习率调度的方式预热。使用预热的意义在于，学习率优化的过程需要用到 \(\sigma\)，而 \(\sigma\) 是一个统计意义上的结果，因此在训练的初期 \(\sigma\) 的值是不精准的。所以我们此时希望用较小的学习率，来抑制参数的变化，先收集一些梯度的信息后再开始正式的更新参数。

3.5 总结

在了解了自适应学习率，学习率调度的优化方式后，我们目前的更新方式如下:

\[\theta_{t+1}^i\leftarrow \theta_t^i-\frac{\eta_t}{\sigma_t^i}m_t^i \]

这种优化反式和 Adam 类似，通过使用不同的方式来计算 \(\sigma_t^i\) 和动量\(m_t^i\)，我们可以得到不同的优化器

虽然 \(m_t^i\) 和 \(\sigma_t^i\) 都考虑到了过去的所有梯度，但是两者应用梯度的方式是不一样的，动量是直接对梯度求矢量和，而均方根则是不考虑方向只考虑梯度的大小，所以并不矛盾。

3.6 分类

3.6.1 分类与回归的关系

根据类本身是否有关联性，我们需要考虑神否引入独热向量来表示类。每个独热向量可以看作空间中一个特定的维度，和其他维度没有直接关系。因此用独热向量计算距离的话，类之间两两的距离是相同的。

3.6.2 带有softmax的分类

当类别是独热向量时，里面的值只有0和1，所以我们需要对神经网络计算得到的结果进行归一化，才能和标签计算相似度，因此我们在分类任务中引入 softmax 函数。

\[y_i^{`}=\frac{\exp(y_i)}{\sum_j\exp(y_j)} \]

当类别数量在三个及以上时我们使用 softmax 函数，当类别数量为两个时我们直接使用 sigmoid 函数，其实对于类别数为2时，sigmoid 函数和 softmax 函数的计算是等价的。

3.6.3 分类损失

常见的分类任务中的损失函数有均方误差和交叉熵，均方误差的形式为：

\[e=\sum(y_i-y_i^`)^2 \]

交叉熵损失的形式为：

\[e=-\sum_iy_ilny_i^` \]

在分类任务中，交叉熵损失一般来说比均方误差的优化效果更好，因为当某个标签非常小时，经过softmax函数后其得到的值非常接近于0，此时在交叉熵损失下得到的损失会非常大比较贴合实际，而对于均方误差来说这一项为损失提供的大小只有1。

标签：Task2,frac,AI,梯度,学习,eta,theta,打卡,sigma
From： https://www.cnblogs.com/youth518/p/18390913

Task2打卡了解线性模型
在本节提到线性模，我第一反应是我学过的线性代数。曾经学过的简单的数学概念如线性方程被演化成了复杂而强大的工具，用于解决现实世界中的预测问题。这里不仅解释了线性模型的基础原理，还探讨了如何通过添加非线性组件如ReLU函数或Sigmoid函数，将模型提升到一个新的层次。线性模型的局......
【AI System】Ascend NPU 架构 & CANN 平台入门学习
AscendNPU架构&CANN平台入门学习概述昇腾NPU是专门用于AI训练/推理计算的AI专用处理器，其中的AICore能够在很大程度上提高AI计算的效率。本文将主要介绍ASCENDNPU的硬件架构&工作原理、AICore的计算模式以及异构计算平台CANN等内容。NPU硬件架......
#Datawhale #AI夏令营 #Mobile Agent 设计与实践 (2)
系列文章目录Task1:第一篇文章Task2(loading…)Task3(loading…)Task2文章目录前言一、创新场景的idea1.股票小助手2.群聊小助手3.壁纸生成助手4.桌面整理大师二、Mobile-Agent扩展初步实践*step1:controller修改**step2:Prompt修改**step3:主文件......
社会实践实习报告还没写？推荐这款AI工具，一键高效生成
随着科技的飞速发展人工智能逐渐渗透到各个领域为咱们的工作和学带来了极大的便利。在撰写社会实践实报告这一环节一款名为“锐智AI”的一键生成工具应运而生它以其高效、智能的特点成为了广大学生和职场人士的得力助手。本文将详细介绍锐智AI助手的功能、优势以及采用方法帮......
大模型 | RAG 架构设计三阶段：Naive RAG 架构设计、Advanced RAG 架构设计、Agentic RA
第一阶段：NaiveRAG架构设计大型语言模型（LLMs）虽然展现出卓越的性能，但在处理特定领域或知识密集型任务时，存在一些挑战，比如：产生虚假信息、知识陈旧以及推理过程的非透明性和不可追溯性。RAG技术作为一种有希望的解决方案，通过融合外部数据库的知识，有效应对了这些问题。它显著......
Datawhale X 李宏毅苹果书 AI夏令营 Task3
一、批量化归一当误差表面崎岖不平，就意味着它比较难以训练，而利用批量化归一将崎岖的误差表面“铲平”则是其中的方法之一。如果是固定学习率，可能很难得到好的结果，因此才需要自适应的学习率。当输入的特征，每一个维度的值，它的范围差距很大的时候，我......
Datawhale X 李宏毅苹果书 AI夏令营-深度学习入门班-task2-分段线性曲线
引入上一篇文章中我们了解了机器学习中最基本的模型线性模型（Linearmodels），由于其过于简单（只能调整其斜率w与截距b）无法反映真实数据中多数折线或曲线情况这种限制称为模型偏差（modelbias）。下文介绍：如何构建更复杂，误差更小的函数解决问题。注：此处的bias与线性模型中的b不同。......
蔚来发布“NT.Coconut椰子”系统，乐道L60 搭载城市绿洲AI智舱
8月31日，在乐道智能系统发布会上，蔚来正式推出“NT.Coconut椰子”智能系统，该系统由智能应用、SkyOS天枢操作系统、智能硬件三大部分组成，旨在为用户带来更智能、更便捷的驾驶体验。SkyOS天枢操作系统：整车级别的领先全域操作系统乐道全系车型搭载SkyOS天枢操作系统，全面覆盖车联......
AI 自动化副业创收，手把手带你提升副业收益【AI大模型】
副业创收已经成为行业趋势，在当前经济形势下，许多人面临着行业裁员的不确定性。为了增强个人的抗风险能力，寻求一份副业已经成为一种重要的趋势。这不仅是经济上的补充，更是对自由与独立的一种追求——它应让你自主掌控，不被外界束缚。通过精心打造的副业，你不仅可以灵活安排时间，......