首页 > 其他分享 >Datawhale X 李宏毅苹果书 AI夏令营 Task1.2 笔记

Datawhale X 李宏毅苹果书 AI夏令营 Task1.2 笔记

时间:2024-08-27 22:26:37浏览次数:8  
标签:批量 AI 李宏毅 Datawhale 最小值 动量 计算 梯度 更新

《深度学习详解》3.2节中关于批量和动量的主要内容总结:

 

批量的概念:在深度学习训练过程中,数据不是一次性全部用于计算梯度,而是被分成多个小批量(batch),每个批量包含一定数量的数据。每个批量的损失函数用于计算梯度并更新模型参数。

批量大小对梯度下降法的影响:

  两种极端情况:
    批量梯度下降法(Batch Gradient Descent, BGD):使用全部数据作为批量,计算稳定但每次更新需要等待所有数据处理完毕,计算量大。
    随机梯度下降法(Stochastic Gradient Descent, SGD):批量大小为1,每次只用一个数据点更新参数,引入了随机性,更新方向可能会曲折,但有助于逃离局部最小值。

  计算时间:考虑并行运算,批量大小较小时,完成一个回合的时间较长;批量大小较大时,GPU计算梯度并更新参数的时间会增加,但在一定范围内,如从1到1000,时间几乎相同。

  训练效果:实验表明,过大的批量大小可能会导致模型在验证集上准确率降低,而小的批量梯度有噪声,但对训练和测试有帮助,能避免陷入局部最小值。

 

动量法(Momentum Method):一种改进的梯度下降方法,通过结合当前梯度和之前更新的方向来更新参数,有助于模型更快收敛,并且能够越过一些小的局部最小值或鞍点。

动量法的数学表达:动量m可以看作是之前所有梯度的加权和,更新规则可以表示为:
m_{t} = λ m_{t-1} - η g_{t}
其中,m_{t}是第t步的动量,λ是动量参数,η是学习率,g_{t}是第t步的梯度。

具体计算:每一步的移动方向由梯度反方向加上前一步移动方向决定,移动量可以表示为之前所有计算梯度的加权和。

动量法的优势:动量法可以增加参数更新的稳定性,减少震荡,有助于模型更快收敛到全局最小值。

 

我关于3.2.1批量大小对梯度下降法的影响 的疑问

指的是 同一个损失函数算出两个不同的损失函数值L1、L2 还是 两个不同的损失函数L1、L2?问了LLM:

 

 

标签:批量,AI,李宏毅,Datawhale,最小值,动量,计算,梯度,更新
From: https://www.cnblogs.com/LYLtim/p/18383662

相关文章

  • Datawhale X 李宏毅苹果书 AI夏令营:task1通过案例了解机器学习
    隐藏任务:①:找出本篇中形如回归(regression)加粗字体的术语,并用自己的话进行解释,列成表格,与学习群的其他小伙伴讨论你的理解和搜索到的相关案例。②:整理出本篇中所有的公式,手动摘录,并尝试理解。③:找出机器学习找函数的3个步骤!并查找资料,交叉佐证这些步骤。④:归纳梯度下降的步骤。......
  • Datawhale X 李宏毅苹果书 AI夏令营(Task2)
     一、学前概览        任务内容:criticalpoint并不一定是训练神经网络遇到的最大的阻碍,还有一种叫AdaptiveLearningRate的技术。        任务目的:了解掌握LearningRate和分类损失的计算。        本节出现术语:自适应学习率(rootmeansquare、RM......
  • 【效率提升工具推荐】AI编程工具合集
    AI编程工具是指那些专门为开发和训练人工智能模型而设计的工具和框架。这些工具可以帮助开发者更高效地构建、训练和部署机器学习和深度学习模型。以下是一些常用的AI编程工具及其特点:1.TensorFlow简介:由Google开发,是最流行的开源机器学习框架之一。特点:支持广泛的机器学......
  • 设计模式Chain of Responsibility(责任链)
    ChainofResponsibility(责任链)模式是一种行为型设计模式,用于处理请求的多个处理者之间的职责分配。它允许请求沿着一条处理链传递,直到有一个处理者能够处理它为止。这种模式可以避免请求发送者和请求处理者之间的紧耦合关系。主要概念Handler(处理者):定义了处理请求的接口,并实现......
  • 云知声多模态模型:实时多模态输入输出;独立于 Siri ,苹果或开发新 AI 用于机器人丨 RTE
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编......
  • C# generate thumbnailimage via System.Drawing
    usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Data;usingSystem.Windows.Documents;usingSystem.Windows.Input;usingSystem.Windows.Media.I......
  • Datawhale X 李宏毅苹果书(进阶) AI夏令营 task01笔记
    官方学习文档:https://linklearner.com/activity/16/14/42目录深度学习基础局部极小值与鞍点临界点及其种类判断临界值种类的方法逃离鞍点的方法批量和动量批量大小对梯度下降法的影响大的批量跟小的批量的对比        动量法深度学习基础       ......
  • wrapper chain
    芯片的规模大小决定了DFT的架构,对于小芯片而言,我们可以把一整个芯片独立测试,甚至都不需要对其内部的chain进行压缩,而对于大芯片而言,如果把一整个芯片当作测试对象,那么无论是对于工具开发商而言还是对于测试时间而言,都是一个巨大的挑战。甚至在很多时候,由于pad的限制,我们无法做......
  • AI驱动的PlantUML:快速生成专业级UML图表
    **对于程序员来说,编写验收文档中的各种UML图是最让人头疼的事情之一,相信各位读者对此深有体会。**本文将探讨如何利用AI驱动的PlantUML来快速生成专业级别的UML图表,从而减轻这一负担。PlantUML简介PlantUML是一种开源的、易于使用的工具,它允许用户通过简单的文本描述来生成各......
  • 工业AI—“Maker‘S”真实作用浅析(上)
    各个行业的企业虽然在规模,生产工艺上有很大的区别,但是底层逻辑是一致的——就是提供满足顾客质量要求的产品或服务,Maker‘SAI是依据这个底层逻辑对相应的产品标准、体系标准、关于环保、安全生产、职业卫生、合规性等生产相关的法律法规进行数字化分析,可以根据企业具体的类型......