首页 > 其他分享 >小批量梯度下降

小批量梯度下降

时间:2023-10-01 22:45:06浏览次数:28  
标签:JL 梯度 nabla 下降 小批量 Jmb theta

在小批量梯度下降中,试分析为什么学习率要和批量大小成正比

在标准的梯度下降中,参数的更新公式是:

θ=θ−η∇θJL(θ)\theta = \theta - \eta \nabla_\theta JL(\theta)θ=θ−η∇θ​JL(θ)

其中,η\etaη 是学习率,∇θJL(θ)\nabla_\theta JL(\theta)∇θ​JL(θ) 是损失函数 JL(θ)JL(\theta)JL(θ) 关于参数 θ\thetaθ 的梯度。

而在小批量梯度下降中,参数的更新公式变为:

θ=θ−η∇θJmb(θ)\theta = \theta - \eta \nabla\theta J(\theta)θ=θ−η∇θ​Jmb​(θ)

其中,Jmb(θ)J_{mb}(\theta)Jmb​(θ) 是小批量样本的损失函数。

我们期望 ∇θJmb(θ)\nabla\theta J(\theta)∇θ​Jmb​(θ) 是 ∇θJL(θ)\nabla_\theta JL(\theta)∇θ​JL(θ) 的一个无偏估计,即:

E[∇θJmb(θ)]=∇θJL(θ)E[\nabla_\theta J_{mb}(\theta)] = \nabla_\theta JL(\theta)E[∇θ​Jmb​(θ)]=∇θ​JL(θ)

但由于每次只使用一小部分样本,所以 ∇θJmb(θ)\nabla\theta J(\theta)∇θ​Jmb​(θ) 会存在一定的噪声。这个噪声的大小和批量大小有关,批量越小,噪声越大。

为了抵消这个噪声的影响,我们可以增大学习率 η\etaη。这是因为,当学习率增大时,参数的更新幅度也会增大,这相当于在梯度方向上加入了一些噪声,和 ∇θJmb(θ)\nabla\theta J(\theta)∇θ​Jmb​(θ) 的噪声有一定的抵消作用。

所以,在实际应用中,我们通常会尝试不同的学习率和批量大小的组合,来找到最优的参数更新策略。

标签:JL,梯度,nabla,下降,小批量,Jmb,theta
From: https://www.cnblogs.com/Zyecho/p/17739555.html

相关文章

  • Python信贷风控模型:梯度提升Adaboost,XGBoost,SGD, GBOOST, SVC,随机森林, KNN预测金
    原文链接:http://tecdat.cn/?p=26184 原文出处:拓端数据部落公众号最近我们被客户要求撰写关于信贷风控模型的研究报告,包括一些图形和统计输出。在此数据集中,我们必须预测信贷的违约支付,并找出哪些变量是违约支付的最强预测因子?以及不同人口统计学变量的类别,拖欠还款的概率如何......
  • 7.mini-batch梯度下降
    importnumpyasnpimportmatplotlib.pyplotaspltimportscipy.ioimportmathimportsklearnimportsklearn.datasetsfromopt_utilsimportload_params_and_grads,initialize_parameters,forward_propagation,backward_propagationfromopt_utilsimportcomp......
  • #POWERBI_指标监控(第二部分,周期内下降天数及日期明细)
    在指标监控的第一部分文章中,我们已经讲了,如何用DAX去查询一段周期内连续下降或者上升指标。需要复习的同学可以点击下方链接:https://www.cnblogs.com/simone331/p/17730677.html根据学友上篇文章的反馈,今天,我们来拓展学习一下,如何计算一个周期内(非连续),下降或上升天数统计,以及......
  • 深度学习-梯度下降MiniBatch、RMSprop、Adam等
    目录 0、综述:SGD1、mini-batch2、指数平均加权3、理解指数加权平均4、指数加权平局的修正5、动量梯度下降法6、RMSprop7、Adam优化算法8、衰减率9、局部最优  0、综述:在VSLAM后端中有各种梯度下降优化算法,例如:最速下降法、牛顿法、高斯-牛顿法、LM法、Dog......
  • POWERBI_1分钟学会_连续上升或下降指标监控
    一:数据源模拟数据为三款奶茶销量的日销售数据源,日期是23.8.24-23.8.31。A产品为连续7天,日环比下降,B产品为连续3天,日环比下降,C产品为连续2天,日环比下降。二:建立基础度量值首先,我们建立两个基础度量值,计算我们的产品销量和日环比。产品销量=CALCULATE(SUM('数据源'[销量]))......
  • 高等数学 - 方向导数,梯度
    方向导数a) 方向导数是针对多元函数的导数。(下面都以二元函数来进行说明)b) 那不是已经有偏导函数了么?为啥还来了个方向导数?因为偏导数研究的是沿坐标轴正方向时函数的变化率,比如:沿x轴正方向,这时只有一个变量再变。然后数学家们觉得这还不够,要研究下沿着非坐标轴方向时函数的......
  • 使用混合精度导致GNN相关模型训练时出现损失无法下降
    使用混合精度导致GNN相关模型训练时出现损失无法下降:在一次GNN相关的项目中,由于模型训练速度过慢,楼主为了加速开启混合精度。第一天使用时并未出现异常;第二天再次使用,出现了损失函数不下降的问题。经检测,一段包含稀疏矩阵转换而且矩阵计算密集的函数与混合精度发生未知作用,导致该......
  • 梯度下降法课后小题
    梯度下降法解决优化的问题考虑优化问题\[minf(x)=x_1^2+2x_2^2+4\]1.写出梯度算法求解该问题的迭代公式,详细阐述迭代公式每项的意义。\[f(x)=x_1^2+2x_2^2+4\tag{1}\]\[\frac{\partialf(x)}{\partialx_1}=2x_1,\frac{\partialf(x)}{\partialx_2......
  • 深度学习基础之梯度下降
    1.引言梯度下降是一种用于最小化(或最大化)损失函数的优化算法。它是机器学习和深度学习中的一个关键概念,通常用于调整学习算法中的参数。梯度下降背后的核心思想是迭代调整参数以最小化损失函数。它的工作原理是计算损失函数相对于每个参数的梯度,并在减少损失函数的方向上更新参数......
  • 【9月摸鱼计划】mos开关,下降沿有尖峰,是不是寄生电容放电太慢了,加个反向肖特基会不会有
    MOS开关的下降沿出现尖峰,可能是由于寄生电容放电过慢或其他电路因素的影响。添加反向肖特基二极管可能会对改善尖峰有所作用,但具体效果需要考虑以下因素:寄生电容:寄生电容是电路中不可避免的部分,它们会在电压变化时进行充电和放电。如果寄生电容较大,放电时间会变长,从而导致尖峰的出......