Optimizer

2025-01-13[megatron代码阅读] 1. 初始化和组网
以pretrain_gpt.py为例,看megatron的整体逻辑.本章主要包括megatron初始化相关逻辑,核心函数为initialize_megatron,setup_model_and_optimizer两个initialize_megatronparse_args从argparse中直接读取超参数配置.如学习率,正则化等.从环境变量中获取rank等load_args_f
2025-01-08深度学习的加速器：Horovod，让分布式训练更简单高效！
什么是Horovod？Horovod是Uber开发的一个专注于深度学习分布式训练的开源框架，旨在简化和加速多GPU、多节点环境下的训练过程。它以轻量级、易用、高性能著称，特别适合需要快速部署分布式训练的场景。Horovod的名字来源于俄罗斯传统舞蹈“Хоровод”，寓意多个计算单元
2024-12-08路径规划之启发式算法之九：灰狼优化算法（Grey Wolf Optimizer，GWO）
灰狼优化算法（GreyWolfOptimizer，GWO）是一种智能优化算法，由澳大利亚格里菲斯大学学者Mirjalili等人在2014年提出。该算法灵感来源于灰狼群体的捕食行为，通过模拟灰狼的社会等级分层和狩猎机制来解决复杂的优化问题。一、灰狼优化算法的基本原理
2024-12-12自定义typeHandler将包含经纬度对象插入到mysql的point类型的字段中
博客：https://www.emanjusaka.top公众号：emanjusaka的编程栈下面给出关键部分代码，完整代码请访问原文地址mysql中的point类型在java中没有对应的类型匹配，需要我们自定义typeHandler去处理。环境参数SpringBootMybatisPlusmysql代码实现typeHandlerGeomPointTyp
2024-11-23如何立项？Tita 项目审批管控
什么场景下企业需要「项目审批」？如果你的企业不允许员工随意创建项目，项目的创建需要走「立项审批」，也不允许员工随意修改项目时间，或完成项目、删除项目等，你就可以使用「项目审批」，从而达到对项目的创建和修改进行严格管控的目的。如何使用项目审批？第一步：在后台「开启高级功能
2024-09-24【深度学习】03-神经网络 3-3 梯度下降的优化方法-动量算法Momentum
常规的梯度下降算法中，会遇到平缓区域，碰到鞍点，碰到局部最小值（截止当前无解），因此为了解决这个问题，我们需要优化传统的梯度下降算法。动量算法（Momentum）是梯度下降算法的一种优化方法，旨在解决传统梯度下降容易陷入局部最小值或在鞍点附近震荡的问题。动量算法通过引入一个“动
2024-09-03pyro ExponentialLR 如何设置优化器 optimizer的学习率 pytorch 深度神经网络 bnn,
第一。pyro不支持“ReduceLROnPlateau”，因为需要Loss作为输入数值，计算量大pytorch的学习率调整视频看这个博主的视频05-01-学习率调整策略_哔哩哔哩_bilibili第二，svi支持 scheduler注意点，属于 pyro.optim.PyroOptim的有三个AdagradRMSPropClippedAdamDC
2024-09-02【Intel Hackathon大赛】基于OpenVINO™ Model Optimizer + ChatGLM-6B + P-Tuning的AI新闻小助手
随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革，而大语言模型（LargeLanguageModel,LLM）作为这一变革的核心驱动力，正逐步成为连接人类语言与机器智能的桥梁。LLM通过海量文本数据的学习，掌握了丰富的语言知识、上下文理解能力以及生成高质量文本的能力，为智能教
2024-08-11深度学习优化器：《Lookahead Optimizer: k steps forward, 1 step back》
深度学习优化器：《LookaheadOptimizer:kstepsforward,1stepback》项目地址：https://github.com/michaelrzhang/lookaheadpytorch版本：https://github.com/michaelrzhang/lookahead/blob/master/lookahead_pytorch.py论文地址：https://arxiv.org/abs/1907.08610使用
2024-08-02深度学习（学习率）
Pytorch做训练的时候，可以调整训练学习率。通过调整合适的学习率曲线可以提高模型训练效率和优化模型性能。各种学习率曲线示例代码如下：importtorchimporttorch.optimasoptimimporttorch.nnasnnimportmatplotlib.pyplotaspltimportnumpyasnpif__name__==
2024-07-26梯度回归三步走
模型训练的每个周期内我们会碰到以下固定的代码逻辑组合：optimizer.no_grad()loss.backward()optimizer.step()他们的作用分别为：optimizer.no_grad()：清空上一轮训练留下来的梯度值。每一轮梯度训练过程中，针对模型的参数集，都会生成相应的梯度x.grad,如果不显
2024-07-23Aquila优化算法（基本原理+matlab源代码）—— 基于Aquila Optimizer原始论文分析
Matlab源代码位于：AquilaOptimizer:Ameta-heuristicoptimizationalgorithm-FileExchange-MATLABCentral(mathworks.cn)1Aquila优化算法AO是一种基于种群优化方法，受启发于Aquila捕获猎物的方式。Aquila捕获猎物的方式主要有四种：（1）有垂直弯曲的高空翱翔（2）用短
2024-07-22Aquila优化算法（基本原理+matlab源代码）—— 基于Aquila Optimizer原始论文分析
Matlab源代码位于：AquilaOptimizer:Ameta-heuristicoptimizationalgorithm-FileExchange-MATLABCentral(mathworks.cn)1Aquila优化算法AO是一种基于种群优化方法，受启发于Aquila捕获猎物的方式。Aquila捕获猎物的方式主要有四种：（1）有垂直弯曲的高空翱翔（2）用短滑翔攻
2024-07-10AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients
目录概AdaBelief代码ZhuangJ.,TangT.,DingY.,TatikondaS.,DvornekN.,PapademetrisX.andDuncanJ.S.AdaBeliefOptimizer:Adaptingstepsizesbythebeliefinobservedgradients.NeurIPS,2020.概本文提出了一种Adam优化器上的改进,能够更加有效地设计
2024-06-13实操教程｜PyTorch实现断点继续训练
作者丨HUST小菜鸡（已授权）编辑丨极市平台最近在尝试用CIFAR10训练分类问题的时候，由于数据集体量比较大，训练的过程中时间比较长，有时候想给停下来，但是停下来了之后就得重新训练，之前师兄让我们学习断点继续训练及继续训练的时候注意epoch的改变等，今天上午给大致整理了一下，不全面
2024-05-16SciTech-BigDataAIML-Tensorflow-模型的训练与评估： tf.keras.losses + tf.keras.optimizer + tf.keras.metrics
模型的训练：tf.keras.losses和tf.keras.optimizer定义一些模型超参数：num_epochs=5batch_size=50learning_rate=0.001实例化模型和数据读取类，并实例化一个tf.keras.optimizer的优化器（这里使用常用的Adam优化器）：model=MLP()data_loader=MNISTLoader()optimiz
2024-05-15SciTech-BigDataAIML-Tensorflow-Optimizer:优化器
https://keras.io/api/optimizers/OptimizersAvailableoptimizers：SGDRMSpropAdamAdamWAdadeltaAdagradAdamaxAdafactorNadamFtrlLionLossScaleOptimizerUsagewithcompile()&fit()Anoptimizerisoneofthetwoargumentsrequiredforcompilin
2024-05-11SciTech-BigDataAIML-TensorFlow-Model的编译：设置(LossFunction+Optimizer+Metrics)与编译
机器学习|model.compile()用法model.compile()的作用:为经过设计的Model(神经网络模型)设置好：loss损失函数、optimizer优化器、metrics准确性评价函数。并且进行编译；Optimizers优化器：Optimizer的主要功能是作用在GD(梯度下降)的过程,使得Gradient(梯度)更快(快速
2024-04-23PyTorch中的优化器
SDG优化器参数说明：（引用：https://developer.baidu.com/article/detail.html?id=2705103）学习率（LearningRate）：学习率决定了模型权重更新的步长。较大的学习率可能导致模型训练不稳定，而较小的学习率可能导致训练速度缓慢。通常，你可以通过尝试不同的学习率来找到最佳值。默认情况下，学
2024-04-18训练时的显存优化
总览HuggingFace的这篇文章总结了一系列节约显存的方法，非常全面。训练时显存占用的组成:模型参数优化器状态输入张量和其他临时张量激活值梯度通信缓冲“激活值”可能有点难理解。这是指像是dropout的mask、LayerNorm的\(\mu\\sigma^2\)等，不是梯度但参加到梯
2024-04-06FJSP：蜣螂优化算法( Dung beetle optimizer, DBO)求解柔性作业车间调度问题（FJSP），提供MATLAB代码
一、柔性作业车间调度问题柔性作业车间调度问题（FlexibleJobShopSchedulingProblem，FJSP），是一种经典的组合优化问题。在FJSP问题中，有多个作业需要在多个机器上进行加工，每个作业由一系列工序组成，每个工序需要在特定的机器上完成。同时，每个机器一次只能处理一个工序，且每个工
2024-03-29train_transforms，Normalize，CrossEntropyLoss，optimizer，前向传播进行特征提取，反向传播优化，SGD，Adam
目录train_transforms：变换Normalize(mean=127.5,std=127.5) ：缩放到[-1,1]
2024-03-18Optimizer: SGD, SGD with Momentum, Adagrad, RMSProp, Adam, AdamW
2024-03-18Optimizer: SGD, SGD with Momentum, Adagrad, RMSProp, Adam, AdamW