Pytorch 中的优化器

时间：2024-08-29 15:57:10浏览次数：11

1. 介绍

torch.optim 是PyTorch库中的一个优化器模块，用于实现各种优化算法。优化器模块提供了一系列优化算法，如随机梯度下降（SGD）、Adam、Adagrad 等。这些优化算法用于调整神经网络的权重和学习率，以最小化损失函数。通过优化算法，可以帮助神经网络更快地收敛到最优解，提高训练效率和准确率。

2. 常见的优化算法

1. SGD 算法

class torch.optim.SGD(params, lr=0.001, momentum=0, dampening=0, weight_decay=0, nesterov=False, *, maximize=False, foreach=None, differentiable=False, fused=None)

optim.SGD 是 torch.optim 模块中的随机梯度下降（SGD）优化器类。它的参数介绍如下：

params：包含网络参数的可迭代对象。通常使用模型的 parameters() 方法来获取网络的参数。 eg: SGD(myModule_1.parameters(),lr=0.01) 来优化模型的所有参数
lr：学习率（learning rate），用于控制权重更新的步长。默认值为0.001。
momentum：动量参数，用于加速梯度下降算法。默认值为0。
dampening：动量的抑制因子。默认值为0。
weight_decay：权重衰减参数，用于控制模型的正则化项。默认值为0。
nesterov：是否使用 Nesterov 动量。默认值为False。

SGD 优化器通过调整网络的权重来最小化损失函数，核心思想是通过计算损失函数的梯度，沿着梯度的反方向更新网络的权重，从而逐步接近最优解。学习率决定了每次更新的步长，动量则决定了更新方向的惯性。通过调整学习率和动量的大小，可以影响优化过程的速度和稳定性。

注意：在使用时需要：

optim = torch.optim.SGD(myModule_1.parameters(),lr=0.01)

# 模型优化的步骤：

# 首先需要将数据清零，再进行反向传播与优化
optim.zero_grad() # 将 数据 清零
result_loss.backward() # 反向传播，求出每个节点的梯度
optim.step()      # 进行调优

示例：

import torch.optim
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential, CrossEntropyLoss
from torch.utils.data import DataLoader

input = torchvision.datasets.CIFAR10("../TorchVersion/dataset",train=True,
                                     transform=torchvision.transforms.ToTensor(),download=True)
dataloader = DataLoader(input,batch_size=64)

class myModule(nn.Module):
    def __init__(self):
        super(myModule, self).__init__()
        self.module1 = Sequential(
            Conv2d(3, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 64, 5, padding=2),
            MaxPool2d(2),

            Flatten(),  # 展平
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self,x):
        x = self.module1(x)
        return x

myModule_1 = myModule()
cross_loss = CrossEntropyLoss()
optim = torch.optim.SGD(myModule_1.parameters(),lr=0.01)

for epoch in range(10):
    running_loss = 0.0
    for data in dataloader:
        img, target = data
        output = myModule_1(img)
        result_loss = cross_loss(output,target)

        optim.zero_grad() # 将 数据 清零
        result_loss.backward() # 反向传播，求出每个节点的梯度
        optim.step()      # 进行调优

        # 计算每一 epoch 的损失总值，判断是否完成了优化
        running_loss = running_loss + result_loss
    print(running_loss)

2. Adam 算法

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False, *, foreach=None, maximize=False, capturable=False, differentiable=False, fused=None)

params‌：这是一个包含模型参数的迭代器，或者是定义了参数组的字典。这些参数是在训练过程中需要被优化的变量。
‌lr‌（学习率）：一个浮点数，表示每个参数更新的步长。学习率是一个重要的超参数，它决定了模型在学习过程中的速度和稳定性。
‌betas‌：一个包含两个浮点数的元组，通常设置为(0.9, 0.999)。这两个值分别控制一阶矩估计和二阶矩估计的指数移动平均的系数。它们有助于调整优化器的动量。
‌eps‌：一个小的正数，用于增加数值计算的稳定性。默认值为10−810^{-8}10−8。
‌weight_decay‌：一个浮点数，表示权重衰减（L2正则化）的系数。权重衰减有助于防止过拟合，通过在损失函数中添加权重的平方和来实现。

Adam算法是在2014年提出的一种基于一阶梯度的优化算法，它结合了动量（Momentum）和RMSprop（Root Mean Square Propagation）的思想，自适应地调整每个参数的学习率。

Adam算法的核心在于计算每个参数的一阶矩（即梯度的均值）和二阶矩（即梯度的未中心化方差）的指数移动平均，并利用这些矩的估计值来调整每个参数的学习率。

Adam 算法梯度的对角缩放（diagonal rescaling）具有不变性，因此很适合求解带有大规模数据或参数的问题。该算法同样适用于解决大噪声和稀疏梯度的非稳态（non-stationary）问题。超参数可以很直观地解释，并只需要少量调整。

标签：loss,optim,torch,算法,Pytorch,参数,优化
From： https://blog.csdn.net/SILVERCROWNAGE/article/details/141362800

Pytorch 的损失函数
1.损失函数损失函数（LossFunction）是用来衡量模型预测结果与真实值之间的差异的函数。它是训练过程中最重要的组成部分之一，用来指导模型的优化过程。作用损失函数的作用包括：衡量模型性能：通过计算预测结果与真实值的差异，损失函数可以提供一个衡量模型预测准确性的指标......
Pytorch 中的 Sequential
1.介绍在PyTorch中，Sequential是一个模型容器。它是一个用于顺序排列神经网络模块（如层、激活函数等）的容器。通过使用Sequential，可以将多个模块按照顺序连接在一起，构建一个深度神经网络模型。使用Sequential时，可以将每个模块按照顺序添加到Sequential容器中。每个模块都可以......
虚幻5|技能栏UI优化（2）——优化技能UI并实现技能栏的拖拽操作
这篇文章里，前情提要，文章里的序列变量应命名为序号，我命名错了，虽然不差，但为了后面更好的理解一.刷新技能栏，用于刷新上一章文章的初始化技能栏1.打开技能栏格子，打开图表，添加以下两个变量并添加以下蓝图还有一个蓝图要删掉，该图片把右侧的技能图标get有效变量删掉，我这里忘删了......
GEE 更新和优化：利用GEE在线处理1985-2024年NDVI、EVI、SAVI、NDMI等指数归一化教程！（Lan
简介本次的归一化教程，优化了数据去云，预处理等过程，同事将landsat5/7/8集合分别进行了数据整合，也就是原始波段的处理，从而我们可以调用1985-至今任何一个时期的影像进行归一化处理。具体的原文介绍请看原始的博客原始博客利用GEE（GoogleEarthEngine）在线处理NDVI、EVI、SAVI......
拉格朗日插值优化 DP 做题笔记
本来想在洛谷题单里找斜率优化DP的，然后发现了一个拉格朗日插值优化DP的题单，就点进去尝试了一下。题单。于是先看了雨兔的题解，学了CF995F的做法，然后A了这个题。雨兔题解的链接和我的代码见CF上的提交记录。现在正在做后面的题。P3643[APIO2016]划艇\(a_i,b_i......
【性能优化】：设计模式与技术方案解析（二）
引言在【性能优化】：探索系统瓶颈的根源（一）文章中，我们已经分析了手动结算的弊端和瓶颈，本文来分析下怎么优化系统性能。需求分析既然手动结算耗时费力易出错，那么能不能开发一个**程序自动化处理**呢？如果要开发一个自动化跑批的程序，核心功能点是什么呢？第一：需要能正常运行；......
博客园-awescnb插件-geek皮肤优化--浏览器ico图标修改
简介通过js方式自定义修改博客园-awescnb插件-geek皮肤下浏览器ico图标图标准备准备自定义的图标，上传至博客园个人的相册中代码注入定义自定义HTML：博客园->管理->设置->页脚HTML代码添加相关代码//更换ico图标functionupdateICO(){varlink=docum......
从零开始的PyTorch【03】：优化你的神经网络模型
从零开始的PyTorch【03】：优化你的神经网络模型前言欢迎回到PyTorch学习系列的第三篇！在前两篇文章中，我们学习了如何构建一个简单的神经网络并训练它，同时探索了数据集调整对模型性能的影响。今天，我们将深入探讨如何优化你的神经网络模型，使其在更复杂的任务中表现更好。我们......
如何选择合适的Java集合类来优化性能
在Java开发中，选择合适的集合类是优化应用程序性能的关键之一。由于不同的集合类在时间复杂度、内存占用和操作效率上各有特点，错误的选择可能会导致严重的性能问题。这篇博客将探讨如何根据具体需求选择合适的Java集合类，以最大化性能优化。1.明确需求在选择集合类之前，首先要......
openGauss-子事务并发回滚流程优化
openGauss-子事务并发回滚流程优化可获得性本特性自openGauss5.1.0版本开始引入。特性简介本特性利用ProcArrayGroup数据结构管理所有抢占ProcArrayLock锁失败的backends，由第一个进入group的backend作为groupleader负责请求ProcArrayLock锁，并在获取到锁后清理group中所有ba......

Pytorch 中的优化器

1. 介绍

2. 常见的优化算法

1. SGD 算法

2. Adam 算法

相关文章

赞助商

阅读排行

Pytorch 中的 优化器

1. 介绍

2. 常见的优化算法

1. SGD 算法

2. Adam 算法

相关文章

赞助商

阅读排行

Pytorch 中的优化器