首页 > 其他分享 >《深度学习》PyTorch框架 优化器、激活函数讲解

《深度学习》PyTorch框架 优化器、激活函数讲解

时间:2024-09-18 21:50:02浏览次数:10  
标签:函数 梯度 讲解 神经网络 学习 PyTorch GPU 激活 CPU

目录

一、深度学习核心框架的选择

        1、TensorFlow

                1)概念

                2)优缺点

        2、PyTorch

                1)概念

                2)优缺点

        3、Keras

                1)概念

                2)优缺点

        4、Caffe

                1)概念

                2)优缺点

二、pytorch安装

        1、安装

        2、pytorch分为CPU版本和GPU版本

                1)CPU版本

                2)GPU版本

        3、相关显卡参数

                1)显卡容量

                2)显存频率

                3)显存位宽

                4)如何查看电脑是CPU还是GPU

三、PyTorch框架认识

        1、利用MNIST数据集实现神经网络的图像识别

        2、大致流程

        3、模型的结构

        4、优化器

                1)BGD(Batch Gradient Descent):批量梯度下降法

                2)SGD(Stochastic Gradient Descent):随机梯度下降

                3)Adam(Adaptive Moment Estimation):自适应优化算法

                4)Adagrad(Adaptive Gradient Algorithm):自适应学习率优化算法

                5)RMSprop(Root Mean Square Propagation):自适应学习率优化算法。

                6)小批量梯度下降法(Mini-batch Gradient Descent)

                7)等等多种优化算法

四、激活函数

        1、常见激活函数

                1)Sigmoid

 

                2)ReLU

                3)anh

                4)LeakyReLU

                5)Softmax

        2、梯度消失

        3、梯度爆炸


一、深度学习核心框架的选择

        1、TensorFlow

                1)概念

                     由Google开发并维护的深度学习框架,具有广泛的生态系统和强大的功能。它支持多种硬件平台,包括CPU、GPU和TPU,并且提供易于使用的高级API(如Keras)和灵活的底层API。

                2)优缺点

                      优点:广泛的生态系统和强大的功能、支持跨平台使用......

                      缺点:代码比较冗余,上手有难度......

                     

        2、PyTorch

                1)概念

                        由Facebook开发的深度学习框架,被认为是TensorFlow的竞争者之一。它具有动态计算图的特性,使得模型的定义和训练更加灵活。PyTorch也具有广泛的生态系统,并且在学术界和研究领域非常受欢迎。

                2)优缺点

                      优点:上手极容易,直接套用模板、易于调试和可视化.......

                      缺点:相对较小的生态系统、相对较少的文档和教程资源

        3、Keras

                1)概念

                        一个高级的深度学习框架,在tensorflow基础上做了封装,可以在TensorFlow和Theano等后端上运行。Keras具有简洁的API,使得模型的定义和训练变得简单易用。它适合对深度学习有基本了解的初学者或者快速原型开发。

                2)优缺点

                      优点:简化代码难度、简洁易用的API、多后端支持.....

                      缺点:功能相对有限、性能较差

        4、Caffe

                1)概念

                        一个由贾扬清等开发的深度学习框架,主要面向卷积神经网络(CNN)的应用。Caffe具有高效的C++实现和易于使用的配置文件,是许多计算机视觉任务的首选框架。

                2)优缺点

                      优点:只需要配置文件即可搭建深度神经网络模型

                      缺点:安装麻烦,缺失很多新网络模型,近几年几乎不更新

二、pytorch安装

        1、安装

                安装教程见上一篇博客,连接如下:

https://blog.csdn.net/qq_64603703/article/details/142218264?fromshare=blogdetail&sharetype=blogdetail&sharerId=142218264&sharerefer=PC&sharesource=qq_64603703&sharefrom=from_linkicon-default.png?t=O83Ahttps://blog.csdn.net/qq_64603703/article/details/142218264?fromshare=blogdetail&sharetype=blogdetail&sharerId=142218264&sharerefer=PC&sharesource=qq_64603703&sharefrom=from_link

       

        2、pytorch分为CPU版本和GPU版本

                1)CPU版本

                        CPU又称中央处理器,作为计算机系统的运算控制核心,是信息处理、程序运行的最终执行单元。可以形象地理解为有25%的ALU(运算单元)、有25%的Control(控制单元)、50%的Cache(缓存)单元,如下图所示:

       

                2)GPU版本

                GPU又称图像处理器,是一种专门在个人电脑等一些移动设备上做图像和图形相关运算工作的微处理器。可以形象地理解为90%的ALU(运算单元),5%的Control(控制单元)、5%的Cache(缓存)。

                如上图所示可发现,GPU中的控制单元和缓存的位置在整个模块的左侧一点点,剩下的全部都是运算单元用来计算的,而CPU中控制单元和缓存的位置几乎占了整个模块的一半,大大减少了运算能力,所以pytorch可以安装cuda及相关驱动来调用GPU对模型进行计算,以的到加速运算的目的。

                例如有下列图片,需要对其进行训练,将其传入CPU,可见传入空间几乎占满,而传入GPU却绰绰有余。

        3、相关显卡参数

                1)显卡容量

                        决定着临时存储数据的能力,如 6GB、8GB、24GB、48GB等等

                2)显存频率

                        反应显存的速度,如 1600MHz、1800MHz、3800MHz、5000MHz等

                3)显存位宽

                        一个时钟周期内所能传送数据的位数,如 64、128、192、256、384、448、512。

                4)如何查看电脑是CPU还是GPU

                        右击状态栏打开任务管理器,在性能里即可查看

三、PyTorch框架认识

        1、利用MNIST数据集实现神经网络的图像识别

                代码流程见上节课所学内容

《深度学习》PyTorch 手写数字识别 案例解析及实现 <上>

《深度学习》PyTorch 手写数字识别 案例解析及实现 <下>

       

        2、大致流程

                有如下手写图片,现在想通过训练模型来判断这个手写数字所代表的是什么数字,此时首先使用命令datasets.MNIST下载训练数据集和测试数据集,这两份数据中包含大量的手写数字及其对应的真实数字类型,将这些图片以例如64张图片及其类别打包成一份,然后再在GPU中建立模型,将这些打包好的图片数据信息传入GPU对其进行计算和训练,训练好的模型可以导入上述打包好的测测试集数据进行测试并与真实值对比,然后计算得到准确率。

       

        3、模型的结构

                例如使用神经网络的多层感知器

        4、优化器

                1)BGD(Batch Gradient Descent):批量梯度下降法

                   使用全样本数据计算梯度,例如一个batch_size=64,计算出64个梯度值,好处是收敛次数少。坏处是每次迭代需要用到所有数据,占用内存大耗时大。

                2)SGD(Stochastic Gradient Descent):随机梯度下降

                   从64个样本中随机抽出一组,训练后按梯度更新一次

                   SGD的原理是在每次迭代中,从训练集中随机选择一个样本进行梯度计算,并根据学习率和动量等参数更新模型参数。

                3)Adam(Adaptive Moment Estimation):自适应优化算法

                   结合了动量和RMSprop的思想,Adam使用动量的概念来加速收敛,并根据每个参数的历史梯度自适应地调整学习率。它计算每个参数的自适应学习率,以及每个参数的梯度的指数移动平均方差。

                4)Adagrad(Adaptive Gradient Algorithm):自适应学习率优化算法

                   它为每个参数维护一个学习率,并根据参数的历史梯度调整学习率。Adagrad使用参数的梯度平方和的平方根来缩放学习率,从而对于稀疏参数更加适用。

                5)RMSprop(Root Mean Square Propagation):自适应学习率优化算法。

                   它类似于Adagrad,但引入了一个衰减系数来平衡历史梯度的重要性。RMSprop使用历史梯度的平均值的平方根来调整学习率。

                6)小批量梯度下降法(Mini-batch Gradient Descent)

                   将训练数据集分成小批量用于计算模型误差和更新模型参数。是批量梯度下降法和随机梯度下降法的结合。

                7)等等多种优化算法

四、激活函数

        1、常见激活函数

                1)Sigmoid

                      Sigmoid函数将输入映射到0到1之间的连续值,其将输入转换成概率值,常用于二分类问题。Sigmoid函数的缺点是在输入较大或较小的情况下,梯度接近于0,可能导致梯度消失问题。

       

                2)ReLU

                      ReLU是最常用的激活函数之一。它将输入小于0的值设为0,大于等于0的值保持不变。ReLU的原理是通过引入非线性,使得神经网络能够学习更复杂的函数。ReLU具有简单的计算和导数计算,且能够缓解梯度消失问题。

                3)anh

                      anh函数将输入映射到-1到1之间的连续值。它的原理与Sigmoid函数类似,但输出范围更大。Tanh函数也具有非线性性质,但仍存在梯度消失问题。

                4)LeakyReLU

                      LeakyReLU是ReLU的变体,它在输入小于0时引入小的斜率,使得负数部分也能有一定的激活。LeakyReLU的原理是通过避免ReLU中的“神经元死亡”问题,进一步缓解梯度消失。

                5)Softmax

                      Softmax函数将输入转换为概率分布,用于多分类问题。Softmax的原理是将输入的指数形式归一化,保证输出是一个概率分布,且每个类别的概率和为1。

        2、梯度消失

                指在神经网络的反向传播过程中,梯度逐渐变小并趋近于零的现象。当梯度接近于零时,权重更新的幅度变得非常小,导致网络参数更新缓慢甚至停止更新,从而影响网络的训练效果。

                通常发生在使用一些特定的激活函数和深层神经网络中。当深层网络的激活函数是Sigmoid或Tanh等饱和函数时,这些函数的导数在输入较大或较小的情况下接近于零,导致梯度逐渐缩小。随着反向传播的进行,梯度会传递到浅层网络,导致浅层网络的参数更新缓慢,最终影响整个网络的训练效果。

        

        3、梯度爆炸

                指在神经网络的训练过程中,梯度增长得非常快,导致梯度值变得非常大甚至无限大的现象。当梯度值变得非常大时,权重的更新幅度也会变得非常大,导致网络参数发生剧烈的变化,进而影响网络的稳定性和训练效果。

                梯度爆炸通常发生在使用一些特定的激活函数和深层神经网络中。当深层网络的激活函数是非线性函数时,特别是使用在深层堆叠的神经网络中时,梯度可能会无限制地增大。这是因为在反向传播过程中,梯度会在每个隐藏层传递并相乘,导致梯度指数级地增长。

标签:函数,梯度,讲解,神经网络,学习,PyTorch,GPU,激活,CPU
From: https://blog.csdn.net/qq_64603703/article/details/142341329

相关文章

  • 《深度学习》PyTorch 常用损失函数原理、用法解析
    目录一、常用损失函数1、CrossEntropyLoss(交叉熵损失)        1)原理    2)流程        3)用法示例2、L1Loss(L1损失/平均绝对误差)    1)原理        2)用法示例3、NLLLoss(负对数似然损失)    1)原理    2)用法示例......
  • ChatGPT 多媒体应用设计师备考考点讲解(七):音视频编码与传输优化策略
    音视频编码与传输技术是多媒体应用设计中至关重要的环节。高效的音视频编码不仅能够保证内容质量,还可以减少带宽占用,提升传输效率。而在传输过程中,优化音视频流的传输策略可以降低延迟、减少丢包、保证播放的流畅性。在本篇文章中,我们将详细讲解音视频编码的基础知识、常见编码格式......
  • Day23笔记-Day21和Day22作业讲解&单例类
    Day22作业讲解'''学生类Student:属性:学号,姓名,年龄,性别,成绩​班级类Grade:属性:班级名称,班级中的学生【使用列表存储学生】​方法:1.查看该班级中的所有学生的信息2.查看指定学号的学生信息3.查看......
  • 2024短剧系统开发,付费短剧小程序app源码教程,分销功能讲解搭建上线
    短剧系统技术栈前端:vue3+uniapp 后端:php数据库:mysql服务器环境:centos7.6宝塔php7.4MySQL5.7一、短剧系统功能短剧用户端:小程序、抖音小程序、快手小程序、APP、z付宝小程序系统用户端详细功能:付费点播、会员等级、会员分销、VIP、积分商城、卡......
  • Python 课程15-PyTorch
    前言PyTorch是一个开源的深度学习框架,由Facebook开发,广泛应用于学术研究和工业领域。与TensorFlow类似,PyTorch提供了强大的工具用于构建和训练深度学习模型。PyTorch的动态计算图和灵活的API使得它特别适合研究和实验。它还支持GPU加速,适用于构建复杂的神经网络。......
  • OpenCV_图像旋转超详细讲解
    图像转置transpose(src, dst);transpose()可以实现像素下标的x和y轴坐标进行对调:dst(i,j)=src(j,i),接口形式transpose(InputArraysrc,//输入图像OutputArraydst,//输出)图像翻转flip(src,dst,1);flip()函数可以实现对图像的水平翻转、垂直翻转和双向......
  • C++_指针的超详细讲解,带你层层深入理解指针
    C++ 指针学习C++的指针既简单又有趣。通过指针,可以简化一些C++编程任务的执行,还有一些任务,如动态内存分配,没有指针是无法执行的。所以,想要成为一名优秀的C++程序员,学习指针是很有必要的。正如您所知道的,每一个变量都有一个内存位置,每一个内存位置都定义了可使用连字号......
  • 基于Java的班级请假管理系统的设计与实现(源码+LW+调试文档+讲解等)
     目录:博主介绍:  完整视频演示:系统技术介绍:后端Java介绍前端框架Vue介绍具体功能截图:部分代码参考:  Mysql表设计参考:项目测试:项目论文:​为什么选择我:源码获取:博主介绍:  ......
  • 基于Java的大学实训管理系统设计和实现(源码+LW+调试文档+讲解等)
     目录:博主介绍:  完整视频演示:系统技术介绍:后端Java介绍前端框架Vue介绍具体功能截图:部分代码参考:  Mysql表设计参考:项目测试:项目论文:​为什么选择我:源码获取:博主介绍:  ......
  • 孙怡带你深度学习(2)--PyTorch框架认识
    文章目录PyTorch框架认识1.Tensor张量定义与特性创建方式2.下载数据集下载测试展现下载内容3.创建DataLoader(数据加载器)4.选择处理器5.神经网络模型构建模型6.训练数据训练集数据测试集数据7.提高模型学习率总结PyTorch框架认识PyTorch是一个由Facebook......