目录
1)BGD(Batch Gradient Descent):批量梯度下降法
2)SGD(Stochastic Gradient Descent):随机梯度下降
3)Adam(Adaptive Moment Estimation):自适应优化算法
4)Adagrad(Adaptive Gradient Algorithm):自适应学习率优化算法
5)RMSprop(Root Mean Square Propagation):自适应学习率优化算法。
6)小批量梯度下降法(Mini-batch Gradient Descent)
一、深度学习核心框架的选择
1、TensorFlow
1)概念
由Google开发并维护的深度学习框架,具有广泛的生态系统和强大的功能。它支持多种硬件平台,包括CPU、GPU和TPU,并且提供易于使用的高级API(如Keras)和灵活的底层API。
2)优缺点
优点:广泛的生态系统和强大的功能、支持跨平台使用......
缺点:代码比较冗余,上手有难度......
2、PyTorch
1)概念
由Facebook开发的深度学习框架,被认为是TensorFlow的竞争者之一。它具有动态计算图的特性,使得模型的定义和训练更加灵活。PyTorch也具有广泛的生态系统,并且在学术界和研究领域非常受欢迎。
2)优缺点
优点:上手极容易,直接套用模板、易于调试和可视化.......
缺点:相对较小的生态系统、相对较少的文档和教程资源
3、Keras
1)概念
一个高级的深度学习框架,在tensorflow基础上做了封装,可以在TensorFlow和Theano等后端上运行。Keras具有简洁的API,使得模型的定义和训练变得简单易用。它适合对深度学习有基本了解的初学者或者快速原型开发。
2)优缺点
优点:简化代码难度、简洁易用的API、多后端支持.....
缺点:功能相对有限、性能较差
4、Caffe
1)概念
一个由贾扬清等开发的深度学习框架,主要面向卷积神经网络(CNN)的应用。Caffe具有高效的C++实现和易于使用的配置文件,是许多计算机视觉任务的首选框架。
2)优缺点
优点:只需要配置文件即可搭建深度神经网络模型
缺点:安装麻烦,缺失很多新网络模型,近几年几乎不更新
二、pytorch安装
1、安装
安装教程见上一篇博客,连接如下:
2、pytorch分为CPU版本和GPU版本
1)CPU版本
CPU又称中央处理器,作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。可以形象地理解为有25%的ALU(运算单元)、有25%的Control(控制单元)、50%的Cache(缓存)单元,如下图所示:
2)GPU版本
GPU又称图像处理器,是一种专门在个人电脑等一些移动设备上做图像和图形相关运算工作的微处理器。可以形象地理解为90%的ALU(运算单元),5%的Control(控制单元)、5%的Cache(缓存)。
如上图所示可发现,GPU中的控制单元和缓存的位置在整个模块的左侧一点点,剩下的全部都是运算单元用来计算的,而CPU中控制单元和缓存的位置几乎占了整个模块的一半,大大减少了运算能力,所以pytorch可以安装cuda及相关驱动来调用GPU对模型进行计算,以的到加速运算的目的。
例如有下列图片,需要对其进行训练,将其传入CPU,可见传入空间几乎占满,而传入GPU却绰绰有余。
3、相关显卡参数
1)显卡容量
决定着临时存储数据的能力,如 6GB、8GB、24GB、48GB等等
2)显存频率
反应显存的速度,如 1600MHz、1800MHz、3800MHz、5000MHz等
3)显存位宽
一个时钟周期内所能传送数据的位数,如 64、128、192、256、384、448、512。
4)如何查看电脑是CPU还是GPU
右击状态栏打开任务管理器,在性能里即可查看
三、PyTorch框架认识
1、利用MNIST数据集实现神经网络的图像识别
代码流程见上节课所学内容
《深度学习》PyTorch 手写数字识别 案例解析及实现 <上>
《深度学习》PyTorch 手写数字识别 案例解析及实现 <下>
2、大致流程
有如下手写图片,现在想通过训练模型来判断这个手写数字所代表的是什么数字,此时首先使用命令datasets.MNIST下载训练数据集和测试数据集,这两份数据中包含大量的手写数字及其对应的真实数字类型,将这些图片以例如64张图片及其类别打包成一份,然后再在GPU中建立模型,将这些打包好的图片数据信息传入GPU对其进行计算和训练,训练好的模型可以导入上述打包好的测测试集数据进行测试并与真实值对比,然后计算得到准确率。
3、模型的结构
例如使用神经网络的多层感知器
4、优化器
1)BGD(Batch Gradient Descent):批量梯度下降法
使用全样本数据计算梯度,例如一个batch_size=64,计算出64个梯度值,好处是收敛次数少。坏处是每次迭代需要用到所有数据,占用内存大耗时大。
2)SGD(Stochastic Gradient Descent):随机梯度下降
从64个样本中随机抽出一组,训练后按梯度更新一次
SGD的原理是在每次迭代中,从训练集中随机选择一个样本进行梯度计算,并根据学习率和动量等参数更新模型参数。
3)Adam(Adaptive Moment Estimation):自适应优化算法
结合了动量和RMSprop的思想,Adam使用动量的概念来加速收敛,并根据每个参数的历史梯度自适应地调整学习率。它计算每个参数的自适应学习率,以及每个参数的梯度的指数移动平均方差。
4)Adagrad(Adaptive Gradient Algorithm):自适应学习率优化算法
它为每个参数维护一个学习率,并根据参数的历史梯度调整学习率。Adagrad使用参数的梯度平方和的平方根来缩放学习率,从而对于稀疏参数更加适用。
5)RMSprop(Root Mean Square Propagation):自适应学习率优化算法。
它类似于Adagrad,但引入了一个衰减系数来平衡历史梯度的重要性。RMSprop使用历史梯度的平均值的平方根来调整学习率。
6)小批量梯度下降法(Mini-batch Gradient Descent)
将训练数据集分成小批量用于计算模型误差和更新模型参数。是批量梯度下降法和随机梯度下降法的结合。
7)等等多种优化算法
四、激活函数
1、常见激活函数
1)Sigmoid
Sigmoid函数将输入映射到0到1之间的连续值,其将输入转换成概率值,常用于二分类问题。Sigmoid函数的缺点是在输入较大或较小的情况下,梯度接近于0,可能导致梯度消失问题。
2)ReLU
ReLU是最常用的激活函数之一。它将输入小于0的值设为0,大于等于0的值保持不变。ReLU的原理是通过引入非线性,使得神经网络能够学习更复杂的函数。ReLU具有简单的计算和导数计算,且能够缓解梯度消失问题。
3)anh
anh函数将输入映射到-1到1之间的连续值。它的原理与Sigmoid函数类似,但输出范围更大。Tanh函数也具有非线性性质,但仍存在梯度消失问题。
4)LeakyReLU
LeakyReLU是ReLU的变体,它在输入小于0时引入小的斜率,使得负数部分也能有一定的激活。LeakyReLU的原理是通过避免ReLU中的“神经元死亡”问题,进一步缓解梯度消失。
5)Softmax
Softmax函数将输入转换为概率分布,用于多分类问题。Softmax的原理是将输入的指数形式归一化,保证输出是一个概率分布,且每个类别的概率和为1。
2、梯度消失
指在神经网络的反向传播过程中,梯度逐渐变小并趋近于零的现象。当梯度接近于零时,权重更新的幅度变得非常小,导致网络参数更新缓慢甚至停止更新,从而影响网络的训练效果。
通常发生在使用一些特定的激活函数和深层神经网络中。当深层网络的激活函数是Sigmoid或Tanh等饱和函数时,这些函数的导数在输入较大或较小的情况下接近于零,导致梯度逐渐缩小。随着反向传播的进行,梯度会传递到浅层网络,导致浅层网络的参数更新缓慢,最终影响整个网络的训练效果。
3、梯度爆炸
指在神经网络的训练过程中,梯度增长得非常快,导致梯度值变得非常大甚至无限大的现象。当梯度值变得非常大时,权重的更新幅度也会变得非常大,导致网络参数发生剧烈的变化,进而影响网络的稳定性和训练效果。
梯度爆炸通常发生在使用一些特定的激活函数和深层神经网络中。当深层网络的激活函数是非线性函数时,特别是使用在深层堆叠的神经网络中时,梯度可能会无限制地增大。这是因为在反向传播过程中,梯度会在每个隐藏层传递并相乘,导致梯度指数级地增长。
标签:函数,梯度,讲解,神经网络,学习,PyTorch,GPU,激活,CPU From: https://blog.csdn.net/qq_64603703/article/details/142341329