【DL经典论文精读笔记】AlexNet

时间：2022-11-11 19:44:21浏览次数：57

标签：1.4 初始化 DL 精读训练 dropout 神经网络数据 AlexNet

1.1引言

1.2数据集

就是ImageNet，当时计算机视觉最大的数据集

1.3结构

采用双GPU结构实现，并行处理图像，2-3,5-全连接部分中间还将特征图共享

最后全连接层输出的4096的语义信息具有重大意义，为之后的分类等做奠基

1.4.避免过拟合

1.4.1 数据增强

● 把图片人工变大，256x256随机截取224x224出来

● 在通道上做变换，使得颜色不一样

因为卷积对图片的位置、光照、颜色等信息是比较敏感的，做变换之后，记住数据的能力变低

1.4.2 Dropout

作者认为dropout是模型融合，但如今大家觉得dropout是一个正则的东西

如果没有dropout放在前面两个全连接上，实验表明没有dropout过拟合严重

1.5.训练细节

● 使用SGD来训练，momenum

● 权重是使用均值为0，方差为0.01高斯随机变量来初始化

● 2、4、5层偏移初始化为1，其他为0。（然并卵，目前采用全部初始化为0）

● 每个层用同样的学习率，从0.01开始，如果验证误差不往下降，就x10，但是后来不用这个做法，主流做法是每多少epoch下降一点。

Alexnet是蓝色曲线，目前主流算法用平滑的下降方式，比如cos函数则是红色曲线

● 需要5-6天在两个NIVIDIA GTX 580 3GB的GPU训练

1.6.实验

最重要的部分，就是一些数据对比。具体实验怎么做不用太关心细节，看结果

实验在完整的数据集上进行了训练，沐神说现在很少有人去完整的数据集上训练了，但是完整的数据集质量会更好。

重点：

他在两个gpu上训练，发现在gpu1上发现的是与颜色无关的特征，而gpu2则是颜色相关，目前也不能解释。

对神经网络的可视化，做出了一些工作，对神经网络的学习内容有了一些直观的了解。但是目前人们仍然不知道神经网络到底在学些什么，可解释性差

标签：1.4,初始化,DL,精读,训练,dropout,神经网络,数据,AlexNet
From： https://www.cnblogs.com/overlord/p/16881563.html

【DL经典论文精读笔记】神经网络压缩之剪枝
深度压缩DEEPCOMPRESSION:COMPRESSINGDEEPNEURALNETWORKSWITHPRUNING,TRAINEDQUANTIZATIONANDHUFFMANCODING：用剪枝、训练量化和霍夫曼编码压缩深度神经网络......
mf.dll mfplat.dll
[1111/170709.200:ERROR:dxva_video_decode_accelerator_win.cc(1451)]DXVAVDAfatalerror:couldnotLoadLibrary:mf.dll:找不到指定的模块。(0x7E)[1111/17070......
【HarmonyOS】【FAQ】使用hdc命令安装hap包时，出现以下错误： failed to install bundle.
【问题描述】hap包大小为121M，使用hdc命令安装时，出现以下错误提示：[Info]Appinstallpath:D:\OpenHarmony\WorkSpace\map\entry\build\default\outputs\default\entry-defaul......
【HarmonyOS】【FAQ】使用hdc命令安装hap包时，出现以下错误： failed to install bundle.
【问题描述】hap包大小为121M，使用hdc命令安装时，出现以下错误提示：[Info]Appinstallpath:D:\OpenHarmony\WorkSpace\map\entry\build\default\outputs\default\entry-defau......
Spark3.1.2与Iceberg0.12.1整合-hadoop和hive的catalog，DDL，隐藏分区（按年，月，天，小时），create
Spark3.1.2与Iceberg0.12.1整合Spark可以操作Iceberg数据湖，这里使用的Iceberg的版本为0.12.1，此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Iceberg时不支持D......
【SpringMVC（三）】 HandlerAdapter
HandlerAdapter在springmvc中是一个十分重要的角色。作用如下：1.负责直接调用控制器来处理请求；2.负责在调用控制器的前定制化处理request以及在调用后定制化处理response；3.隐......
【Java】随机数原理 Random ThreadLocalRandom
大致生成原理：随机数由seed经过一定的转换生成。需要提供初始seed。每一次生成随机数时，先由老seed生成新seed，再根据新seed生成新的随机数。由于算法是固定的，所以如果初始seed......
Java多线程 ThreadPoolExecutor-RejectedExecutionHandler拒绝执行策略
目录一、说明二、理解三、实现1.AbortPolicy2.DiscardPolicy3.DiscardOldestPolicy4.CallerRunsPolicy5.自......
图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
项目链接：https://aistudio.baidu.com/aistudio/projectdetail/5000517?contributionType=1如遇到问题查看原项目解决图学习温故以及初探PaddleGraphLearning(PGL)构建......
LinkedList源码分析
第一章LinkedList源码分析目标：理解LinkedList的底层数据结构深入源码掌握LinkedList查询慢，新增快的原因一、LinkedList的简介List接口的链接列表实现。实现所有......