首页 > 其他分享 >深度学习学术论文阅读笔记(一)之经典学术论文阅读笔记

深度学习学术论文阅读笔记(一)之经典学术论文阅读笔记

时间:2023-06-21 19:31:33浏览次数:43  
标签:学术论文 权值 网络 笔记 学习 算法 阅读 深度 节点


深度学习算法主要分类三大类:自动编码器,深度神经网络和卷积神经网络。下面是对这三种网络分类进行的初步调研。

深度学习6篇非常重要的文章:

  1.《Learning multiple layers of representation》 / G E. Hinton

(1)主要内容:论述采用多层网络表达(深度学习网络:卷积网络,堆叠自动编码器,深度神经网络)来提取(如,语音识别,物体识别,图像等感知输入)的特征,而不是传统的BP网络。从网络结构,噪声分析等方面来论证。

(2)不采用BP网络原因:BP网络需要大量的标签数据,而且识别的效果比多层网络差很多。

(3)采用多层网络结构表达的原因:1)模型学习的目的是产生感知数据(权值和偏差),而不是对数据进行分类,因此不需要大量的标签数据。2)可以将多层网络分解为多个单层网络逐层学习(比如说:受限玻尔兹曼机RBM),克服了传统分散分层生成模型(多层堆叠模型)存在的干扰问题。3)可以采用独立的精调来提高混合模型(特征提取+分类)的生成和区分性能。

(4)

(5)结果:

(6)未来工作:1)探究深度结构是如何对输入进行表达的(目前我们只能通过给定一个输入,得到一个输出向量,并不清楚内部结构,因为深度网络内部的神经元是非线性的)2)单向连接网络结构是否足够处理问题(应该这样,底层往上层传递数据,保持准确和细节,保持稳定结构)

(7)值得注意的地方:

 

  2.《Learning Deep Architectures for AI》 / Yoshua Bengio  

(1)主要内容:对深度学习进行了全面系统的讲解。1)介绍深度学习的产生,意义,目的:人坐在地上。底层表达——〉高层抽象。

2)为什么要选择深度结构:深度不够会导致一些问题:浅层学习没办法解决,需要很多训练样本,过拟合,不能全面准确提取输入特征等等。

3)讨论局部推测和局部估计存在问题(局部不能代表整体),引出深度学习分布式表达特点和其优势。

4)核心:讲多层网络训练问题-〉无监督学习-〉深度推测结构-〉深度学习算法(两类:第一类(基于神经网络概念):卷积神经网络,自动编码器。第二类(基于能量模型):限制玻尔兹曼机(RBM)-〉深度信念网络)

5)介绍逐层贪心训练算法,用于预训练训练深度网络:深度信念网络和堆叠编码器。

精调:

6)介绍新近提出的各种自动编码器和RBM。

7)提出了5点建议(应该怎么做):采用整体优化策略,把DBN的逐层初始化看作一个连续性的方法,从无监督到有监督转换,控制好环境温度,形成系统的知识体系。  

   解释为什了无监督学习很重要?

   提出了26个深度学习方面需要解决的问题。

 

 3.《Gradient-Based Learning Applied to Document Recognition》/ Yann LeCun  (CNN方面最重要文章)

(1)主要内容:提出卷积神经网络(CNN)用于文件识别,给出了具体的推导和定义公式等,并与以前传统文件分类方法进行对比。以CNN作为分类器,提出了一个新的用于文件识别的实时系统,图像转换系统(GTN)。提一个基于梯度下降法的全局训练算法,专门用于GTN网络,或者是其他同类的深度多层网络。给出了一个GTN实际应用例子证明。

(2)采用方法:卷积神经网络(CNN),基于梯度下降法的全局训练算法

(3)特点:专门用于处理2维的图片变量。

(4)优点:   缺点:

(5)结果:

(7)值得注意的地方:

 

 4.《An Efficient Learning Procedure for Deep Boltzmann Machines》 / Geoffrey E. Hinton

(1)主要内容:对玻尔兹曼机进行介绍。理论推导,对于独立的单个数据采用变分近似的方法估计,对于互相关联整个数据采用连续马尔科夫链去估计。把这两种完全不同的方法用于log可能性的梯度计算中,学习含有多个隐含层的玻尔兹曼机,通过逐层预训练初始化网络权值。通过实验验证实际效果。

(2)采用方法:(预训练限制玻尔兹曼机)

(3)特点:

(4)优点:使得各种变量的干扰被初始化消除;有效的初始化隐含层节点的权值,是网络更容易达到最优值   缺点:

(5)结果:

(6)下一步工作:

(7)值得注意的地方:深度信念网络DBN与深度玻尔兹曼DBM机区别在于:深度信念网络最上面两层连接是有向的,而深度玻尔兹曼机可见层和隐含层都是无向的。

 

 5.《A fast learning algorithm for deep belief nets》 / Geoffrey E. Hinton 

(1)主要内容:介绍如何训练深度信念网络,采用互补先验的方法去消除传统前向模型里面存在的解释消去现象;解释了限制玻尔兹曼机与无限前向网络之间的相似性,由此引出了逐层贪心学习算法用于逐层训练一个多层的前向网络。介绍反向精调方法,用于修正DBN网络权值。给出一个实验验证方法。

(2)采用方法:逐层贪心算法,反向微调。

(4)优点:1)快速贪心学习算法可以快速确定参数,即便是在有上千万的参数和多个隐含层存在时。2)学习算法是无监督的,但却适用于学习标记的数据。3)提出的精调算法使得生成模型的区分性超过了所有其他的区分型方法。4)提取特征速度快而且准确。5)学习算法是局部的,只与前后神经节点相关。7)信息交流很简单,神经元只需要说明它们的随机二进制状态。8)生成模型可以学习低层的特性而不需要带标记的数据反馈;可以比传统分类模型学习更多的变量而不会出现过拟合现象;有标记样本学习时,每一个样本约束参量所需要的信息位数与详细说明这个标记所需要的位数一样;对一个生成模型来说,每一个训练样本需要的比特为与描述这个输入所需的比特位一致。9)从模型生成的结果很容易发现网络学到了什么特征。10)通过最后生成的图形可以解释深度隐含层生成的非线性,分布式表达。

当作概率处理,而不是原始的图片。2)反向调整中联想记忆的反馈仅限于最上面两层(有标记数据的调整,两层之后是权值的变换)。3)没有一个系统的方式去处理感知到的变化(权值啊,学习速率变化)。(4)需要为训练提供一个有标签的样本集;(5)学习过程较慢;(6)不适当的参数选择会导致学习收敛于局部最优解。

(5)结果:

(6)下一步工作:

(7)值得注意的地方:

 

 6.《Practical Guide to Training Restricted Boltzmann Machines》 / Geoffrey Hinton 

(1)主要内容:讲解运用对比离差算法训练限制玻尔兹曼机时的一些经验方法。包括:1)如何设置一些参数的变量的值:学习速率,要素,权值衰减系数,稀疏度,权值初值设定,隐含层节点数,批量处理值。 2)选取何种类型的节点,通过何种方法更新节点的状态(随机方法或确定的方法);输入一个样本时,隐含层节点的状态更新多少次。 3)如何监控学习的进程,什么时候终止学习。

对比离差算法时如何收集数据:隐含层节点:预训练时,采用随机二进制数;反向重构时,采用概率。可见层节点,一直实际概率值。微调时,有监督训练调整权重时,采用采用概率值,权值随机初始化。

批量处理时最小块大小选择:对于含有少量等概率类的数据,最小块大小与数据类型大小一致,每一个类必须有一个数据;其他类数据,则先进行归一化,然后最小块数据定为10。

:使用重构误差。使用它但不相信它,因为它受很多因素的影响。1)可以使用以下三种图形监控重构误差变化(权值,可见层节点和隐含层节点偏差的柱状图)2)采用退火重要性抽样法去估训练数据的密度。3)用标签数据来学习组合密度时,可以比较验证集于训练集之间的区分效果的差别。

  (5)过拟合监控:比较验证集与训练集平均自由能量之间差,显著变大则可能存在过拟合。 

  (6)学习速率设置:观察权重和权重更新的柱状图和更新方向,权重更新应该是权重的倍。

  (7)权值和偏差初始化:连接权重W可以初始化为正态分布N(0, 0.01)的数值。隐含单元的偏置,设置为零。显示单元的偏置,设置为log(p_i/(1-p_i)),其中p_i为第i个显示单元在训练样本中处于激活状态的比率。

  (8)动量(用于增加学习速度的参数)选择:BP算法中的动量设置。权重更新方向不仅仅和梯度有关系,而且和上一次更新的权重有关系。

k的值可以取0.5,到学习后期可以0.9。。

  (9)权值衰减:从0.01至0.0001均可。

  (10)稀疏度设置:稀疏度设在0.01至之间。

  (11)隐含层节点数:(从防止过拟合角度讲)估计每一个样本存储需要多少个bit为,然后乘以样本数,再降低一个数量级即为隐含层单元数。

(2)值得注意的地方:1)RBM可以选择其他类型节点:softmax多项式节点,高斯可见节点,二项式节点,更正线性节点。2)各种CD算法。3)缺失值的处理。

标签:学术论文,权值,网络,笔记,学习,算法,阅读,深度,节点
From: https://blog.51cto.com/u_13046751/6530911

相关文章

  • 【笔记】大一下数值分析碎碎念——插值
    \(\newcommand\op[1]{\operatorname{#1}}\)插值给定数据点\((x_i,y_i)\),要求找到函数满足\(f(x_i)=y_i\)。线性插值:全局信息维护,光滑性(求导),积分都不太好搞。但是原理简单。多项式?指数?变化快。三角函数?周期性。多项式插值Weierstrass逼近定理:设\(f\in\opC[a,b]\),则......
  • opencv学习笔记(五)
    Sobel算子:Sobel算子是一种常用的图像梯度算子,用于检测图像中的边缘。它基于离散的差分运算,通过计算图像在水平和垂直方向上的梯度来确定边缘的强度和方向。importcv2importnumpyasnp#读取图像image=cv2.imread('input.jpg',cv2.IMREAD_GRAYSCALE)#计算水平方向......
  • MongoDB学习笔记
    MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存......
  • 大型网站技术架构 核心原理与案例分析--阅读笔记
    第一章大型网站架构演化大型网站软件系统的特点大型网站软件系统的特点高并发、大流量高可用海量数据用户分布广法、网络情况复杂安全环境恶劣需求快速变更、发布频繁渐进式发展大型网站架构演化发展历程大型网站的技术挑战主要来自庞大的用户,高并发的访问和海量的数据,任何简单......
  • MySQL笔记整理
    SELECT0+'123.00';SELECT0+'123.0qwe';SELECT0+'qwe1';SELECT0+null;SELECT'123.00'/4;SELECT'123.0qwe'/4;SELECT'qwe1'/4;SELECT'1qwe'/4;SELECTnull/4;SELECTconvert(......
  • iOS开发笔记 - Objective-C和JavaScript的混编
    最近看了一个对Github上面编程语言使用统计的排行榜,JavaScript真可以说是一枝独秀,很难想象20年前,这个语言只是浏览器中的装饰性语言,能做的事情也就是一点特效或者检查一下要提交给服务器的表单是否满足要求。今天的JavaScript已经是一个全栈语言,从客户端到服务器无所不在。很多编程......
  • iOS开发笔记 - 语言篇之Swift
     2014年的苹果全球开发者大会(WWDC),当CraigFederighi向全世界宣布“Wehavenewprogramminglanguage”(我们有了新的编程语言)的时候,全场响起了最热烈和持久的掌声,伴随着掌声到来的语言叫Swift。接下来CraigFederighi更是毫不掩饰的告诉大家,Swift将成为主宰iOS和Mac开发的新语言,甚......
  • 图论 学习笔记
    图的基本概念和数据结构圆圈表示节点线是边图是V和E的二元组无向图:边没有方向(边是双向的)有向图:边有方向无权图:所有边的权重都是1有权图:权重不同;在不同的应用里,权重的意义不同 没有的边记作0或者无穷大,具体看实际应用 基本原则是进行搜索的时候,使无法通过这条边数据结构......
  • 线性代数-二次型-坐标变换笔记
    原来的二次型\(f\left(x_{1},x_{2},x_{3}\right)\)经过坐标变换变成了\(g\left(y_{1},y_{2},y_{3}\right)\)这个新的二次型$x^{\mathrm{T}}Ax$经过坐标变换变成$y^{\mathrm{T}}By$原来的二次型矩阵\(A\)变成了\(B\)(也是实对称矩阵)\(A\)和\(B\)之间的之间的关......
  • JVM 虚拟机笔记,不一定全,但是一定靠谱
    在学习JVM之前,先分享一则信息:2009年4月20日,Orace宣布正式以74亿美元的价格收购市值曾超过2000亿美元的Sun公司,传奇的SunMicrosystems从此落幕成为历史。一、Java虚拟机的介绍首先登场的是,虚拟机的始组:SunClassic/ExactVM,SunClassic被誉为世界上第一款商用Ja......