首页 > 其他分享 >深度学习基础知识整理

深度学习基础知识整理

时间:2024-01-15 20:23:02浏览次数:35  
标签:编码器 训练 稀疏 基础知识 解码器 深度 整理 隐藏 输入

自动编码器

Auto-encoders是一种人工神经网络,用于学习未标记数据的有效编码。它由两个部分组成:编码器和解码器。编码器将输入数据转换为一种更紧凑的表示形式,而解码器则将该表示形式转换回原始数据。这种方法可以用于降维,去噪,特征提取和生成模型。
自编码器的训练过程是无监督的,因为它不需要标记数据。它的目标是最小化重构误差,即输入数据与解码器输出之间的差异。这可以通过反向传播算法和梯度下降等优化方法来实现。
自编码器有多种变体,包括稀疏自编码器,去噪自编码器,变分自编码器等。这些变体旨在强制学习到的表示具有某些有用的属性,例如稀疏性或噪声鲁棒性。
自动编码器作为一种前馈神经网络,由编码器和解码器两个阶段组成。编码器获取输入x,并通过如下非线性映射将其转换为隐藏表示

\[h=φ(Wx+b) \]

其中φ是非线性激活函数,然后解码器通过如下方法将隐藏表示映射回原始表示

\[z=φ(W'h+b') \]

对包括θ=[W,b,W′,b′]在内的模型参数进行优化,以最小化\(z=f_{θ}(x)\)和x之间的重建误差。N个数据样本集合上平均重建误差的一个常用度量是平方误差,相应的优化问题可以写成

\[min_θ \frac{1}{N} \sum^{N}_{i}(x_i - f_θ(x_i))^2 \]

其中\(x_i\)是第i个样本。这清楚地表明,AE可以以无监督的方式进行训练。隐藏表示h可以被视为数据样本x的一种更抽象、更有意义的表示。通常,隐藏大小应该设置为大于AE中的输入大小,这是经过经验验证的。

稀疏自编码器

在自编码器中,稀疏性是指编码器的输出中只有少量的非零元素。这可以通过向损失函数添加一个惩罚项来实现,以鼓励编码器生成更少的非零元素。这个惩罚项通常是L1正则化项,它是编码器输出向量中所有元素的绝对值之和。这个技巧被称为“稀疏自编码器”。 稀疏自编码器的目标是学习到一组稀疏的特征,这些特征可以更好地表示输入数据。这种方法可以用于特征提取和降维。相应的优化函数更新为

\[min_θ \frac{1}{N} \sum^{N}_{i}(x_i - f_θ(x_i))^2+\sum_{j}^{m}KL(p||p_j) \]

其中m为隐藏层大小,第二项是隐藏单元上KL发散的总和。第j个隐藏神经元上的KL散度为

\[KL(p||p_j)=plog(\frac{p}{p_j})+(1-p)log(\frac{1-p}{1-p_j}) \]

其中p为预定义的平均激活目标,\(p_j\)是整个数据集上第j个隐藏神经元的平均激活。

Addition of Denoising

在自编码器中,去噪是指通过自动编码器去除输入数据中的噪声。这可以通过向损失函数添加一个惩罚项来实现,以鼓励编码器生成更少的非零元素。这个惩罚项通常是L1正则化项,它是编码器输出向量中所有元素的绝对值之和。这个技巧被称为“去噪自编码器”。
去噪自编码器的目标是学习到一组稀疏的特征,这些特征可以更好地表示输入数据。这种方法可以用于特征提取和降维。

Stacking Structure

几个降噪自编码器可以堆叠在一起形成深度网络,通过将第l层输出作为输入提供给第(l+1)层来学习高级表示,训练是贪婪地一层一层完成的。

由于自动编码器可以以无监督的方式进行训练,因此自动编码器,特别是堆叠去噪自动编码器(SDA),可以通过初始化深度神经网络(DNN)的权重来训练模型,从而提供有效的预训练解决方案。在SDA的逐层预训练之后,可以将自动编码器的参数设置为DNN的所有隐藏层的初始化。然后,执行有监督的微调以最小化标记的训练数据上的预测误差。通常,在网络顶部添加一个softmax/回归层,以将AE中最后一层的输出映射到目标。与任意随机初始化相比,基于SDA的预训练协议可以使DNN模型具有更好的收敛能力。
image

标签:编码器,训练,稀疏,基础知识,解码器,深度,整理,隐藏,输入
From: https://www.cnblogs.com/cjjcn/p/17966224

相关文章

  • ICLR 2022: Anomaly Transformer论文阅读笔记(2) 深度解析代码
    AnomalyTransformer是一个由Transformer:AttentionIsAllYouNeed启发出的检测时间序列异常点的无监督学习算法。在这一篇我会深度解析论文算法以及代码的一一对应,让人更方便能读懂和使用源代码。阅读笔记前篇:ICLR2022:AnomalyTransformer论文阅读笔记+代码复现阅读前提......
  • 深度解析OCR技术的原理与应用
    随着数字化时代的来临,大量的文档和数据被存储在电子格式中。这些数据大部分是图片或者PDF格式,无法直接进行文本搜索或编辑。为了解决这个问题,光学字符识别(OCR)技术应运而生。OCR技术能够将图片或PDF中的文字转换成可编辑和搜索的文本格式,大大提高了数据处理的效率和准确性。一、OCR......
  • 预训练对话大模型深度解读
    预训练对话大模型是近年来自然语言处理领域备受关注的技术,它在对话生成、对话理解等任务中发挥了重要作用。本文将深入探讨预训练对话大模型的背景、应用和挑战,为读者提供对这一技术的全面理解。一、预训练对话大模型简介预训练对话大模型是指通过对大量语料库进行预训练,学习到语言......
  • 软件测试基础知识 - 集成测试和系统测试的区别,以及它们的应用场景
    分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请点击人工智能教程区别1、测试计划和测试用例编制的先后顺序:从V模型来讲,在需求阶段就要制定系统测试计划和测试用例,概要设计的时候做集成测试计划和测试用例,有些公司的具体实践不一样,但......
  • C++U5-第01课-深度优先搜索1
    在全排列问题中,使用深度优先搜索(DFS)的思想体现在以下几个方面:递归结构:在解决全排列问题的函数中,我们使用了递归调用的方式。通过递归地处理每个位置上的数字,然后继续递归地处理下一个位置上的数字,最终得到完整的排列结果。选择与回溯:在每次递归调用中,我们需要做出选择并标记......
  • 深度学习入门
    本文内容提炼于《Python深度学习》一书,整合了前4章的内容。人工智能包含机器学习,而深度学习是机器学习的一个分支。机器学习只能用来记忆训练数据中存在的模式。只能识别出曾经见过的东西。在过去的数据上训练机器学习来预测未来,这里存在一个假设,就是未来的规律与过去......
  • 【动手学深度学习_李沐】笔记:(七)循环神经⽹络
    【七、循环神经⽹络】1.序列模型序列模型估计方法有自回归模型和隐变量自回归模型。在统计学中,前者(超出已知观测值的预测)称为外推(extrapolation),后者(在现有观测值之间进⾏估计)称为内插(interpolation)。内插和外推在难度上有很⼤差别,因此,在训练时要尊重数据的时间顺序,不要对未来......
  • 【动手学深度学习_李沐】笔记:(六)现代卷积神经⽹络
    【六、现代卷积神经⽹络】1.深度卷积神经⽹络(AlexNet)在2012年以前,神经⽹络往往被其他机器学习⽅法超越,如支持向量机(supportvectormachines)。而AlexNet在2012年ImageNet挑战赛中取得了轰动⼀时的成绩,在⽹络的最底层,模型学习到了⼀些类似于传统滤波器的特征抽取器。论......
  • 【动手学深度学习_李沐】笔记:(五)卷积神经⽹络(convolutional neural network,CNN)
    【五、卷积神经网络】笔记1.从全连接层到卷积特点(沃尔多检测器):①平移不变性:不管出现在图像中的哪个位置,神经⽹络的底层应对相同图像区域做出类似的响应,因此能够以相同的⽅式处理局部图像②局部性:神经⽹络的底层只探索输⼊图像的局部区域,这些局部特征可以融会贯通,在整个......
  • 【动手学深度学习_李沐】笔记:(四)深度学习计算
    【四、深度学习计算】笔记1.层和块速度极快的GPU可能要等到CPU运⾏Python代码后才能运⾏另⼀个作业,提⾼Python速度的最好⽅法是完全避免使⽤Python。Gluon允许混合式编程(hybridization),Python解释器在第⼀次调⽤块时执⾏它,Gluon运⾏时记录正在发⽣的事情,以及下⼀次......