首页 > 其他分享 >结构化概率模型的深度学习方法

结构化概率模型的深度学习方法

时间:2023-03-05 19:22:42浏览次数:66  
标签:结构化 变量 概率模型 模型 学习 通常 深度 连接

深度学习从业者通常与其他从事结构化概率模型研究的机器学习研究者使用相同的基本计算工具。然而,在深度学习中,我们通常对如何组合这些工具作出不同的设计决定,导致总体算法、模型与更传统的图模型具有非常不同的风格。深度学习并不总是涉及特别深的图模型。在图模型中,我们可以根据图模型的图而不是计算图来定义模型的深度。如果从潜变量 hi到可观察变量的最短路径是 j步,我们可以认为潜变量 hj处于深度 j。我们通常将模型的深度描述为任何这样的hj的最大深度。这种深度不同于由计算图定义的深度。用于深度学习的许多生成模型没有潜变量或只有一层潜变量,但使用深度计算图来定义模型中的条件分布。

深度学习基本上总是利用分布式表示的思想。即使是用于深度学习目的的浅层模型(例如预训练浅层模型,稍后将形成深层模型),也几乎总是具有单个大的潜变量层。深度学习模型通常具有比可观察变量更多的潜变量。变量之间复杂的非线性相互作用通过多个潜变量的间接连接来实现。相比之下,传统的图模型通常包含至少是偶尔观察到的变量,即使一些训练样本中的许多变量随机地丢失。传统模型大多使用高阶项和结构学习来捕获变量之间复杂的非线性相互作用。如果有潜变量,它们的数量通常很少。

潜变量的设计方式在深度学习中也有所不同。深度学习从业者通常不希望潜变量提前包含了任何特定的含义——训练算法可以自由地开发对特定数据集建模所需要的概念。在事后解释潜变量通常是很困难的,但是可视化技术可以得到它们表示的一些粗略表征。当潜变量在传统图模型中使用时,它们通常被赋予一些特定含义——比如文档的主题、学生的智力、导致患者症状的疾病等。这些模型通常由研究者解释,并且通常具有更多的理论保证,但是不能扩展到复杂的问题,并且不能像深度模型一样在许多不同背景中重复使用。

另一个明显的区别是深度学习方法中经常使用的连接类型。深度图模型通常具有大的与其他单元组全连接的单元组,使得两个组之间的相互作用可以由单个矩阵描述。传统的图模型具有非常少的连接,并且每个变量的连接选择可以单独设计。模型结构的设计与推断算法的选择紧密相关。图模型的传统方法通常旨在保持精确推断的可解性。当这个约束太强时,我们可以采用一种流行的被称为 环状信念传播(loopy belief propagation)的近似推断算法。这两种方法通常在稀疏连接图上都有很好的效果。相比之下,在深度学习中使用的模型倾向于将每个可见单元 vi连接到非常多的隐藏单元 hj上,从而使得 h 可以获得一个 vi的分布式表示(也可能是其他几个可观察变量)。分布式表示具有许多优点,但是从图模型和计算复杂性的观点来看,分布式表示有一个缺点就是很难产生对于精确推断和环状信念传播等传统技术来说足够稀疏的图。结果,大规模图模型和深度图模型最大的区别之一就是深度学习中几乎从来不会使用环状信念传播。相反的,许多深度学习模型可以设计来加速 Gibbs 采样或者变分推断。此外,深度学习模型包含了大量的潜变量,使得高效的数值计算代码显得格外重要。除了选择高级推断算法之外,这提供了另外的动机,用于将结点分组成层,相邻两层之间用一个矩阵来描述相互作用。这要求实现算法的单个步骤可以实现高效的矩阵乘积运算,或者专门适用于稀疏连接的操作,例如块对角矩阵乘积或卷积。

最后,图模型的深度学习方法的一个主要特征在于对未知量的较高容忍度。与简化模型直到它的每一个量都可以被精确计算不同的是,我们仅仅直接使用数据运行或者是训练,以增强模型的能力。我们一般使用边缘分布不能计算的模型,但可以从中简单地采近似样本。我们经常训练具有难以处理的目标函数的模型,我们甚至不能在合理的时间内近似,但是如果我们能够高效地获得这样一个函数的梯度估计,我们仍然能够近似训练模型。深度学习方法通常是找出我们绝对需要的最小量信息,然后找出如何尽快得到该信息的合理近似。

 

标签:结构化,变量,概率模型,模型,学习,通常,深度,连接
From: https://www.cnblogs.com/jianglingchong/p/17181351.html

相关文章