首页 > 编程语言 >SVI pyro 随机变分推理的提示和技巧 ,贝叶斯神经网络 bnn pytorch python

SVI pyro 随机变分推理的提示和技巧 ,贝叶斯神经网络 bnn pytorch python

时间:2024-09-05 17:53:19浏览次数:18  
标签:指南 scale SVI ELBO 变分 pyro pytorch 参数 模型

SVI第四部分:提示和技巧

pyro.ai/examples/svi_part_iv.html

导致这一个的三个SVI教程(第一部分第二部分, & 第三部分)通过使用Pyro做变分推断所涉及的各个步骤。在这个过程中,我们定义了模型和指南(即,变分分布),设置了变分目标(特别是埃尔博斯),以及构造的优化器(pyro.optim).所有这些机制的效果是将贝叶斯推理作为随机优化问题.

这些都非常有用,但是为了达到我们的最终目标——学习模型参数、推断近似后验概率、使用后验预测分布进行预测等。—我们需要成功解决这个优化问题。取决于特定问题的细节——例如潜在空间的维度,我们是否有离散的潜在变量,等等——这可能容易也可能困难。在本教程中,我们涵盖了一些技巧和诀窍,我们希望这些技巧和诀窍对在Pyro中进行变分推理的用户普遍有用。厄尔布没有收敛!?碰到NaNs!?看看下面可能的解决方案!

Pyro论坛

如果您在阅读完本教程后仍有优化方面的问题,请不要犹豫,在我们的论坛!

1.从小的学习率开始

虽然大的学习率可能适用于某些问题,但从小的学习率开始通常是好的做法,比如10−3或者10−4:

optimizer = pyro.optim.Adam({"lr": 0.001})

这是因为ELBO渐变随机的和潜在的高方差,所以大的学习率会很快导致模型/指南参数空间的区域在数值上不稳定或者是不期望的。

一旦使用较小的学习速率实现了稳定的ELBO优化,就可以尝试较大的学习速率。这通常是一个好主意,因为过小的学习率会导致不良的优化。特别是小的学习率会导致陷入ELBO的局部最优。

2.默认情况下使用Adam或ClippedAdam

使用圣经》和《古兰经》传统中)亚当(人类第一人的名字或者克利佩达姆做随机变分推断时默认。注意到ClippedAdam只是对Adam这为学习率衰减和梯度削波提供了内置支持。

这些优化算法在变分推理的上下文中通常表现良好的基本原因是,当优化问题非常随机时,它们通过每个参数动量提供的平滑通常是必不可少的。注意,在SVI,随机性可能来自于对潜在变量的抽样,来自于二次抽样数据,或者两者都有。

在某些情况下,除了调整学习率之外,可能还需要调整betas控制动量的超参数Adam。特别是对于非常随机的模型,使用更高的值可能是有意义的β1:

betas = (0.95, 0.999)

代替

betas = (0.90, 0.999)

3.考虑使用递减的学习率

虽然在优化开始时,当您远离最优值并希望采取较大的梯度步骤时,适度较大的学习速率可能是有用的,但稍后具有较小的学习速率通常是有用的,这样您就不会在最优值附近过度跳跃而不收敛。一种方法是使用学习率调度器假如通过烟火。有关用法的示例,请参见代码片段这里。另一种方便的方法是使用克利佩达姆优化器内置了对学习率衰减的支持,通过lrd参数:

num_steps = 1000
initial_lr = 0.001
gamma = 0.1  # final learning rate will be gamma * initial_lr
lrd = gamma ** (1 / num_steps)
optim = pyro.optim.ClippedAdam({'lr': initial_lr, 'lrd': lrd})

4.确保您的模型和指南发行版具有相同的支持

假设你有一个分布model有约束支持,例如对数正态分布,在正实轴上有支持:

def model():
    pyro.sample("x", dist.LogNormal(0.0, 1.0))

然后你需要确保随行的sample中的站点guide具有相同的支持:

def good_guide():
    loc = pyro.param("loc", torch.tensor(0.0))
    pyro.sample("x", dist.LogNormal(loc, 1.0))

如果您未能做到这一点,并使用例如以下不可接受的指南:

def bad_guide():
    loc = pyro.param("loc", torch.tensor(0.0))
    # Normal may sample x < 0
    pyro.sample("x", dist.Normal(loc, 1.0))

你可能会很快遇到NaNs。这是因为log_prob对数正态分布的一个样本x这满足了x<0未定义,并且bad_guide很可能会产生这样的样本。

5.约束需要约束的参数

同样,您需要确保用于实例化发行版的参数是有效的;否则你会很快碰到NaNs。例如scale正态分布的参数必须为正。因此如下bad_guide有问题:

def bad_guide():
    scale = pyro.param("scale", torch.tensor(1.0))
    pyro.sample("x", dist.Normal(0.0, scale))

而下面的good_guide正确使用约束来确保积极性:

from pyro.distributions import constraints

def good_guide():
    scale = pyro.param("scale", torch.tensor(0.05),
                        constraint=constraints.positive)
    pyro.sample("x", dist.Normal(0.0, scale))

6.如果您在构建自定义指南时遇到问题,请使用自动指南

为了使模型/向导对达到稳定的优化,需要满足许多条件,其中一些我们已经在上面讨论过了。有时很难诊断数值不稳定或收敛性差的原因。除了其他原因,这是因为基本问题可能出现在许多不同的地方:在模型中,在指南中,或者在优化算法或超参数的选择中。

有时问题实际上在你的模型中,即使你认为它在指南中。相反,有时问题出在你的指南上,即使你认为问题出在模型或其他地方。由于这些原因,在您尝试确定潜在问题时,减少移动部件的数量会有所帮助。一种方便的方法是用自动制导.

例如,如果模型中的所有潜在变量都是连续的,您可以尝试使用pyro.infer .自动正常导游。或者,您可以使用映射推理而不是全面的变分推理。参见最大似然法/地图教程了解更多细节。一旦你有了映射推理,就有充分的理由相信你的模型设置是正确的(至少就基本的数值稳定性而言)。如果你对获得近似的后验分布感兴趣,你现在可以继续使用完全成熟的SVI。实际上,操作的自然顺序可能会使用以下越来越灵活的自动引导序列:

自动增量 → 自动正常 → AutoLowRankMultivariateNormal

如果您发现您想要一个更灵活的指南,或者您想要更好地控制指南的确切定义方式,此时您可以着手构建一个自定义指南。实现这一点的一个方法是利用简易指南,它在完全自定义指南的控制和自动指南的自动化之间取得了平衡。

还要注意,autoguides提供了几种初始化策略,在某些情况下,为了获得良好的优化性能,可能有必要尝试这些策略。控制初始化行为的一种方法是使用init_loc_fn。例如,的用法init_loc_fn,包括简易指南API的示例用法,请参见这里.

7.参数初始化很重要:初始化引导分布以具有低方差

优化问题中的初始化可以决定找到一个好的解决方案还是灾难性的失败。很难提出一套完整的初始化良好实践,因为好的初始化方案通常与问题密切相关。在随机变分推理的背景下,初始化你的引导分布通常是个好主意,这样它们就有了低方差。这是因为用于优化ELBO的ELBO梯度是随机的。如果在ELBO优化开始时获得的ELBO梯度显示出较高的方差,则可能会导致数值不稳定或参数空间的其他不良区域。防范这种潜在危险的一种方法是密切关注指南中控制方差的参数。例如,我们通常认为这是一个合理的初始化指南:

from pyro.distributions import constraints

def good_guide():
    scale = pyro.param("scale", torch.tensor(0.05),
                       constraint=constraints.positive)
    pyro.sample("x", dist.Normal(0.0, scale))

虽然下面的高方差指南很可能会导致问题:

def bad_guide():
    scale = pyro.param("scale", torch.tensor(12345.6),
                       constraint=constraints.positive)
    pyro.sample("x", dist.Normal(0.0, scale))

请注意,自动制导的初始方差可以用init_scale参数,参见例如这里AutoNormal.

8.探索由以下因素控制的权衡num_particles小批量等。

如果您的ELBO表现出很大的差异,优化可能会很困难。缓解这个问题的一种方法是增加用于计算每个随机ELBO估计值的粒子数量:

elbo = pyro.infer.Trace_ELBO(num_particles=10,
                             vectorize_particles=True)

(注意,要使用vectorized_particles=True您需要确保您的模型和指南正确矢量化;参见张量形状教程最佳实践。)这导致以更多计算为代价的较低的方差梯度。如果您正在进行数据二次采样,小批量大小提供了类似的权衡:较大的小批量大小以更多计算为代价减少了方差。虽然什么是最好的取决于问题,它通常是值得采取更多的梯度步骤与更少的粒子比更少的梯度步骤与更多的粒子。一个重要的警告是,当你在GPU上运行时,在这种情况下(至少对某些模型而言)增加的成本num_particles或者你的小批量可能是次线性的,在这种情况下增加num_particles可能更有吸引力。

9.使用TraceMeanField_ELBO如果适用

基本的ELBO在Pyro中实现,Trace_ELBO使用随机样本来估计KL散度项。当解析KL发散可用时,您可以通过使用解析KL发散来降低ELBO方差。此功能由提供TraceMeanField_ELBO.

10.考虑正常化你的ELBO

默认情况下,Pyro会计算一个非标准化的ELBO,也就是说,它会计算一个数量,该数量是对作为条件的完整数据集计算的对数证据的下限。对于大型数据集,这可能是大量的。由于计算机使用有限精度(例如,32位浮点)来进行算术运算,因此大数值可能会对数值稳定性造成问题,因为它们会导致精度损失、下溢/上溢等。因此,在许多情况下,将ELBO规格化,使其大致为一阶是有帮助的。这也有助于大致了解你的ELBO号码有多好。例如,如果我们有N尺寸的数据点D(例如N维数的实值向量D)那么我们通常期望订购一个合理优化ELBO乘以N\乘以D。因此,如果我们用因子重正化我们的ELBO乘以N\乘以D我们期待一阶的厄尔布。虽然这只是一个粗略的经验法则,但如果我们使用这种标准化并获得ELBO值,如−123.4或者1234.5那么可能出了问题:也许我们的模型被严重错误地指定了;也许我们的初始化非常糟糕,等等。有关如何通过归一化常数缩放ELBO的详细信息,请参见本教程.

11.注意尺度

数字的规模很重要。它们之所以重要,至少有两个重要原因:I)规模可以决定一个特定初始化方案的成败;ii)如前一节所述,比例会对数值精度和稳定性产生影响。

具体来说,假设你正在做线性回归,也就是说,你正在学习一个线性映射的形式Y=W@X。数据通常带有特定的单位。例如协变量的某些组成部分X可能以美元为单位(例如房价),而其他可能以密度为单位(例如每平方英里的居民数)。也许第一个协变量的典型值如下105,而第二个协变量的典型值如下102。当您遇到跨越多个数量级的数字时,您应该始终保持警惕。在许多情况下,将事物规范化是有意义的,这样它们就是有序的统一体。例如,您可能以100,000美元为单位来衡量房价。

这些类型的数据转换对下游的建模和推理有很多好处。例如,如果您已经对所有协变量进行了适当的归一化,那么为您的权重设置一个简单的各向同性先验可能是合理的

pyro.sample("W", dist.Normal(torch.zeros(2), torch.ones(2)))

不必为不同的协变量指定不同的先验协方差

prior_scale = torch.tensor([1.0e-5, 1.0e-2])
pyro.sample("W", dist.Normal(torch.zeros(2), prior_scale))

还有其他好处。现在,为您的指南初始化适当的参数变得更加容易。现在,更有可能的是自动制导会解决你的问题。

12.保持验证启用

默认情况下,Pyro会启用有助于调试模型和指南的验证逻辑。例如,当分布参数无效时,验证逻辑会通知您。除非您有很好的理由这样做,否则请保持验证逻辑处于启用状态。一旦您对模型和推理过程感到满意,您可能希望使用pyro.enable _验证.

类似地,在ELBOs这是一个好主意

strict_enumeration_warning=True

当你枚举离散的潜在变量时。

13.张量形状误差

如果你遇到张量形状错误,请确保你已经仔细阅读对应教程.

14.如果可能,列举离散的潜在变量

如果你的模型包含离散的潜在变量,精确地列举它们是有意义的,因为这可以显著地减少ELBO方差。有关更多讨论,请参见对应教程.

15.一些复杂的模型可以受益于KL退火

ELBO的特定形式编码了经由期望对数似然项的模型拟合和经由KL散度的先验正则化项之间的折衷。在某些情况下,KL发散会成为一个障碍,使得很难找到好的最优解。在这些情况下,它有助于在优化期间退火KL发散项的相关强度。有关进一步的讨论,请参见深度马尔可夫模型教程.

16.防御性地考虑剪裁渐变或约束参数

模型或指南中的某些参数可能控制对数值问题敏感的分布参数。例如,在concentrationrate定义的参数微克分布可能表现出这种敏感性。在这些情况下,修剪梯度或防御性地约束参数可能是有意义的。看见这段代码片段这是一个渐变剪辑的例子。对于“防御性”参数约束的简单示例,考虑concentration的参数Gamma分销。该参数必须为正数:concentration> 0.如果我们想确保concentration远离零,我们可以使用param带有适当约束的语句:

from pyro.distributions import constraints

concentration = pyro.param("concentration", torch.tensor(0.5),
                           constraints.greater_than(0.001))

这些技巧有助于确保模型和引导线远离参数空间中数值危险的部分。

标签:指南,scale,SVI,ELBO,变分,pyro,pytorch,参数,模型
From: https://blog.csdn.net/zhangfeng1133/article/details/141906644

相关文章

  • pytorch+深度学习实现图像的神经风格迁移
    本文的完整代码和部署教程已上传至本人的GitHub仓库,欢迎各位朋友批评指正!1.各代码文件详解1.1train.pytrain.py文件负责训练神经风格迁移模型。加载内容和风格图片:使用utils.load_image函数加载并预处理内容和风格图片。初始化生成图像:将内容图像加上随机噪声作为......
  • 【深度学习】代码复现基础--conda环境配置(pytorch)
    0.需求做实验阶段经常需要复现代码,要从github上把代码克隆下来,然后按照里头的readme文件配置环境【主要是pytorch】。电脑本身已经装好了Anaconda和开发工具,这个过程其实很简单,只是一些语句,但具体细节经常会忘,每次又要反复查,网上查着又都是从0开始的,且很多为比较旧的教程,因此......
  • 【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦
    HuggingFace是一个致力于开源自然语言处理(NLP)和机器学习项目的社区。它由几个关键组件组成:Transformers:这是一个基于PyTorch的库,提供了各种预训练的NLP模型,如BERT、GPT、RoBERTa、DistilBERT等。它还提供了一个简单易用的API来加载这些模型,并进行微调以适应特定的下游任务......
  • LSTM+transformer+稀疏注意力机制(ASSA)时间序列预测(pytorch框架)
    LSTM+transformer+稀疏注意力机制transformer,LSTM,ASSA注意力首发原创!纯个人手打代码,自己研究的创新点,超级新。可以发刊,先发先的,高精度代码。需知:好的创新性模型可以事半功倍。目前太多流水paper,都是旧模型,老师已经审美疲劳,很难发好一点的刊,这种模型很新,让paper审核老师眼......
  • pyro ExponentialLR 如何设置优化器 optimizer的学习率 pytorch 深度神经网络 bnn,
     第一。pyro不支持“ReduceLROnPlateau”,因为需要Loss作为输入数值,计算量大pytorch的学习率调整视频看这个博主的视频05-01-学习率调整策略_哔哩哔哩_bilibili第二,svi支持 scheduler注意点,属于 pyro.optim.PyroOptim的有三个AdagradRMSPropClippedAdamDC......
  • PyTorch:Python深度学习框架使用详解
    PyTorch是一个开源的机器学习库,广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发,因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图:PyTorch的计算图在运行时构建,使得模型的修改和调试更加灵活。自动微分......
  • 搞懂Transformer结构,看这篇PyTorch实现就够了
    前言下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。“AttentionisAllYouNeed”[1]一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量,还为许多NLP任务提供了新的结构。虽然原文写得很清楚,但实际上大家普......
  • pyro plate的介绍,plate也能设置cuda pytorch概率编程 贝叶斯神经网络
    class plate(name: str, size: Optional[int] = None, subsample_size: Optional[int] = None, subsample: Optional[torch.Tensor] = None, dim: Optional[int] = None, use_cuda: Optional[bool] = None, device: Optional[str] = None)[source]¶基......
  • python 数据分析 损失数值 如何放到csv中呢 人工智能 深度神经网络,Pytorch ,tensorflo
    损失数值如何放到csv中呢 在Python中,使用`csv`模块将数据写入CSV文件是一种常见的操作。从你提供的代码片段来看,你想要将损失数值写入名为`middle_losse.csv`的文件中。但是,你提供的代码片段中存在一些需要修改的地方,以确保数据能够正确地写入CSV文件。首先,`csv.writer`对象的`wr......
  • pyro 概率编程语言 能直接调用pytorch的save函数保存模型,贝叶斯神经网络
    NeuralNetworks—Pyrodocumentationhttps://docs.pyro.ai/en/stable/nn.htmldocs.pyro.ai/en/stable/nn.html神经网络¶该模块pyro.nn提供在深度概率编程上下文中有用的神经网络模块的实现。烟火模块¶Pyro包括一个类PyroModule,的子类torch.nn.Module,其属性可以被火焰效果修......