首页 > 其他分享 >论文阅读_扩散模型_LDM

论文阅读_扩散模型_LDM

时间:2023-09-07 18:05:20浏览次数:42  
标签:编码器 模型 论文 LDM 生成 图像 空间 扩散


英文名称: High-Resolution Image Synthesis with Latent Diffusion Models
中文名称: 使用潜空间扩散模型合成高分辨率图像
地址: https://ieeexplore.ieee.org/document/9878449/
代码: https://github.com/CompVis/latent-diffusion
作者:Robin Rombach
日期: 2022-06-01
引用: 2275

1 读后感

Latent Diffusion Models (LDMs)基于潜空间的扩散模型,是目前主流的基础模型,Stable diffusion 就是基于 LDMs 原理工作的。之前的扩散模型运算都在像素层面,优化通常会消耗数百个 GPU 天,且评估和推理成本也很高。LDMs 大量自编码器的运算基于潜空间数据,降低了计算复杂度,从而大幅节省了算力,并保持了图像质量和灵活度,它让更多人可以训练模型。其应用场景包含有条件(根据文本或图像生成图像)和无条件(去噪/着色/根据涂鸦合成)的图像生成。

研究背景和动机

扩散模型是由逐层去噪的自动编码器构建的,基于似然的模型。这种模型倾向于花费过多的容量和资源对难以察觉的细节进行建模,尽管使用了重新加权的变分目标,但在 RGB 图像的高维空间中训练和生成仍需要大量计算。

LDMs 学习可以分为两个阶段:首先找到一个感知上等效但计算上更合适的空间(感知压缩);然后,在其上训练扩散模型(语义压缩)。另外,本中还通过设计架构,分离了自动编码和具体的任务,使得同一编码器可用于多个任务。

论文贡献如下:

  • 优化压缩,支持更忠实和详细的重建效果,有效构建高分辨率图像。
  • 在多种任务中,显著降低了推理成本。
  • 不需要对重建和生成能力进行微妙的加权,几乎不需要对潜在空间进行正则化。
  • 模型可以卷积方式使用并渲染约 1024x1024 像素的大而一致的图像。
  • 设计了基于交叉注意力的调节机制,实现了多模式训练模型(一个模型支持多个功能)。
  • 在github上开源了算法。

方法

明确分离压缩阶段和生成阶段有以下优势:(1) 脱离高维空间,在低维空间中的扩散模型更高效;(2) 继承了 UNet 架构的归纳偏差,这对具有空间结构(上下左右的相关性)的数据特别有效; (3) 获得通用压缩模型,其潜在空间可用于训练多种生成模型,也可用于其他下游应用。

论文阅读_扩散模型_LDM_去噪

主逻辑分成三部分,第一部分是像素空间与潜空间之间的转换,即感知图像压缩(粉色);第二部分是在潜空间操作的扩散模型(绿色);第三部分是用文本描述或其它图片作为条件,控制图像生成(白色)。

感知图像压缩

感知压缩模型由一个通过感知损失和基于 patch 的对抗目标相结合的自编码器组成。
给定 RGB 空间中的图像 x ∈ RH×W ×3,编码器 E 将 x 编码为潜在表示 z = E(x),解码器 D 从潜在表示重建图像,给出 ̃ x = D( z) = D(E(x)),其中 z ∈ Rh×w×c。编码器按因子 f = H/h = W/w 对图像进行下采样(后面实验发现,下采样在4,8,16时效果最好)。

潜空间扩散模型

扩散模型

扩散模型原理比较复杂,之后会写文章专门详述,这里只做简单介绍:

  • 有一张图x0,分多步,每步向图里加入少量噪声,图将变得越来越模糊,最后变成了一张全是噪声的图xT,将加噪操作设为q
  • 在中间过程第t步,有可能从第t步还原出第t-1步的图像,以此类推,一步一步往上倒,理论上,就能从最后一步xT还原出原图x0。将去噪操作设为p
  • 所以建模的目标是找到从t步还原第t-1步的方法,也就是对p建模。

论文阅读_扩散模型_LDM_编码器_02

经过简化,最终扩散模型的目标函数是:
论文阅读_扩散模型_LDM_编码器_03
这里考虑第t步,xt是第t步的加噪图像,经过训练来预测其输入 xt 的去噪变体 ε,目标是让实际值和模型预测值尽量一致,通过训练给模型调参。

潜空间的扩散模型

将作用于像素级的扩散模型转换为作为于压缩低频空间(潜空间)的扩散模型。与高维像素空间相比,该空间更适合基于似然的生成模型,因为它可以专注于数据的重要语义;且在较低维度进行训练更为高效。

公式变为:
论文阅读_扩散模型_LDM_建模_04
文中模型的主干 εθ 通过时间条件 UNet 实现。由于前向过程是固定的,在训练期间可以通过 E 有效地获得 zt,并且只需通过 D 即可将来自 p(z) 的样本解码到图像空间。

条件机制

扩散模型原则上能够对 p(z|y) 形式的条件分布进行建模。它通过条件去噪自动编码器 εθ(zt, t, y) 来实现,通过输入条件 y(通过文本生成图像,通过图像生成图像)控制合成过程。

具体方法是通过交叉力注意机制增强其底层 UNet 主干网,Attention(Q, K, V ),
论文阅读_扩散模型_LDM_建模_05
其中y是条件,φi(zt) 是 UNet 的中间表示,的WQ, WK, WV是可学习的投影矩阵。
论文阅读_扩散模型_LDM_编码器_06
通过图像条件对数据来训练模型。其中 τθ 和 εθ 联合优化。 这种调节机制非常灵活,因为 τθ 可以由特定领域的专家网络进行参数化,τθ处理后条件入引绿色块,通过交叉注意力,作用于主干网络εθ,影响图像的生成。有效地解耦了条件模块和图像模块,即使后面加入其它条件,也不需要考虑修改绿色的主干网。


标签:编码器,模型,论文,LDM,生成,图像,空间,扩散
From: https://blog.51cto.com/u_15794627/7399363

相关文章

  • 论文阅读_变分自编码器_VAE
    英文名称:Auto-EncodingVariationalBayes中文名称:自编码变分贝叶斯论文地址:http://arxiv.org/abs/1312.6114时间:2013作者:DiederikP.Kingma,阿姆斯特丹大学引用量:248401读后感VAE变分自编码(VariationalAutoencoder)是一种生成模型,它结合了自编码器和概率图模......
  • RationalDMIS2023步距规程序3
    DECL/COMMON,INTGR,Doloop,DONUM,LSTEPDECL/COMMON,DOUBLE,DR_PRBRAD,TOL2,TOL1DECL/COMMON,DOUBLE,VI,VJ,VK,VI2,VJ2,VK2DECL/COMMON,DOUBLE,GAGEHEIGHT,GAGEWIDTH,ENDCLEARDECL/COMMON,DOUBLE,BLENGTH[30],ZP,XP,BL,LBDECL/CHAR,20,PROB$$步距规步长30,可......
  • RationalDMIS2023量块程序2025
    DECL/LOCAL,REAL,LPEND,HEIGHT,TOLERROR,LL,CRDVCE,PROBVCEDECL/LOCAL,CHAR,20,BARAXIS,PROB,ANSDECL/COMMON,DOUBLE,DR_PRBRAD,PRO_APPRCH,PRO_RETRCT,MSVELDECL/COMMON,DOUBLE,VI,VJ,VK,VI2,VJ2,VK2,DCX,DCY,DCZ,DX,DY,DZ,BARDIR,DMAX,DMINDECL/C......
  • SGL论文阅读笔记
    SGL论文阅读笔记摘要部分内容​ 首先,论文提出了目前用户-项目图所面临的两大问题长尾问题:高度数的节点对表示学习产生更大的影响,导致低度数的结点的推荐比较困难鲁棒性问题:用户的交互数据中包含很多噪声,而邻居聚合策略会更进一步放大聚合的影响​ 于是,这篇论文提出了自监......
  • [论文阅读] Explicit Boundary Guided Semi-Push-Pull Contras
    ExplicitBoundaryGuidedSemi-Push-PullContrastiveLearningforSupervisedAnomalyDetectionIntroduction只关注正常样本可能会限制AD模型的可判别性。如图1(a)所示,在没有异常情况的情况下,决策边界通常是隐式的,没有足够的判别性。在无监督异常检测中,由于缺乏对异常的了解......
  • 中国石油大学论文辅导搜Q,530986209
    需要作业答案,论文辅导搜扣扣,```530986209```交文件要求首先按照自己的个人兴趣在题目列表选择一个题目或者自拟题目,然后根据软件工程开发流程,完成这个题目从需求分析到系统测试的各个阶段环节目标,并按照附件里面给出的各种文档格式,撰写相关文档。请注意本课程ᨀ交的内容,应该......
  • 论文精读:带有源标签自适应的半监督域适应(Semi-Supervised Domain Adaptation with Sou
    Semi-SupervisedDomainAdaptationwithSourceLabelAdaptation具有源标签适应的半监督域适应原文链接Abstract文章指出当前的半监督域适应(Semi-SupervisedDomainAdaptation,SSDA)方法通常是通过特征空间映射和伪标签分配将目标数据与标记的源数据对齐,然而,这种面向源数......
  • 【ECAPA_TDNN 下 】代码和论文细节分析
    【ECAPA-TDNN上】论文阅读https://blog.csdn.net/qq_32766309/article/details/121359110?spm=1001.2014.3001.5502【ECAPA_TDNN下】代码和论文细节分析https://blog.csdn.net/qq_32766309/article/details/124243147?ops_request_misc=%257B%2522request%255Fid%2522%253A%......
  • 单月120篇!2023年8月diffusion生成扩散模型论文汇总
    001 (2023-08-30)SignDiff LearningDiffusionModelsforAmericanSignLanguageProduction   https://arxiv.org/pdf/2308.16082.pdf002 (2023-08-30)DiffuVolume DiffusionModelforVolumebasedStereoMatching   https://arxiv.org/pdf/2308.15989.p......
  • 忻州师院毕业论文管理系统的设计与实现-计算机毕业设计源码+LW文档
    一、选题的目的和意义目的:忻州师院毕业论文管理系统的开发是为了更好的让各个高校充分的利用校园网的软硬件资源,通过B/S架构来实现忻州师院毕业论文管理系统,管理毕业论文信息,老师可以在线查询毕业论文进程,节省时间,提高效率。意义:本文研发的忻州师院毕业论文管理系统结合高校具体的......