读论文-使用潜在扩散模型进行高分辨率图像合成

时间：2024-09-20 17:50:26浏览次数：3

标签：编码器高分辨率训练模型图像扩散潜在

论文名称：High-Resolution Image Synthesis with Latent Diffusion Models

论文地址：arxiv.org/pdf/2112.10752v2

项目地址：GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

潜在扩散模型（LDMs）通过在预训练的自动编码器的潜在空间中应用扩散模型，实现了高分辨率图像合成。这种方法的关键是在像素空间和潜在空间之间找到一个平衡点，既能减少计算复杂性，又能保留足够的细节信息。

核心思想

分解图像形成过程：将图像形成过程分解为去噪自编码器的顺序应用，这种分解允许在不重新训练的情况下通过引导机制控制图像生成过程。
潜在空间的应用：在强大的预训练自动编码器的潜在空间中应用扩散模型，这允许在降低计算复杂性的同时，保持图像质量。
跨注意力层：通过引入跨注意力层，将扩散模型转变为能够处理一般条件输入（如文本或边界框）的强大且灵活的生成器。

说明感知和语义压缩：数字图像的大多数位对应于难以察觉的细节。虽然 DMsallow 通过最小化负责任的损失项来抑制这种语义上无意义的信息，但梯度（在训练期间）和神经网络主干（训练和推理）仍然需要在所有像素上进行评估，从而导致多余的计算和不必要的昂贵优化和推理。我们提出潜在扩散模型（LDM）作为一种有效的生成模型和一个单独的轻度压缩阶段，仅消除难以察觉的细节。数据和图像来自 [30]。

1. 模型框架

LDMs的核心框架包括以下几个关键步骤:

感知图像压缩: 通过训练一个自动编码器(由编码器E和解码器D组成),将高维的像素空间压缩到低维的潜在空间,同时尽量保留感知上重要的信息。这一步使用了感知损失和对抗性损失来训练自动编码器。
潜在扩散模型: 在低维的潜在空间上训练扩散模型,通过逐步去噪的方式生成图像。相比于在像素空间训练,在潜在空间训练扩散模型大大减少了计算复杂度。
条件机制: 通过引入跨注意力层,将条件信息(如文本、图像等)编码为潜在表示,并将其融入扩散模型中。这使得LDMs能够进行条件图像生成。

2. 感知图像压缩

感知图像压缩的目标是学习一个从像素空间到潜在空间的映射,同时保留图像的重要信息。具体步骤如下:

(1) 使用编码器E将输入图像x编码为潜在表示z=E(x)。

(2) 使用解码器D将潜在表示z解码为重建图像x'=D(z)。

(3) 训练自动编码器,使其重建误差最小化,同时使用感知损失和对抗性损失来保证重建图像的质量。

(4) 为了控制潜在空间的尺度,引入正则化项,包括KL散度和向量量化。

3. 潜在扩散模型

在潜在空间上训练扩散模型,具体步骤如下:

(1) 定义一个从数据分布逐渐加入噪声的过程,形成噪声数据分布。

(2) 训练一个神经网络来预测每一步的去噪结果,即预测噪声数据的去噪版本。

(3) 通过最小化重构误差来训练去噪模型,使其能够逐步还原出干净的数据分布。

(4) 在生成阶段,从噪声分布中采样并逐步去噪,最终生成目标图像。

4. 条件机制

为了让LDMs能够进行条件图像生成,引入了跨注意力层作为条件机制。具体步骤如下:

(1) 对于文本、图像等条件输入,使用特定的编码器(如BERT)将其编码为潜在表示。

(2) 将条件潜在表示通过跨注意力层融入扩散模型的UNet网络中。

(3) 在训练阶段,最小化条件图像的重构误差,使模型能够根据条件信息生成相应的图像。

(4) 在生成阶段,提供条件信息并进行扩散过程,生成与条件信息一致的图像。

实验结果

LDMs在图像修复、类条件图像合成以及各种任务（包括文本到图像合成、无条件图像生成和超分辨率）上取得了新的最先进成绩。
与基于像素的扩散模型相比，LDMs在显著降低计算需求的同时，保持了竞争力的性能。

来自在 CelebAHQ [39]、FFHQ [41]、LSUN-Churches [102]、LSUN-Bedrooms [102] 和类条件 ImageNet [12] 上训练的 LDM 样本，每个分辨率为 256 256。放大时查看效果最佳。更多示例参见 Supplement.

用户定义的文本提示样本来自我们的文本到图像合成模型 LDM-8（KL），该模型是在 LAION[78] 数据库上训练的

当提供语义映射作为条件时，我们的 LDM 泛化为比训练期间看到的分辨率大得多的分辨率。尽管此模型是在大小为 2562 的输入上进行训练的，但它可用于创建高分辨率样本，如此处所示，分辨率为 1024 384。

社会影响和局限性

社会影响：生成模型可能被用于创造和传播操纵数据或虚假信息，需要谨慎使用。
局限性：尽管LDMs减少了计算需求，但其顺序采样过程仍然比GANs慢。在需要高精度的应用中，自动编码器的重建能力可能成为瓶颈。

标签：编码器,高分辨率,训练,模型,图像,扩散,潜在
From： https://blog.csdn.net/buganything/article/details/142391031

在线教程丨1 步生成 SOTA 级别图像，Hyper-SD 一键启动教程上线！
近年来，扩散模型在文生图任务中得到了广泛的应用，但其在实现高质量图像生成的过程中，通常需要多步推理进行去噪，这显然大大增加了计算资源成本。针对于此，研究人员引入蒸馏算法，推出了扩撒感知蒸馏算法来加速扩散模型的推理过程。目前常用的方法大致可分为轨迹保持蒸馏与轨迹重构蒸馏，但......
图像生成大模型imagen
Imagen是由谷歌研究团队开发的一种先进的图像生成大模型。它基于文本描述生成高质量的图像，是人工智能在生成视觉内容方面的一大突破。Imagen的主要特点包括：1.高分辨率和高质量：Imagen生成的图像具有高分辨率和高质量，细节丰富，能够准确反映输入文本的描述。2.多样性：能够生......
中国信通院携手合合信息发布《文本图像篡改检测系统技术要求》
Deepfake（深度伪造）技术野蛮生长，引发了一系列负面后果。在韩国通讯软件Telegram上，某私密聊天室成员利用女性照片非法合成色情照片和视频，影响极为恶劣。除了普通的受害者，知名人士也难以逃脱图像伪造的“魔爪”，某视频网站上，由AI合成的马斯克等名人为虚假投资做背书的视频泛滥成灾。不......
【MATLAB源码-第224期】基于matlab的快跳频系统仿真采用4FSK，模拟了单音干扰，宽带干扰以
操作环境：MATLAB2022a1、算法描述跳频通信系统概述跳频通信系统是一种通过快速切换载波频率来进行信息传输的无线通信技术。它在军事和商业通信中广泛应用，具有较强的抗干扰和抗截获能力。系统设计主要包括信号调制、跳频序列生成、信道模拟以及接收端的解调和滤波等部分。......
几何透视图像校正处理软件 DxO ViewPoint v4.12 中文授权版
DxOViewPoint是DxOLabs旗下一款行业领先级几何透视图像校正处理软件。DxOViewPoint让您可以完全掌控线条、角度和形状。调整透视、修复畸变、改变特定区域形状和校正广角拉伸，以获取精美图像。DxOViewPoint可作为独立应用程序运行，也可作为DxOPhotoLab中的工具面板以及......
利用ENVI进行遥感图像的镶嵌与剪切
使用ENVI5.6的Toolbox中的SeamlessMosaic工具在跳出的界面中添加需要进行镶嵌的遥感影像点击ColorCorrection选择OverlapAreaOnly 在Seamlines/Feathering中选择SeamlineFeathering ......
使用腾讯云GPU云服务器对图像或视频进行超分辨率
当今时代，人们对与图像与视频的分辨率要求越来越高，但是一些之前的图片或视频资源的分辨率却是比较堪忧，所以这里我们将会使用腾讯云的GPU服务器来对图像与视频进行超分辨率处理，用于修复一些分辨率较低的图像或视频。一、服务器的选购与远程连接这里我们使用的服务器是腾讯云的配置是6......
数字图像处理-实验4
实验4：几何变换与变形实验4.1：图像透视变换将一幅输入图像变换为任意一个指定的四边形形状（给定四边形4个顶点）。提示：根据4个顶点的对应估计一个透视变换H，再用H对原图像进行形变（OpenCV相关函数：getPerspectiveTransform,warpPerspective等）设计一个交互程序，可以编辑四边形顶点，并且顶......
北大&港中文&腾讯提出ViewCrafter：一张图像就可以制作影视特效和游戏画面！
北大和港中文联合腾讯人工智能实验室提出了ViewCrafter，这是一种利用视频扩散模型的先验从单个或稀疏图像合成一般场景的高保真新视图的新方法。可以简单理解为将复杂的图像转换成新角度的图像版本。首先，它会使用特殊的算法来读取一张或几张图像，创建一个三维的"模型"，这就像是把镜头......
3D高斯渲染（1-3）ros下接受c++节点发送的位姿，python节点渲染图像返回,同步版本
基础学习3D高斯渲染（1-2）ros下接受c++节点发送的位姿，python节点渲染图像返回https://www.cnblogs.com/gooutlook/p/18385485ros自定义消息（图像+标志位+位姿）python和c++发布和接受https://www.cnblogs.com/gooutlook/p/18412553 本工程代码为什么要做这个，因为之前的版本......