名称
Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models
TL;DR
这篇文章介绍了一种名为潜在扩散模型(Latent Diffusion Models, LDMs)的新型高分辨率图像合成方法。LDMs通过在预训练的自编码器的潜在空间中应用扩散模型,实现了在有限计算资源下训练高质量图像合成模型的目标。文章提出的方法在多个图像合成任务上达到了新的最佳性能,包括图像修复、类条件图像合成和文本到图像合成,同时显著降低了与基于像素的扩散模型相比的计算量。
Method
从图中可看出,LDM主要分三部分:
AE(auto-encoder)
AE是图像空间与latent空间之间的转换工具。转换到latent空间有两个好处:
a) 后续做diffusion的计算量更小,特别是对于diffusion这种需要多步迭代的操作。
b) latent空间的特征语义信息更强,便于和其它模态(例如,文本或者初始图像)的特征融合。
另外,类似于VAE,为了避免AE压缩出的latent space过于发散(high variance),通常会把latent space的特征分布用KL散度对齐到标准正态空间。
LDM(latent diffusion model)
类似于DDPM,只不过Zt是latent feature,Z0是AE的Encoder推理出的原始特征,ZT是纯噪声特征。LDM的噪声估计器是一个UNet,用来预测每一步去噪所需噪声。
Conditioning Mechanisms
条件特征可以是文本、图像或者其它模态信息,不过应该需要对应到同一个latent空间(比如,使用CLIP)。以文本为例,文本先验会经过Text Encoder得到特征,通过cross attention加权到diffusion每次去噪的噪声估计器UNet中间stage特征上。
Inference
所以推理过程应该类似于架构图上蓝框所示,输入文本或者其它模态先验以及latent space的高斯噪声,经过LDM扩散出相应语义的latent特征,经过Decoder一次性生成相应图像。
Experiment
介绍两个衡量图像生成效果的指标
FID
真实样本与生成样本采样相同数据,用高斯分布来拟合,判断这两个分布之间距离。
CLIP Score
将condition text与生成的图像送入训练好的CLIP模型中,计算整个测试集得分。
实验结果表明,LDMs在多个数据集上实现了新的最高得分,包括图像修复和类条件图像合成任务。LDMs在降低计算成本的同时,还能在多个任务上提供与最先进的基于像素的扩散模型相媲美或更好的性能。此外,LDMs还展示了在潜在空间中进行高分辨率图像合成的能力,这在以前的模型中是不可行的。
总结
LDMs的提出为高分辨率图像合成领域带来了新的视角,特别是在提高生成模型的效率和灵活性方面。通过在潜在空间中应用扩散模型,LDMs能够在保持图像质量的同时显著减少计算资源的需求。这种方法的成功表明,通过结合自编码器和扩散模型的优势,我们可以在不牺牲性能的情况下,更高效地处理复杂的图像数据。LDMs的这些特性可能会激发未来在图像合成、数据增强、潜在空间探索等领域的进一步研究和应用。
相关链接
Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models