[基础] Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models

时间：2024-03-14 21:46:39浏览次数：32

标签：Diffusion Latent Models 模型 LDMs 图像 latent 合成

名称

Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models

TL;DR

这篇文章介绍了一种名为潜在扩散模型（Latent Diffusion Models, LDMs）的新型高分辨率图像合成方法。LDMs通过在预训练的自编码器的潜在空间中应用扩散模型，实现了在有限计算资源下训练高质量图像合成模型的目标。文章提出的方法在多个图像合成任务上达到了新的最佳性能，包括图像修复、类条件图像合成和文本到图像合成，同时显著降低了与基于像素的扩散模型相比的计算量。

Method

从图中可看出，LDM主要分三部分：

AE(auto-encoder)

AE是图像空间与latent空间之间的转换工具。转换到latent空间有两个好处：
a) 后续做diffusion的计算量更小，特别是对于diffusion这种需要多步迭代的操作。
b) latent空间的特征语义信息更强，便于和其它模态(例如，文本或者初始图像)的特征融合。
另外，类似于VAE，为了避免AE压缩出的latent space过于发散(high variance)，通常会把latent space的特征分布用KL散度对齐到标准正态空间。

LDM(latent diffusion model)

类似于DDPM，只不过Zt是latent feature，Z0是AE的Encoder推理出的原始特征，ZT是纯噪声特征。LDM的噪声估计器是一个UNet，用来预测每一步去噪所需噪声。

Conditioning Mechanisms

条件特征可以是文本、图像或者其它模态信息，不过应该需要对应到同一个latent空间(比如，使用CLIP)。以文本为例，文本先验会经过Text Encoder得到特征，通过cross attention加权到diffusion每次去噪的噪声估计器UNet中间stage特征上。

Inference

所以推理过程应该类似于架构图上蓝框所示，输入文本或者其它模态先验以及latent space的高斯噪声，经过LDM扩散出相应语义的latent特征，经过Decoder一次性生成相应图像。

Experiment

介绍两个衡量图像生成效果的指标

FID

真实样本与生成样本采样相同数据，用高斯分布来拟合，判断这两个分布之间距离。

CLIP Score

将condition text与生成的图像送入训练好的CLIP模型中，计算整个测试集得分。

实验结果表明，LDMs在多个数据集上实现了新的最高得分，包括图像修复和类条件图像合成任务。LDMs在降低计算成本的同时，还能在多个任务上提供与最先进的基于像素的扩散模型相媲美或更好的性能。此外，LDMs还展示了在潜在空间中进行高分辨率图像合成的能力，这在以前的模型中是不可行的。

总结

LDMs的提出为高分辨率图像合成领域带来了新的视角，特别是在提高生成模型的效率和灵活性方面。通过在潜在空间中应用扩散模型，LDMs能够在保持图像质量的同时显著减少计算资源的需求。这种方法的成功表明，通过结合自编码器和扩散模型的优势，我们可以在不牺牲性能的情况下，更高效地处理复杂的图像数据。LDMs的这些特性可能会激发未来在图像合成、数据增强、潜在空间探索等领域的进一步研究和应用。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：Diffusion,Latent,Models,模型,LDMs,图像,latent,合成
From： https://www.cnblogs.com/fariver/p/18071799

用免费GPU部署自己的stable-diffusion-学习笔记
最近由于工作需要，开始学习AI+大模型，零基础，听从同事的推荐报名参加了一个免费学习团队，本文是整理的一些学习笔记。课程是趋动云提供支持的，在注册时赠送了足够学习使用的188算力。项目在趋动云上可以直接快速简洁地部署起来，不用自己配置环境、安装软件。教程是傻瓜式的，跟着步骤一......
Adaptive Diffusion in Graph Neural Networks论文阅读笔记
AdaptiveDiffusioninGraphNeuralNetworks论文阅读笔记Abstract 最近提出了图扩散卷积（GDC），利用广义图扩散来扩展传播邻域。然而，GDC中的邻域大小是通过在验证集上进行网格搜索来手动对每个图进行调整的，这使得其泛化实际上受到了限制。为了解决这个问题，我们提出了自适应扩散......
【DataWhale学习】用免费GPU线上跑StableDiffusion项目实践
用免费GPU线上跑SD项目实践DataWhale组织了一个线上白嫖GPU跑chatGLM与SD的项目活动，我很感兴趣就参加啦。之前就对chatGLM有所耳闻，是去年清华联合发布的开源大语言模型，可以用来打造个人知识库什么的，一直没有尝试。而SD我前两天刚跟着B站秋叶大佬和Nenly大佬的视频学习过......
R语言【paleoTS】——compareModels：比较模型适合于古生物学时间序列
Package paleoTS version0.5.3Description获取模型拟合函数的输出，并将模型拟合信息(对数似然、AICc等)编译成一个方便的表。UsagecompareModels(...,silent=FALSE,sort=FALSE)Arguments参数【...】：任意数量的模型拟合(as.paletsfit)对象。参数【silent】......
Stable Diffusion 学习笔记
对于diffusion的原始论文的理解参考，https://www.bilibili.com/video/BV18a4y1T75X/?p=2&spm_id_from=pageDriver&vd_source=1eb6e5015a1f70daa97080d8ee786d5dhttps://www.bilibili.com/video/BV1KC411Y7AF?p=2&vd_source=1eb6e5015a1f70daa97080d8ee786d5d 之前生成网络，G......
C# danbooru Stable Diffusion 提示词反推 Onnx Demo
目录说明效果模型信息项目代码下载 C#danbooruStableDiffusion提示词反推OnnxDemo说明模型下载地址：https://huggingface.co/deepghs/ml-danbooru-onnx效果模型信息Model Properties-----------------------------------------------------------------......
C# RAM Stable Diffusion 提示词反推 Onnx Demo
目录介绍效果模型信息项目代码下载C#RAMStableDiffusion提示词反推OnnxDemo介绍github地址：https://github.com/xinyu1205/recognize-anythingOpen-sourceandstrongfoundationimagerecognitionmodels.onnx模型下载地址：https://huggingface.co/CannotFi......
【体验有奖】用 AI 画春天，函数计算搭建 Stable Diffusion WebUI
人工智能生成内容AIGC（ArtificialIntelligenceGeneratedContent）是当下备受关注的概念之一，是继PGC和UGC之后的新型生产方式。AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。例如，根据用户的描述或关键词，即时创作出独特的艺术风格画像，实现个性化的艺术......
ListModelSerializer模块 LL
自定义反序列化字段#一些只参与反序列化的字段，但是不是与数据库关联的#在序列化类中规定，并在校验字段时从校验的参数字典中剔除classPublishModelSerializer(serializers.ModelSerializer):#自定义不入库的反序列化字段re_name=serializers.CharField(writ......
ModelSerializer组件模型类序列化器 LL
如果我们想要使用序列化器对应的是Django的模型类，DRF为我们提供了ModelSerializer模型类序列化器来帮助我们快速创建一个Serializer类。ModelSerializer与常规的Serializer相同，但提供了：基于模型类自动生成一系列字段基于模型类自动为Serializer生成validators，比如unique_toget......