首页 > 其他分享 >Stable Diffusion技术路线发展历程回顾

Stable Diffusion技术路线发展历程回顾

时间:2024-10-31 15:24:00浏览次数:4  
标签:Diffusion AE Encoder Stable VAE DDPM 图像 历程

  图1描述了Stable Diffusion模型的发展历程,从最初的AE(Auto Encoder),逐步发展到DDPM、VQVAE、LDM,并最终产生了Stable Diffusion。从技术路线上看,Stable Diffusion由2条技术路线汇聚而成,一条是路线1:AE -> VAE -> DDPM,另一条是路线2:AE -> VQVAE -> LDM。路线1主要解决生成图像质量不高的问题,而路线2解决的是生成图像速度慢的问题,而Stable Diffusion结合了路线1和路线2的研究成果,可较快地生成较高质量的图像。

  

图1 Stable Diffusion发展历程

1、AE的问题

   AE是一种比较早期的图像压缩和生成模型,是一种Encoder-Decoder架构,一幅图像经由AE的Encoder编码后,得到一个中间向量vector,vector即为一幅图像的中间表达,经由Decoder反向解码后,可还原图像。

图2 Auto Encoder原理

       AE的Encoder可看作是图像压缩过程,而Decoder可看作图像生成过程,中间向量vector即为图像的中间表达,也可理解为压缩后的图像表达,图2描述了图像经AE压缩和生成的过程,由于压缩过程丢弃了比较多的信息,所以还原后的图像相较原图模糊很多。

图3 AE图像压缩和生成过程

       AE作为早期的图像生成模型,其学习到的知识更像是一种具体的数据映射规则,其中AE Encoder学的是图片到向量的映射,而AE Decoder学的则是向量到图片的映射。AE最大的问题是模型过拟合,AE对训练数据学习得比较好,强行记住了训练集数据Encoder后的中间状态,如果来了一个不是训练集的数据,那么效果就比较差。AE另一个问题是还原图片的质量不是太好,比较模糊。因此,便产生了路线1和路线2里的那些技术。

 2、路线1:VAE -> DDPM

  路线1最大的贡献,是大大提高了生成图像的质量,相较AE更清晰,但计算代价也大为提高,生成图像的速度也更慢。

2.1 VAE

  VAE英文全称为Variational Auto Encoder,即变分自编码器,其基于AE发展而来,与AE不同的是,VAE学习的目标不再是强行记忆训练集数据的编码输出,而是学习训练数据集的分布,使得AE过拟合现象有所缓解。

       图4描述了VAE原理,与AE的结构比较相似,不同的是VAE编码过程是获取训练集的均值u和标准差σ,然后从正态分布N(u, σ2)上随机采样一个数据,并输入给Decoder做图像生成,即VAE学习的是数据集分布,不再是具体的某几个中间数据状态,具有一定的泛化能力。

       VAE虽然缓解了AE过拟合的问题,但生成图像的质量,仍然比较模糊,可能是因为VAE训练损失函数只施加以下两个约束:

      1)重建图像和原图尽量相似;

      2)编码器输出N(u, σ2)要与N(0, 1)尽量相似。

图3 VAE原理

 2.2 DDPM

  DDPM英文全称是Denoise Diffusion Probabilistic Model,即去噪扩散概率模型。DDPM作为扩散模型的鼻祖,得益于热力学启发,提出了加噪声的扩散过程和预测噪声的推理过程,图5描述了DDPM的原理。

图5 DDPM原理

  • 扩散过程

   DDPM扩散过程是一个由T个时间步组成的一个马可夫链,对于马可夫链的某个节点xt,首先会生成一个和输入图像尺寸相同的噪声ϵ,ϵ采样自N(0, 1)的正态分布,然后将上个节点的输出与ϵ进行加权融合,以下公式为融合当前噪声和上个结点输出的方式:

  •  去噪过程

  该过程也是由T个时间步组成的一个马可夫链,每个马可夫链结点会预测当前步骤要去除的噪声 ϵθ,然后用上个节点的输出加权减去ϵθ,得到当前节点预测的图像内容。

       通常使用UNet网络来预测噪声ϵθ,如图6所示,对于预测出的噪声ϵθ,通过loss函数约束,使其尽量逼近扩散过程中对应时间步t所添加的噪声ϵ。

图6 UNet预测噪声

       DDPM通过引入扩散过程,解决了AE过拟合的问题,同时通过加噪和去噪过程,学习如何生成高质量图像的手段,所以DDPM比VAE更进了一步,除了解决AE过拟合问题,还能生成高质量图像,但DDPM是按原图尺寸进行加噪和去噪,所以其计算代价是非常高的,生成图像的速度会比较慢,尤其是大尺寸图像。此时,就进入技术路线2,以期突破生成图像速度慢的性能瓶颈。

3、路线2:VQVAE

3.1 VQVAE

  VQVAE英文全称Vector Quantised Variantioal Auto Encoder,即向量量化变分自编码器,其原理是通过将Encoder后的向量离散化,然后再经由Embedding映射到一个连续空间,从而解决AE过拟合的问题,其最大的贡献是提出将输入图片经由Encoder压缩为一个尺寸更小的图像,后续解码器对该小图像解码,以最终还原原图,图7描述了VQ-VAE的原理。

  通过VQ-VAE将大图像压缩为小图像,后续操作都施加在小图像上,计算代价就大为减少,这点恰好弥补了DDPM生成图像慢的短板。

  

图7 VQ-VAE原理

 4、Stable Diffusion模型

  结合路线1和路线2模型的优劣,取长补短,最终诞生了Stable Diffusion模型。在Stable Diffusion模型里,提出了一个叫Latent Diffusion Model的潜空间扩散模型,如图8所示。

图8 Stable Diffusion原理(LDM)

       LDM由Pixel Space、Latent Space和Conditioning三个部分构成,Pixel Space借鉴了VQ-VAE的思想,通过Encoder将输入图像压缩为一个64*64*4的潜空间里的小图像,以减少计算代价,并通过Decoder将潜空间里的小图像还原为原尺寸的大图像; Latent Space大体等同于一个DDPM,用于对潜空间的64*64*4的小图像进行扩散和反向去噪; Conditioning主要是一个多模态处理模块CLIP,对各种图文信息进行抽取,以供图像去噪过程参考如何生成噪声。

       可见LDM本质是由技术路线1的DDPM和VQ-VAE融合而成,然后新增一个条件式生成图像模块Conditioning,因此,理解了DDPM和VQ-VAE的概念,理解Stable Diffusion就非常简单。

 

关注更多安卓开发、AI技术、股票分析技术及个股诊断等理财、生活分享等资讯信息,请关注本人公众号(木圭龙的知识小屋)

 

标签:Diffusion,AE,Encoder,Stable,VAE,DDPM,图像,历程
From: https://www.cnblogs.com/tgltt/p/18517850

相关文章

  • DIFFUSIONSAT: A GENERATIVE FOUNDATION MODEL FOR SATELLITE IMAGERY(2024-ICLR)
    论文:DIFFUSIONSAT:AGENERATIVEFOUNDATIONMODELFORSATELLITEIMAGERY(2024-ICLR)习惯用飞书做笔记了,大家见谅Diffusionsat:卫星图像生成基础模型......
  • 【React系列六】—React学习历程的分享
    前言接系列五讲解Router5之后,最新的路由版本是React-Router6,一些新增特性及使用方法讲解一、Router6和Router5的区别ReactRouter发布了三个不同的包:react-router:路由核心库,提供许多组件、钩子react-router-dom:包括了react-router所有内容,同时添加了用于DOM的组件,如<......
  • 在Windows环境下使用AMD显卡运行Stable Diffusion
    现在用的电脑是21年配的,当时并没有AI相关的需求,各种各样的原因吧,抉择后选择了AMD的显卡,但在2024年的今天,使用AI进行一些工作已不再是什么罕见的需求,所以我也想尝试一下,但发现AMD显卡却处处碰壁,研究后发现,经过各方面的努力,AMD显卡在AI方面的支持已经有了很大的进步,......
  • 使用AMD GPU和ONNX Runtime高效生成图像与Stable Diffusion模型
    EfficientimagegenerationwithStableDiffusionmodelsandONNXRuntimeusingAMDGPUs2024年2月23日撰写,作者[道格拉斯·贾(DouglasJia)](DouglasJia—ROCmBlogs)在这篇博客中,我们将向您展示如何使用预训练的StableDiffusion模型,通过ONNXRuntime在AMDGPU上生成......
  • 刚刚,Stable Diffusion 2024升级,最强Ai绘画整合包、部署教程(解压即用)
    2024Ai技术大爆发的元年目前两款Ai神器大火一款是大名鼎鼎的ChatGPT另外一款—StableDiffusion堪称全球最强Ai绘画工具StableDiffusionAi绘画2024版本更新啦!从4.8.7更新至**4.9版本!**更新优化和大模型增加,无需安装,解压即用sd整合包获取方式Stablediffusion......
  • Diffusion Probabilistic Models for 3D Point Cloud Generation——点云论文阅读(8)
    此内容是论文总结,重点看思路!!文章概述该文献介绍了一种用于3D点云生成的概率模型。点云是表示3D物体和场景的常用方式,但由于其不规则的采样模式,与图像相比,点云生成更具挑战性。现有方法如GANs、流模型和自回归模型在点云生成方面取得了进展,但它们在训练稳定性、生成顺序假设和......
  • Stable Diffusion 3.5 正式发布!免费开源,堪称最强AI文生图模型,附本地安装和在线使用教
    关键要点:10月22日,stability.ai重磅推出StableDiffusion3.5,号称迄今为止最强大的文生图模型。此次公开版本包括多个模型变体,其中有StableDiffusion3.5Large和StableDiffusion3.5LargeTurbo。此外,StableDiffusion3.5Medium将于10月29日发布。这些模型在尺......
  • (9-4)基于Diffusion Transformer的文生图系统:生成图像
    9.6 生成图像在本项目中,使用分布式数据并行(DDP)在多个GPU上进行训练,以生成高质量的图像。通过对输入数据进行处理和增强,将图像输入到深度学习模型中,使用自适应动量估计(EMA)来优化模型参数,并最终将生成的图像保存到指定路径。这一流程支持大规模数据集,旨在提升训练效率和图像......
  • 2024年Stable Diffusion安装教程(附安装包链接)
    随着技术的迭代,目前StableDiffusion已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个logo图片,画一张虚拟老婆照片,画质堪比相机。今天直接给大家上干货,安装包链接在最后!!!安装步骤1.打开链接,可以看到这里边为大家提供了......
  • 架构师之路-学渣到学霸历程-30
    Nginx的安装教程今天分享一个nginx的安装教程;主要还是使用yum安装,yum安装的主要要点就是配置一下Nginx的yum源nginx的官网也有nginx的yum源;一起来跟着脚步敲敲;1、Nginx的安装方式:yum安装部署源码安装部署2、yum安装Nginxweb服务配置yum仓库:网页登录:nginx.org官网–......