由浅入深：Stable-Diffusion 原理解析01 —— 基本概念的介绍

标签：Diffusion 01 模型图像噪声 Stable 扩散 SD

由浅入深：Stable-Diffusion 原理解析01 —— 基本概念的介绍

由于实习工作需要，最近一段时间的学习，自己也对 Stable-Diffusion 有了一些基础的理解，在学习和阅读论文的过程中，发现信息比较碎片化，于是决定产出一个 SD 原理的系列解析。

本系列相比于本人之前的代码阅读系列没那么“硬核”，内容也更容易理解一些。

希望各位大佬多多批评指正。

什么是Stable Diffusion？它是怎么组成的？

Stable Diffusion就是一种深度学习模型（后文简称SD模型）。它是由几个模块组成的

Text Encoder

这一部分的主要功能是，把提示词（prompt）转化成计算机能够理解的一种数学表示，是一种 Clip 模型，在后面系列中会重点介绍 Clip 模型，在这里只是做一个功能上的诠释。自己书写的提示词最终生成图像，肯定离不开AI对提示词的“理解”，而 Clip 就是一种能够支持多模态输入的模型。

需要注意的是，在谷歌的 Imagen 模型中提到，语言模型比图像生成模型更关键

Imagen 是由谷歌公司提出的一种 txt2img 的 Diffusion 模型，它和Stable在根本原理上大体一致，都是一种扩散（Diffusion）模型。他们原理上的区别在后面再详细说，从小白的角度，SD模型是开源的，也就是大家都可以看到代码，而Imagen是闭源的，我们无法了解更详细的信息。
Image Information Creator

在收获了提示词等引导信息后，SD模型需要根据这些提示词抽象成的数学信息，来对一张随机的图（它看起来只是纯随机的像素点，也称为噪声 noise ）进行一些“改变”，最终得到一个结果。而这个“改变的过程”，我们使用的方法是“扩散（Diffusion）”，这也就是这个模型名字的由来。当然，这个过程实际上很复杂，也有许多优化的地方，在后面会更详细的介绍。

图像信息创建器（Image Information Creator）是整个SD模型的核心所在，也是它的性能比其他模型更好的关键所在。从技术角度来说，它由UNet神经网络和调度算法组成，在后面文章中也会进行详细介绍。而本文的关键也是介绍图像的改变（扩散）过程。
Image Decoder

在上文得到了一个结果之后，利用图像解码器，将结果图像（其实更应该称为一组低维度的信息）转化为最终生成的图像。

这里的 Decoder 模型只会运行一次，将“潜空间”的图（4*64*64）转化为人类能够欣赏的 RGB 的图像（3*512*512）（这里默认生成一张512*512大小的图）

当然，如果您能够欣赏高维空间，或者您的视网膜可以识别更多原色，那么这里的转化也会改变。让我们脱下人类的伪装再次相认！

扩散模型（Diffusion model）

注意，这里还没有提到本文的主角 SD，我们这里只是介绍它的“前身”。

扩散模型是一种深度学习模型，它是一种生成式模型。于是它也离不开基本的结构：拿一些数据集进行训练，最终“学会”一些技能。

为什么叫扩散模型呢，因为在它的数学原理上，很像一种扩散，而我们能够进行训练和生成的根源在于：扩散可以进行前向扩散与反向扩散，这两种扩散

具体的逆向扩散转化为前向扩散的数学过程非常神奇且优美，在后续文章中会进行论文和数学推导层面的详解

而让扩散模型本身与 VAE，GAN这些同样是生成式模型不同的，也就是它的扩散：在前向扩散阶段，对图像逐渐添加噪声，直到图像完全变成高斯噪声。在逆向扩散阶段，让受过训练的预测器预测一些噪声，将完全随机的噪声图像逐渐去噪，最终还原

这个过程听起来十分匪夷所思，听起来就像是违反了自然界的熵增定律，对此，本人有不成熟的一种解释：

从深度学习的几何层面来说，有一个定律叫流形分布定律，它描述了自然界中，同一种类别的高维数据，往往可以集中在某个低维的某个流形结构里。

而同一个类别的高维数据，在不同的子类中对应了这个流形结构的不同概率分布，而可以通过这些概率分布对子类进行区分

而深度学习本身就是从数据中学习这种流形结构和概率分布。同样还可以发现，现实中，自然界的图像信息基本都符合流式分布，不是随机的，无论是人脸还是花草树木，一切的图像特征都能在某个低维度的某个流形附近分布，所以我们可以通过深度学习的方式最终得到结果

以上的解释也只是我的个人理解，希望各位能够批评指正。

从结果证明，深度学习模型确实可以掌握一些图像关系，也能从完全随机的高斯噪声中生成符合自然界图像规律的图像（虽然有些也很鬼畜）。我们暂且放下对深度学习这件“反直觉”事情的不信任，来看扩散的过程。

前向扩散（Forward diffusion）

前向扩散就是将高斯噪声加入到用来训练的图像中，让他变得越来越没有特点，就像是熵增过程，图像本身的有序性和规律性会随着噪声的不断增加而越来越弱。

反向扩散（Reverse diffusion）

反向扩散的前提是一张完全随机的高斯噪声，而为了最终能够得到一张我们想要的图片，我们需要知道图像中添加了多少的噪声，这就是扩散模型的关键所在，噪声预测因子noise predictor，拿大量的图片和数据来训练这样一个噪声预测器，最终得到一个能够预测噪音的工具。

在 SD 模型中，使用Unet神经网络。

最终，我们不断地在纯随机的噪声图片内，不断减去预测的噪声，就可以得到一张图片。

可以看到，噪声预测器是和训练的数据高度相关的，这是因为我们在训练时，让预测出来的噪声是倾向于接近“训练集内原始图片添加噪声后的结果”的。所以在图片中把预测出来的噪声去掉后，最后得到的清晰图片与训练集的原图有着相同的信息分布规律。

Stable Diffusion 模型的原理

您可能会在下文中看到许多模型的名称！

我们上文提到了众多概念，都仍只是“开胃菜”，因为真正要介绍的重点是 SD 模型，之前提到的扩散和预测等过程，本质上都是数学计算。而目前来说，我们的独立计算机算力都是难以支持这些扩散模型的。（至少在量子计算机商用之前），而 SD 模型，主要就是解决了计算速度的问题。

潜在扩散模型（latent diffusion）

计算量大的一大原因就在于图像本身过大，比如512*512的图片，光挨个像素过一遍（包括RGB）都需要78万的计算/访问次数，SD 模型可以将图像压缩在潜空间（latent space）中，（4*64*64）相比于原空间，小了48倍，所以计算速度可以提升许多。

变分自编码器（VAE，Variantional Autoencoder）

对 SD 模型作图比较熟悉的可以了解，VAE 在图像生成时可以接近“滤镜”的效果，在效果层面作用不如Lora，而在原理上，VAE 就重要的多，它是 SD 可以将模型转化到潜空间的保障。

所以，SD 模型并没有在原本的像素空间内生成噪声去破坏训练图像，而是在潜空间内，用潜在噪声破坏“图像在潜空间的表示”

这样是不是听起来对于那些作为训练集的小猫小狗没有这么残忍了？

而把图像压缩为潜在空间而不会丢失信息，原因还是前文提到的流形假设，在高维空间的信息表示中，往往存在着冗余，这也就意味着他们存在“被转化为低维空间信息表示同时不丢失太多信息”的机会。

就像如果用三维坐标去表示球面某个坐标，那么有太多的坐标属性都被浪费了，他们可能在球内可能在球外。无论如何，这种高维表示方法的信息密度较低，而学过初中地理的我们就可以知道，在地球上，只需要经度和纬度就可以表示一个球面的位置，此时信息的表示维度就降低了。

而许多其他模型，如Imagen模型，选择在像素空间内直接进行推理，当然也有模型自己独特的加速手段。

提示条件的引入

至此，本文已经基本介绍了 SD 模型的工作原理，但是仍未涉及 SD 模型的一个核心点 —— 提示词（Prompt），这部分也是十分值得深入的，在后续的文章中，也会详细介绍。

我们之前在扩散模型中，对于噪声预测器进行了介绍，而其实噪声预测器的输入除了当前的潜空间内的图片，还有提示词的作用。

在 Clip 模型中，将每一个提示词固定在一个嵌入向量里。最后在文本转换器（Text transformer）内进一步处理嵌入，最后影响 Noise perdictor

嵌入（Embedding）也是一个十分关键的机制，整个馈送的过程需要仔细阅读代码才可以完全理解，本系列后续文章中也会提到，同时对此感兴趣可以阅读代码分析系列文章

Img2Img

SD 模型的另一核心功能，Img2Img，是SDEdit方法中首次提到的方法，它主要做的工作是，不再完全随机地在潜空间内生成一个噪声，而是在输入图片本身添加一定的噪声，添加噪声的程度和设置的参数有关。

总结

至此，本文介绍了 SD 模型的基础流程和概念，本着互联网的开源精神做出技术分享。

因为篇幅受限，还有许多十分有价值的内容没有介绍。无数学者和从业者在该领域做出的创新，比如采样器（Sampler），超网络（HyperNetwork），Lora等。这些内容都会在后续的文章中，逐步深入地介绍。

本人也是AIGC领域的初学者，希望前辈们多多指教！

希望对有所帮助。

附录

参考文章：

标签：Diffusion,01,模型,图像,噪声,Stable,扩散,SD
From： https://www.cnblogs.com/ZzTzZ/p/17569187.html

由浅入深：Stable-Diffusion 原理解析01 —— 基本概念的介绍