标签：Diffusion 03 模型 Stable 生成图像文本

一：Transformer

Transformer是来自 NLP 领域的非常著名的模型方法。Transformer在语言建模和构建对话式 AI 工具方面取得了巨大成功。在视觉应用中，Transformer 表现出了泛化和自适应的优势，这使得它们非常适合通用学习。它们比其他技术能够更好地捕捉文本甚至图像中的语义结构。然而，Transformers 需要大量数据，并且与其他方法相比，在许多视觉领域的性能方面也面临着瓶颈期。 Transformer可以与扩散模型结合，通过Transformer的“词嵌入”可以将文本插入到模型中。这意味着将词Token化后，然后将这种文本表示添加到U-Net的输入（图像）中，经过每一层U-Net神经网络与图像一起进行变换。从第一次迭代开始到之后的每一次迭代都加入相同的文本，从而让文本“作为指南”生成图像，从有完整噪声的第一次迭代开始，然后进一步向下应用到整个迭代。

二：Latent Diffusion模型

Latent Diffusion模型不直接在操作图像，而是在潜在空间中进行操作。通过将原始数据编码到更小的空间中，让U-Net可以在低维表示上添加和删除噪声。

（一）潜在空间(Lantent Space)

潜在空间简单的说是对压缩数据的表示，所谓压缩指的是用比原始表示更小的数位来编码信息的过程。比如我们用一个颜色通道（黑白灰）来表示原来由RGB三原色构成的图片，此时每个像素点的颜色向量由3维变成了1维度。维度降低会丢失一部分信息，然而在某些情况下，降维不是件坏事。通过降维我们可以过滤掉一些不太重要的信息你，只保留最重要的信息。

（二）“潜在扩散模型”（Latent Diffusion Model）

将GAN的感知能力、扩散模型的细节保存能力和Transformer的语义能力三者结合，创造出更稳健和高效的生成模型。与其他方法相比，Latent Diffusion不仅节省了内存，而且生成的图像保持了多样性和高细节度，同时图像还保留了数据的语义结构。而基于Latent的扩散模型可以将这些过程压缩在低维的Latent隐空间，这样一来大大降低了显存占用和计算复杂度，这是常规扩散模型和基于Latent的扩散模型之间的主要区别，也是SD模型火爆出圈的关键一招。

三：Stable Diffusion模型

传统的扩散模型（如DDPM）的做法是在像素空间预测预测噪声图noise_t，输入是每一步的图片image_t和代表step的Time embedding，然后在图片image_t上减去模型预测的噪声noise_t，得到image_t-1，如此迭代N步，即可得到可识别的图片。

（一）Stable Diffusion算法原理

由于直接在图像上做diffusion的搜索空间太大，导致模型生成速度慢，且生成图像不可控，所以Latent Diffusion Model通过引入Cross Attention和隐空间机制，提升了模型的效率和可控性。Stable Diffusion（后文简称SD）是在LDM基础上，研发的一个文生图模型。由于SD的图片效果好、开源性强（模型、训练数据均开源），参数量小（仅1B左右，可以用消费级显卡调用），由此形成了良好的社区生态，推动了AIGC社区的蓬勃发展。

https://segmentfault.com/a/1190000043330934#item-7 训练数据里面既包含了图片描述和图像信息，相互训练

Stable diffusion从文本生成图像的流程如下所示：

Stable Diffusion在潜空间中生成随机张量。可以通过设置随机数生成器的来控制此张量。如果将种子设置为某个值，获得相同的随机张量。
网络 U-Net 将潜在噪声图像和文本提示作为输入，并预测噪声，也在潜在空间（4x64x64 张量）中。
从潜在图像中减去潜在噪声。这将成为新潜在图像。
步骤 2 和 3 重复一定数量的采样步骤，例如 20 次
最后，VAE的解码器将潜在图像转换回像素空间，这是运行 Stable Diffusion后获得的图像。

（二）文生图

推理步骤：

输入text用text encoder提取text embeddings
同时初始化一个随机噪音noise（latent上的，512x512图像对应的noise维度为64x64x4）
将text embeddings和noise送入扩散模型UNet中生成去噪后的latent
送入autoencoder的decoder模块得到生成的图像

（三）图生图

推理步骤：初始图像经过autoencoder编码之后的latent加高斯噪音得到，其余步骤与文生图一致

四：结合LLM、LangChain的使用

Stable Diffusion是一种基于Diffusion模型的生成模型，通过逐步引入噪声来从随机状态生成数据。在图像生成方面，Stable Diffusion可以从无到有地创造出逼真的图片。然而，仅仅依靠Stable Diffusion还不足以实现完全自动化的图像生成。这时，LangChain的角色就变得至关重要。LangChain是一种用于微调语言模型的框架，特别适用于调整生成模型的输出。通过使用LangChain，我们可以训练模型根据特定任务调整文本的生成，从而更好地满足我们的需求。最后，LLM在控制整个流程中起着指挥棒的作用。LLM，如GPT系列模型，具有强大的理解和生成自然语言的能力。通过使用LLM，我们可以将具体的指令或主题转化为可被Stable Diffusion和LangChain理解的文本。

那么，如何将这些技术结合起来呢？

首先，我们需要使用LLM生成一个描述图片内容的文本指令。这个指令可以是任何形式的语言，例如“一只坐在篮子里的红色小猫”。
然后，这个文本指令被输入到LangChain中进行微调。LangChain可以根据上下文或其他特定要求调整文本的生成，确保生成的文本与原始指令（给SD使用的指令）保持一致，同时更符合我们的期望。
最后，微调后的文本被输入到Stable Diffusion中，转化为逼真的图片。

这种结合的优势在于其自动化程度和灵活性。通过使用LLM和LangChain，我们可以轻松地调整生成的图片内容、风格和质量。此外，由于所有这些步骤都可以通过文本指令进行控制，因此这种技术可以广泛应用于各种场景，如艺术创作、产品设计、虚拟现实等。 https://segmentfault.com/a/1190000043330934 <iframe style="display: none !important"></iframe>

标签：Diffusion,03,模型,Stable,生成,图像,文本
From： https://www.cnblogs.com/ssyfj/p/18380576

第十五期 03 Stable Diffusion模型