首页 > 其他分享 >扩散模型 - Stable Diffusion

扩散模型 - Stable Diffusion

时间:2023-06-03 09:14:14浏览次数:49  
标签:Diffusion 编码器 Stable 噪音 图像 扩散 文本

4 Stable Diffusion

Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 可以完成多模态任务,包括:文字生成图像(text2img)、图像生成图像(img2img)等。

4.1 Stable Diffusion 的组成部分

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.020.jpeg

​ Stable Diffusion 由两部分组成

  • 文本编码器:提取文本 prompt 的信息

  • 图像生成器:根据文本 embedding 生成图像

    • 图像信息创建器:多步扩散过程。步长是其中一个超参数
    • 图像解码器:只在最后生成图像时运行一次
  • 文本编码器:由一种特殊的 Transformer 编码器组成,例如:OpenAI 的 Clip。

  • 图像信息创建器:自编码器(通常是 U-Net)和噪音机制组成。

  • 图像解码器:由自编码器的解码器组成。

​ Stable Diffusion Pipeline

  • Clip:文本信息编码
    • 输入:文本
    • 输出:77 token 的 embedding 向量,每个包含 768 维
  • U-Net + Noise Scheduler:逐渐把信息扩散至潜空间中
    • 输入:文本 embedding 和由噪音组成的多维 tensor
    • 输出:处理后的 tensor
  • 自编码器的解码器:使用扩散/处理后的信息生成图像
    • 输入:经过处理的 tensor(shape: (4, 64, 64))
    • 输出:生成图像(shape:(3, 512, 512))

4.2 扩散过程(图像信息创建器)

​ 扩散过程发生在图像信息创建器中。该过程一步步(step by step)进行。初始的输入为文本 embedding 和一个随机的图像信息数组(也称为潜变量 latents)。每一步扩散的输入是潜变量,输出是信息进一步丰富的潜变量。最终的输出是一张图像。如图:

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.021.jpeg

4.2.1 扩散过程的工作原理

​ 扩散过程的原理其实是训练了一个基于 U-Net 和噪音等级机制(schedule)的噪音等级预测器。

扩散过程包含如下阶段:

  • 数据集准备阶段:生成训练数据
    • 输入:包含清晰图像的数据集、不同级别的噪音等级机制
    • 流程:从数据集中抽样得到清晰图像,从噪音等级机制中抽样得到某种级别的噪音样本,把该噪音和图像融合
    • 输出:带有某种等级的噪音图像
  • 训练阶段:训练噪音等级预测器
    • 输入:把上一阶段中的噪音图像清晰图像作为输入数据,对应的噪音样本作为标签。
    • 训练:采用 U-Net 作为神经网络,采用监督 loss 对输入进行学习
    • 输出:某种等级的噪音样本
  • 推断阶段:去噪并生成图像
    • 输入:训练完成的 U-Net、某个噪音图像
    • 推断:U-Net 输出该噪音图像的噪音等级(噪音样本)
    • 输出:把噪音图像减去噪音样本,得到去噪图像。不断重复该过程,最终得到类似清晰图像的图像(并不一定完全相同)

​ 生成图像的结果依赖于训练数据集。例如:Stable Diffusion 采用了带有艺术效果的 LAION Aesthetics 数据集,因此生成图像也具有艺术效果。

4.3 提速:在潜空间扩散

​ Stable Diffusion 的扩散过程是在潜空间中开展的,而不是整个图像像素,这样的压缩过程加速了图像生成的速度。

​ 该压缩过程通过自编码器(autoencoder)实现。自编码器的编码器把图像压缩至潜空间,并用解码器根据压缩信息重建图像。因此,在前向扩散过程中,等级噪音应用于潜变量,而不是图像像素。所以 U-Net(噪音预测器)预测的噪音也是以潜变量的形式表示的。

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.022.jpeg

前向扩散过程就是给清晰图像不断添加噪音的过程,也是生成数据集训练噪音预测器的过程,当噪音预测器训练完毕后,就可以运行反向抽样过程来去噪并重建图像

​ 在 Stable Diffusion、LDM(潜变量扩散模型) 的论文中,该流程如下:

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.016.jpeg

4.4 Transformer(文本编码器)

Transformer 模型根据文本输入生成 token embedding。

​ Stable Diffusion 的开源模型中使用的是 OpenAI 的 CLIP(基于 GPT),而其论文中使用的是 Google 的 BERT。两者都是 Transformer 的编码器(encoder)。

​ 有工作指出:文本编码器的选择对于扩散模型的表现比图像生成器的选择更重要。

4.4.1 CLIP 的训练过程

​ CLIP 的训练流程为:

  • 输入:训练数据为网页爬取的图像和其对应 HTML 标签属性 alt,也就是图像 + 注释(caption)
  • 训练:CLIP 分别使用图像编码器和文本编码器把两种输入数据转化为图像 embedding 和文本 embedding,使用余弦相似度作为 loss 和标签 embeddings 进行比较并更新参数
  • 输出:训练完毕的 CLIP 接收图像和文本描述并生成对应的 embeddings

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.023.jpeg

4.5 加入文本数据

​ 有了文本编码器后就要给扩散模型加入文本数据。

​ 下面是有、无文本的扩散过程对比:

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.024.jpeg

​ 加入文本数据后,噪音预测器(U-Net)也要发生相应变化,主要是在每个 ResNet 块后添加注意力运算:

Aspose.Words.6814f570-13ec-4448-b348-dd134ab150e5.025.jpeg

参考

标签:Diffusion,编码器,Stable,噪音,图像,扩散,文本
From: https://www.cnblogs.com/risejl/p/17453269.html

相关文章

  • 扩散模型 - DDPM 优化
    3DDPM的优化3.1参数优化3.1.1优化βt在"ImprovedDenoisingDiffusionProbabilisticModels".一文中,作者提出了多种优化DDPM的技巧。其中一种就是把βt的线性机制改为余弦机制。机制(schedule)函数的实现相对灵活,只要保证在训练的中间过程提供近似-线性的下降并且在......
  • 吴恩达教授AI课程:LangChain、扩散模型,用ChatGPT API搭建系统
    家人们,吴恩达教授的AI课程时隔一个月终于又更新了!这次一口气直接推出了三门课,主题包括LangChain、扩散模型,以及用ChatGPTAPI搭建系统。依旧是限时免费,除了扩散模型需要一定知识储备之外,另外两门课新手也能听。有网友为了看完这些课程,直接连觉都不睡了。课程内容这三门课的......
  • 扩散模型 - 简介、DDPM
    扩散模型1扩散模型(DM)扩散模型(DiffusionModel)起源于非均衡热动力学(non-equilibriumthermodynamics),是一类基于概率似然(likelihood)的生成模型。当前对扩散模型的研究主要围绕三种主流的实现:去噪扩散概率模型(DenoisingDiffusionProbabilisticModels/DDPMs)基于分数的生成......
  • 基于数据驱动 U-Net 模型的大气污染物扩散快速预测,提升计算速度近6000倍
    项目背景当前,常见的大气污染预测模型大多是基于物理机理构建的,比如空气质量预测模型Calpuff、AERMOD、CMAQ等。然而,这些模型运算较为复杂,对于输入数据的要求非常高,运算耗时也比较长,适合用于常规固定区域的预报。当遇到突发污染事件时,就无法有效发挥作用。针对以上问题,本项目以某......
  • 如何在Mac、Windows和Docker上本地电脑上搭建AI人工智能绘画工具Stable Diffusion
    微信公众号:运维开发故事,作者:double冬一、概述目前,有诸如Midjourney等人工智能绘画网站可供大家来免费使用,但是由于是免费资源肯定会在机器性能和使用次数方面有所限制,因此如果能将人工智能绘画工具部署在本地运行就会突破机器性能和使用次数等方面的限制。可能所有人类画师都得发......
  • 文献阅读-Inferring Networks of Diffusion and Influence
    Authors: ManuelGomez-Rodriguez, JureLeskovec, AndreasKrause AuthorsInfo&ClaimsACMTransactionsonKnowledgeDiscoveryfromDataVolume5Issue4ArticleNo.:21pp1–37https://doi.org/10.1145/2086737.2086741  Abstract......
  • [论文阅读] Diffusion Models Beat GANs on Image Synthesis
    Pretitle:DiffusionModelsBeatGANsonImageSynthesisaccepted:NeurIPS2021paper:https://arxiv.org/abs/2105.05233code:https://github.com/openai/guided-diffusionref:https://sunlin-ai.github.io/2022/05/30/guided-diffusion.htmlref:https://blog.cs......
  • 摆脱设备限制,用AutoDL平台玩Stable Diffusion
    Stablediffusion是一个非常强大的开源AI绘画软件,自发布以来,便受到了用户的欢迎。不过,作为一款深度学习模型,Stablediffusion对设备的性能有一定的要求。像笔者的GTX1650就跑得很勉强,于是只能找平台搭远程玩了。这里记录一下笔者使用AutoDL玩Stablediffusion的过程。我用......
  • 直接用中文写提示词的Stable Diffusion扩展:sd-prompt-translator发布
    最近在研究AIGC,先是玩了一下Midjourney,后来Midjourney免费额度用完了,也不再开放免费额度给新用户使用了,于是转而研究StableDiffusion。StableDiffusion(以下简称SD)的最大优点就是开源免费,而且对硬件的要求不高,MacM1芯片就能跑,当然如果是高端N卡当然是更好了。关于StableDiffus......
  • Diffusion Model
    1.概述图像生成任务:给定一段文字,模型根据文字描述产生图片1.1图像生成方式一次生成一个pixel像Transformer接龙那样,一次生成一个pixel,然后作为下一个pixel的输入,这样依次生成一张图像的所有pixel一次生成整张图片的所有pixel每一个pixel独立绘制,但存在四不像的问题,每......