Stable Diffusion基础操作教程（保姆喂饭级）爷爷都能学会（一）

标签：Diffusion 采样修复 AI 喂饭模型绘画 Stable 步数

有需要stable diffusion整合包以及提示词插件，可以扫描下方，免费获取

在这里插入图片描述

1. Stable Diffusion 是什么？

Stable Diffusion是⼀款基于⼈⼯智能技术开发的绘画软件，它可以帮助艺术家和设计师快速创建⾼品质的数字艺术作品。该软件使⽤了⼀种称为GAN（⽣成对抗⽹络）的深度学习模型，该模型可以学习

并模仿艺术家的创作⻛格，从⽽⽣成类似的艺术作品。

Stable Diffusion具有直观的⽤户界⾯，可以让⽤户轻松地调整绘画参数并实时预览结果。⽤户可以选

择不同的画布、画笔和颜⾊，还可以通过调整图像的⻛格、纹理和颜⾊等参数来创建各种不同的艺术作品。

除此之外，Stable Diffusion还提供了⼀些⾼级功能，例如批量处理、⾃动矫正和⾃动化调整等，可以帮助⽤户更加⾼效地完成⼤量的绘画任务。

这个软件⼤致可分为三层，分别是⽂本编码器、U-NET和VAE。

⽂本编码器的作⽤是将你给它的输⼊（⽐如⽂⽣图中的tag，图⽣图中的图⽚结构）转化为软件能理解的参数。
U-NET简单理解就是⽣成图⽚的算法。
VAE的作⽤是对U-NET⽣成的图⽚做后处理，VAE相关的模型⼀般是⽤来美化图⽚，让图⽚更清晰、颜⾊更艳丽

生图⽚的原理：

采⽤了⼀个扩散模型不停的根据图⽚训练，画到满意为⽌

把图⽚⽣成噪点，根据采样迭代步数逐步变成⼀张真实的图⽚

**2.*Stable Diffusion*都能做什么？

线稿上⾊、画⻛变化、三视图、产品设计、辅助设计、建筑设计、⼩图⽆损放⼤、数字⼈定制、Ai换

脸、视频转换、鞋⼦上身、产品替换、包包上身、模特换⾐

3.模型介绍

1、⼤模型

⼤模型（底模型、主模型，基础模型，base model，check point）

常⻅⼤⼩：2G-7G

主要作⽤：决定出图的偏向，是真⼈写实、⼆次元、建筑、服装或者其他。

⼤模型特指标准的latent-diffusion模型。拥有完整的TextEncoder、U-Net、VAE。

由于想要训练⼀个⼤模型⾮常困难，需要极⾼的显卡算⼒，所以绝⼤多数⼈不会训练⼤模型。

2、CKPT

Checkpoint指主版本关键点模型，与LoRA类似，也是⽣成AI绘画的模型，由于Checkpoint⽣成模型很消耗算⼒，所以运算到某个关键位置就建⽴⼀个关键点保存已经运算部分，以后⽅便回滚和继续计算。这个主模型在AI绘画中就对应整体⻛格。

ckpt是⼤模型，完整模型的常⻅格式，模型体积较⼤，⼀般真⼈版的单个模型的⼤⼩在7GB左右，动漫版的在2-5个G之间。最原始的ckpt的定义是需要有⼏百张A100级别显卡的商业公司才能玩的。

模型训练难度⼤，需要极⾼的显卡算⼒。⽬前⽹上已经有⾮常多的不同⻛格的成熟⼤模型可供下载使⽤。如：https://huggingface.co/models?pipeline_tag=text-to-image

3、VAE

全称：VAE全称Variational autoencoder。变分⾃编码器，负责将潜空间的数据转换为正常图像。

后缀格式：后缀⼀般为.pt格式。

4、什么是LoRa?

英⽂全称Low-Rank Adaptation of Large Language Models，直译为⼤语⾔模型的低阶适应，这是微软的研究⼈员为了解决⼤语⾔模型微调⽽开发的⼀项技术。

简单来说，为了避免所有对⼤语⾔模型的训练都要调⽤所有参数，LoRA剥离出需要参与训练的部分，并只对这部分进⾏修改，⼤语⾔模型中的其他部分保持不动，从⽽降低了⼯程量和成本。

Lora模型是通过制定少量图⽚经过训练构成的⼩模型，可以和⼤模型结合使⽤，⼲涉⼤模型产⽣的结果，对⼤模型进⾏微调，是在ckpt基本模型上训练的⼩权重集合，个⼈⽤户⽤⼀两张显卡也可以训练，⼀般体积在⼏⼗到⼏百兆左右。

特点：LoRa可以完成对⼈物和物品的复刻，九成九的复刻⼈物的特征也包括固定⼈物的动作特征，可以去找⼀个模型，使⽤模型后⽣成的图⽚⼤致都是这个⼈物的脸。

注意事项：

\1. ⽤lora配套的⼤模型【底模】效果更好，图⽚模型⽤的是哪个，最好也⽤哪个，最好和lora作者相

同的参数【prompt】 CFG STEPS值相同

a. 如何找到底模？C站图⽚点击感叹号：model

\2. 有触发词⼀定要有触发词，trigger words 正向提示词，⼀般在给的模型中会出现。

\3. 新⼿尽量不要混⽤lora

4. 如何使⽤？

关于如何在本地使⽤SD⽹络上有很多教程，运⾏的速度和设备关系很⼤，需要很⾼的配置才能完成，

4.1. ⼤模型的切换

⾸先是这个界⾯左上⻆，在这⾥可以切换你所安装的模型。

4.2. 采样⽅法

Q：如何理解采样步数和采样⽅式？

A：你可以把sd理解为⼀个画家⼀个⼈，你需要⼀个画家画⼀幅画，如何把杂乱⽆章的画画成⼀个作品的过程，采样⽅法相当于要⽤什么样的⽅式画画，⽤不同的⽅法处理噪点，然后去⽣成图⽚，采样步数相当于这个画家在这个画上画了多少笔，经过了多少次计算：

常⽤采样⽅法介绍：

Euler 是最简单、最快的
Euler a 更多样，不同步数可以⽣产出不同的图⽚。但是太⾼步数 (>30) 效果不会更好。
DDIM 收敛快，但效率相对较低，因为需要很多 step 才能获得好的结果，适合在重绘时候使⽤。
LMS 是 Euler 的衍⽣，它们使⽤⼀种相关但稍有不同的⽅法（平均过去的⼏个步骤以提⾼准确性）。⼤概 30 step 可以得到稳定结果
PLMS 是 Euler 的衍⽣，可以更好地处理神经⽹络结构中的奇异性。
DPM2 是⼀种神奇的⽅法，它旨在改进 DDIM，减少步骤以获得良好的结果。它需要每⼀步运⾏两次去噪，它的速度⼤约是 DDIM 的两倍，⽣图效果也⾮常好。但是如果你在进⾏调试提示词的实验，这个采样器可能会有点慢了。
UniPC 效果较好且速度⾮常快，对平⾯、卡通的表现较好，推荐使⽤。

推荐采样器：

采样器不同，会影响⽣成速度

4.3. 采样迭代步数

注意事项：⼀般来说⼤部分时候采样部署只需要保持在20-50之间即可，更低的采样部署可能会导致图⽚没有计算完全，更⾼的采样步数的细节收益也并不⾼，只有⾮常微弱的证据表明⾼步数可以⼩概率修复肢体错误，所以只有想要出⼀张穷尽细节可能的图的时候才会使⽤更⾼的步数。（加⼤这个会导致出图变慢）

4.4. ⾯部修复

注意事项：

⽣成三次元的时候，⾯部会崩溃，可以开，⼀般会有好的效果，偶尔不会
⼆次元图没有意义，在⼆次元画⻛的情况下，⾼清修复捕捉不到⾯部
修复的效果也不⼤，需要有耐⼼多调整⼏次

4.5. ⾼清修复

⽤途：当你⽣成⼀张图512512的，这个⼈物的脸部是崩坏的，通过⾼清修复放⼤到10241024，可以⽤于修复⾯部

原因：512*512时，⾯部在图⽚中占⽐⼩，没有更多噪点去⽣成，放⼤后噪点多，效果变好

但⾼清修复不建议与⾯部修复同时使⽤，这两类同时开再加lora会导致效果不好

参数：

放⼤倍率

最⾼⽀持2-4放⼤

放⼤算法

真⼈和三次元场景推荐使⽤R-esrgan 4x+ 不会糊，潜变量可能会糊2D ⼆次元⽤R-esrgan 4x+anime6B

⾼清修复采样次数

直接设置0，不是只采样0次，设置为0时采⽤原始的采样数量

重绘幅度

原来⽣成的⼀张照⽚，不需要重新画，就在上⾯铺噪点变的更⼤更清晰，这项数值拉的越⾼，和原图

的关系越⼩，但越低对原图的修复效果越差，所以

⼀般设定在0.4-0.7之间，可以⾃⼰把控

关于AI绘画技术储备

学好 AI绘画不论是就业还是做副业赚钱都不错，但要学会 AI绘画还是要有一个学习规划。最后大家分享一份全套的 AI绘画学习资料，给那些想学习 AI绘画的小伙伴们一点帮助！

对于0基础小白入门：

如果你是零基础小白，想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括：stable diffusion安装包、stable diffusion0基础入门全套PDF，视频学习教程。带你从零基础系统性的学好AI绘画！

Stable Diffusion基础操作教程（保姆喂饭级）爷爷都能学会（一）

关于AI绘画技术储备

零基础AI绘画学习资源介绍

标签：Diffusion,采样,修复,AI,喂饭,模型,绘画,Stable,步数
From： https://blog.csdn.net/2401_84815950/article/details/145144042

相关文章

赞助商

阅读排行

Stable Diffusion基础操作教程（保姆喂饭级）爷爷都能学会（一）

关于AI绘画技术储备

零基础AI绘画学习资源介绍

标签：Diffusion,采样,修复,AI,喂饭,模型,绘画,Stable,步数 From： https://blog.csdn.net/2401_84815950/article/details/145144042

相关文章

赞助商

阅读排行

标签：Diffusion,采样,修复,AI,喂饭,模型,绘画,Stable,步数
From： https://blog.csdn.net/2401_84815950/article/details/145144042