有需要stable diffusion整合包以及提示词插件,可以扫描下方,免费获取
1. Stable Diffusion 是什么?
Stable Diffusion是⼀款基于⼈⼯智能技术开发的绘画软件,它可以帮助艺术家和设计师快速创建⾼品质的数字艺术作品。该软件使⽤了⼀种称为GAN(⽣成对抗⽹络)的深度学习模型,该模型可以学习
并模仿艺术家的创作⻛格,从⽽⽣成类似的艺术作品。
Stable Diffusion具有直观的⽤户界⾯,可以让⽤户轻松地调整绘画参数并实时预览结果。⽤户可以选
择不同的画布、画笔和颜⾊,还可以通过调整图像的⻛格、纹理和颜⾊等参数来创建各种不同的艺术作品。
除此之外,Stable Diffusion还提供了⼀些⾼级功能,例如批量处理、⾃动矫正和⾃动化调整等,可以帮助⽤户更加⾼效地完成⼤量的绘画任务。
这个软件⼤致可分为三层,分别是⽂本编码器、U-NET和VAE。
- ⽂本编码器的作⽤是将你给它的输⼊(⽐如⽂⽣图中的tag,图⽣图中的图⽚结构)转化为软件能理解的参数。
- U-NET简单理解就是⽣成图⽚的算法。
- VAE的作⽤是对U-NET⽣成的图⽚做后处理,VAE相关的模型⼀般是⽤来美化图⽚,让图⽚更清晰、颜⾊更艳丽
生图⽚的原理:
采⽤了⼀个扩散模型 不停的根据图⽚训练,画到满意为⽌
把图⽚⽣成噪点,根据采样迭代步数 逐步变成⼀张真实的图⽚
**2.*Stable Diffusion*都能做什么?
线稿上⾊、画⻛变化、三视图、产品设计、辅助设计、建筑设计、⼩图⽆损放⼤、数字⼈定制、Ai换
脸、视频转换、鞋⼦上身、产品替换、包包上身、模特换⾐
3.模型介绍
1、⼤模型
⼤模型(底模型、主模型,基础模型,base model,check point)
常⻅⼤⼩:2G-7G
主要作⽤:决定出图的偏向,是真⼈写实、⼆次元、建筑、服装或者其他。
⼤模型特指标准的latent-diffusion模型。拥有完整的TextEncoder、U-Net、VAE。
由于想要训练⼀个⼤模型⾮常困难,需要极⾼的显卡算⼒,所以绝⼤多数⼈不会训练⼤模型。
2、CKPT
Checkpoint指主版本关键点模型,与LoRA类似,也是⽣成AI绘画的模型,由于Checkpoint⽣成模型很消耗算⼒,所以运算到某个关键位置就建⽴⼀个关键点保存已经运算部分,以后⽅便回滚和继续计算。这个主模型在AI绘画中就对应整体⻛格。
ckpt是⼤模型,完整模型的常⻅格式,模型体积较⼤,⼀般真⼈版的单个模型的⼤⼩在7GB左右,动漫版的在2-5个G之间。最原始的ckpt的定义是需要有⼏百张A100级别显卡的商业公司才能玩的。
模型训练难度⼤,需要极⾼的显卡算⼒。⽬前⽹上已经有⾮常多的不同⻛格的成熟⼤模型可供下载使⽤。如:https://huggingface.co/models?pipeline_tag=text-to-image
3、VAE
全称:VAE全称Variational autoencoder。变分⾃编码器,负责将潜空间的数据转换为正常图像。
后缀格式:后缀⼀般为.pt格式。
4、什么是LoRa?
英⽂全称Low-Rank Adaptation of Large Language Models,直译为⼤语⾔模型的低阶适应,这是微软的研究⼈员为了解决⼤语⾔模型微调⽽开发的⼀项技术。
简单来说,为了避免所有对⼤语⾔模型的训练都要调⽤所有参数,LoRA剥离出需要参与训练的部分,并只对这部分进⾏修改,⼤语⾔模型中的其他部分保持不动,从⽽降低了⼯程量和成本。
Lora模型是通过制定少量图⽚经过训练构成的⼩模型,可以和⼤模型结合使⽤,⼲涉⼤模型产⽣的结果,对⼤模型进⾏微调,是在ckpt基本模型上训练的⼩权重集合,个⼈⽤户⽤⼀两张显卡也可以训练,⼀般体积在⼏⼗到⼏百兆左右。
特点:LoRa可以完成对⼈物和物品的复刻,九成九的复刻⼈物的特征也包括固定⼈物的动作特征,可以去找⼀个模型,使⽤模型后⽣成的图⽚⼤致都是这个⼈物的脸。
注意事项:
\1. ⽤lora配套的⼤模型【底模】效果更好 ,图⽚模型⽤的是哪个,最好也⽤哪个,最好和lora作者相
同的参数【prompt】 CFG STEPS值相同
a. 如何找到底模?C站图⽚点击感叹号:model
\2. 有触发词⼀定要有触发词,trigger words 正向提示词,⼀般在给的模型中会出现。
\3. 新⼿尽量不要混⽤lora
4. 如何使⽤?
关于如何在本地使⽤SD⽹络上有很多教程,运⾏的速度和设备关系很⼤,需要很⾼的配置才能完成,
4.1. ⼤模型的切换
⾸先是这个界⾯左上⻆,在这⾥可以切换你所安装的模型。
4.2. 采样⽅法
Q:如何理解采样步数和采样⽅式?
A:你可以把sd理解为⼀个画家⼀个⼈,你需要⼀个画家画⼀幅画,如何把杂乱⽆章的画 画成⼀个作品的过程,采样⽅法相当于要⽤什么样的⽅式画画,⽤不同的⽅法处理噪点,然后去⽣成图⽚,采样步数相当于这个画家在这个画上画了多少笔,经过了多少次计算:
常⽤采样⽅法介绍:
- Euler 是最简单、最快的
- Euler a 更多样,不同步数可以⽣产出不同的图⽚。但是太⾼步数 (>30) 效果不会更好。
- DDIM 收敛快,但效率相对较低,因为需要很多 step 才能获得好的结果,适合在重绘时候使⽤。
- LMS 是 Euler 的衍⽣,它们使⽤⼀种相关但稍有不同的⽅法(平均过去的⼏个步骤以提⾼准确性)。⼤概 30 step 可以得到稳定结果
- PLMS 是 Euler 的衍⽣,可以更好地处理神经⽹络结构中的奇异性。
- DPM2 是⼀种神奇的⽅法,它旨在改进 DDIM,减少步骤以获得良好的结果。它需要每⼀步运⾏两次去噪,它的速度⼤约是 DDIM 的两倍,⽣图效果也⾮常好。但是如果你在进⾏调试提示词的实验,这个采样器可能会有点慢了。
- UniPC 效果较好且速度⾮常快,对平⾯、卡通的表现较好,推荐使⽤。
推荐采样器:
采样器不同,会影响⽣成速度
4.3. 采样迭代步数
注意事项:⼀般来说⼤部分时候采样部署只需要保持在20-50之间即可,更低的采样部署可能会导致图⽚没有计算完全,更⾼的采样步数的细节收益也并不⾼,只有⾮常微弱的证据表明⾼步数可以⼩概率修复肢体错误,所以只有想要出⼀张穷尽细节可能的图的时候才会使⽤更⾼的步数。(加⼤这个会导致出图变慢)
4.4. ⾯部修复
注意事项:
-
⽣成三次元的时候,⾯部会崩溃,可以开,⼀般会有好的效果,偶尔不会
-
⼆次元图没有意义,在⼆次元画⻛的情况下,⾼清修复捕捉不到⾯部
-
修复的效果也不⼤,需要有耐⼼多调整⼏次
4.5. ⾼清修复
⽤途:当你⽣成⼀张图512512的 ,这个⼈物的脸部是崩坏的,通过⾼清修复放⼤到10241024,可以⽤于修复⾯部
原因:512*512时,⾯部在图⽚中占⽐⼩,没有更多噪点去⽣成,放⼤后噪点多,效果变好
但⾼清修复不建议与⾯部修复同时使⽤,这两类同时开再加lora会导致效果不好
参数:
放⼤倍率
最⾼⽀持2-4放⼤
放⼤算法
真⼈和三次元场景推荐使⽤R-esrgan 4x+ 不会糊,潜变量可能会糊2D ⼆次元 ⽤R-esrgan 4x+anime6B
⾼清修复采样次数
直接设置0,不是只采样0次,设置为0时采⽤原始的采样数量
重绘幅度
原来⽣成的⼀张照⽚,不需要重新画,就在上⾯铺噪点变的更⼤更清晰,这项数值拉的越⾼,和原图
的关系越⼩,但越低对原图的修复效果越差,所以
⼀般设定在0.4-0.7之间,可以⾃⼰把控
关于AI绘画技术储备
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!
对于0基础小白入门:
如果你是零基础小白,想快速入门AI绘画是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!