首页 > 其他分享 >Stable Diffusion基础操作教程(保姆喂饭级)爷爷都能学会(一)

Stable Diffusion基础操作教程(保姆喂饭级)爷爷都能学会(一)

时间:2025-01-14 17:29:15浏览次数:3  
标签:Diffusion 采样 修复 AI 喂饭 模型 绘画 Stable 步数

图片
有需要stable diffusion整合包以及提示词插件,可以扫描下方,免费获取

在这里插入图片描述

1. Stable Diffusion 是什么?

Stable Diffusion是⼀款基于⼈⼯智能技术开发的绘画软件,它可以帮助艺术家和设计师快速创建⾼品质的数字艺术作品。该软件使⽤了⼀种称为GAN(⽣成对抗⽹络)的深度学习模型,该模型可以学习

并模仿艺术家的创作⻛格,从⽽⽣成类似的艺术作品。

Stable Diffusion具有直观的⽤户界⾯,可以让⽤户轻松地调整绘画参数并实时预览结果。⽤户可以选

择不同的画布、画笔和颜⾊,还可以通过调整图像的⻛格、纹理和颜⾊等参数来创建各种不同的艺术作品。

除此之外,Stable Diffusion还提供了⼀些⾼级功能,例如批量处理、⾃动矫正和⾃动化调整等,可以帮助⽤户更加⾼效地完成⼤量的绘画任务。

这个软件⼤致可分为三层,分别是⽂本编码器、U-NET和VAE。

  • ⽂本编码器的作⽤是将你给它的输⼊(⽐如⽂⽣图中的tag,图⽣图中的图⽚结构)转化为软件能理解的参数。
  • U-NET简单理解就是⽣成图⽚的算法。
  • VAE的作⽤是对U-NET⽣成的图⽚做后处理,VAE相关的模型⼀般是⽤来美化图⽚,让图⽚更清晰、颜⾊更艳丽

图片

生图⽚的原理:

采⽤了⼀个扩散模型 不停的根据图⽚训练,画到满意为⽌

把图⽚⽣成噪点,根据采样迭代步数 逐步变成⼀张真实的图⽚

**2.*Stable Diffusion*都能做什么?

线稿上⾊、画⻛变化、三视图、产品设计、辅助设计、建筑设计、⼩图⽆损放⼤、数字⼈定制、Ai换

脸、视频转换、鞋⼦上身、产品替换、包包上身、模特换⾐

3.模型介绍

1、⼤模型

⼤模型(底模型、主模型,基础模型,base model,check point)

常⻅⼤⼩:2G-7G

主要作⽤:决定出图的偏向,是真⼈写实、⼆次元、建筑、服装或者其他。

⼤模型特指标准的latent-diffusion模型。拥有完整的TextEncoder、U-Net、VAE。

由于想要训练⼀个⼤模型⾮常困难,需要极⾼的显卡算⼒,所以绝⼤多数⼈不会训练⼤模型。

2、CKPT

Checkpoint指主版本关键点模型,与LoRA类似,也是⽣成AI绘画的模型,由于Checkpoint⽣成模型很消耗算⼒,所以运算到某个关键位置就建⽴⼀个关键点保存已经运算部分,以后⽅便回滚和继续计算。这个主模型在AI绘画中就对应整体⻛格。

ckpt是⼤模型,完整模型的常⻅格式,模型体积较⼤,⼀般真⼈版的单个模型的⼤⼩在7GB左右,动漫版的在2-5个G之间。最原始的ckpt的定义是需要有⼏百张A100级别显卡的商业公司才能玩的。

模型训练难度⼤,需要极⾼的显卡算⼒。⽬前⽹上已经有⾮常多的不同⻛格的成熟⼤模型可供下载使⽤。如:https://huggingface.co/models?pipeline_tag=text-to-image

3、VAE

全称:VAE全称Variational autoencoder。变分⾃编码器,负责将潜空间的数据转换为正常图像。

后缀格式:后缀⼀般为.pt格式。

4、什么是LoRa?

英⽂全称Low-Rank Adaptation of Large Language Models,直译为⼤语⾔模型的低阶适应,这是微软的研究⼈员为了解决⼤语⾔模型微调⽽开发的⼀项技术。

简单来说,为了避免所有对⼤语⾔模型的训练都要调⽤所有参数,LoRA剥离出需要参与训练的部分,并只对这部分进⾏修改,⼤语⾔模型中的其他部分保持不动,从⽽降低了⼯程量和成本。

Lora模型是通过制定少量图⽚经过训练构成的⼩模型,可以和⼤模型结合使⽤,⼲涉⼤模型产⽣的结果,对⼤模型进⾏微调,是在ckpt基本模型上训练的⼩权重集合,个⼈⽤户⽤⼀两张显卡也可以训练,⼀般体积在⼏⼗到⼏百兆左右。

特点:LoRa可以完成对⼈物和物品的复刻,九成九的复刻⼈物的特征也包括固定⼈物的动作特征,可以去找⼀个模型,使⽤模型后⽣成的图⽚⼤致都是这个⼈物的脸。

注意事项:

\1. ⽤lora配套的⼤模型【底模】效果更好 ,图⽚模型⽤的是哪个,最好也⽤哪个,最好和lora作者相

同的参数【prompt】 CFG STEPS值相同

a. 如何找到底模?C站图⽚点击感叹号:model

图片

\2. 有触发词⼀定要有触发词,trigger words 正向提示词,⼀般在给的模型中会出现。

图片

\3. 新⼿尽量不要混⽤lora

4. 如何使⽤?

关于如何在本地使⽤SD⽹络上有很多教程,运⾏的速度和设备关系很⼤,需要很⾼的配置才能完成,

4.1. ⼤模型的切换

⾸先是这个界⾯左上⻆,在这⾥可以切换你所安装的模型。

图片

4.2. 采样⽅法

图片

Q:如何理解采样步数和采样⽅式?

A:你可以把sd理解为⼀个画家⼀个⼈,你需要⼀个画家画⼀幅画,如何把杂乱⽆章的画 画成⼀个作品的过程,采样⽅法相当于要⽤什么样的⽅式画画,⽤不同的⽅法处理噪点,然后去⽣成图⽚,采样步数相当于这个画家在这个画上画了多少笔,经过了多少次计算:

图片

常⽤采样⽅法介绍:

  • Euler 是最简单、最快的
  • Euler a 更多样,不同步数可以⽣产出不同的图⽚。但是太⾼步数 (>30) 效果不会更好。
  • DDIM 收敛快,但效率相对较低,因为需要很多 step 才能获得好的结果,适合在重绘时候使⽤。
  • LMS 是 Euler 的衍⽣,它们使⽤⼀种相关但稍有不同的⽅法(平均过去的⼏个步骤以提⾼准确性)。⼤概 30 step 可以得到稳定结果
  • PLMS 是 Euler 的衍⽣,可以更好地处理神经⽹络结构中的奇异性。
  • DPM2 是⼀种神奇的⽅法,它旨在改进 DDIM,减少步骤以获得良好的结果。它需要每⼀步运⾏两次去噪,它的速度⼤约是 DDIM 的两倍,⽣图效果也⾮常好。但是如果你在进⾏调试提示词的实验,这个采样器可能会有点慢了。
  • UniPC 效果较好且速度⾮常快,对平⾯、卡通的表现较好,推荐使⽤。

推荐采样器:

采样器不同,会影响⽣成速度

4.3. 采样迭代步数

图片

注意事项:⼀般来说⼤部分时候采样部署只需要保持在20-50之间即可,更低的采样部署可能会导致图⽚没有计算完全,更⾼的采样步数的细节收益也并不⾼,只有⾮常微弱的证据表明⾼步数可以⼩概率修复肢体错误,所以只有想要出⼀张穷尽细节可能的图的时候才会使⽤更⾼的步数。(加⼤这个会导致出图变慢

4.4. ⾯部修复

图片

注意事项:

  • ⽣成三次元的时候,⾯部会崩溃,可以开,⼀般会有好的效果,偶尔不会

  • ⼆次元图没有意义,在⼆次元画⻛的情况下,⾼清修复捕捉不到⾯部

  • 修复的效果也不⼤,需要有耐⼼多调整⼏次

4.5. ⾼清修复

图片

⽤途:当你⽣成⼀张图512512的 ,这个⼈物的脸部是崩坏的,通过⾼清修复放⼤到10241024,可以⽤于修复⾯部

原因:512*512时,⾯部在图⽚中占⽐⼩,没有更多噪点去⽣成,放⼤后噪点多,效果变好

但⾼清修复不建议与⾯部修复同时使⽤,这两类同时开再加lora会导致效果不好

参数:

放⼤倍率

最⾼⽀持2-4放⼤

放⼤算法

真⼈和三次元场景推荐使⽤R-esrgan 4x+ 不会糊,潜变量可能会糊2D ⼆次元 ⽤R-esrgan 4x+anime6B

⾼清修复采样次数

直接设置0,不是只采样0次,设置为0时采⽤原始的采样数量

重绘幅度

原来⽣成的⼀张照⽚,不需要重新画,就在上⾯铺噪点变的更⼤更清晰,这项数值拉的越⾼,和原图

的关系越⼩,但越低对原图的修复效果越差,所以

⼀般设定在0.4-0.7之间,可以⾃⼰把控

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

标签:Diffusion,采样,修复,AI,喂饭,模型,绘画,Stable,步数
From: https://blog.csdn.net/2401_84815950/article/details/145144042

相关文章

  • Stable Diffusion基础介绍
    前言❝在人工智能生成内容(AIGC)领域,StableDiffusion是一个具有里程碑意义的创新技术,它重新定义了如何通过AI生成高质量图像。该技术通过其独特的扩散模型,不仅在技术层面上取得了重要突破,更是在广告、游戏开发、医学影像等多个行业中得到了广泛的实际应用。作为一名深耕AI......
  • StableDiffusion筑梦工业愿景蔚蓝XL模型:时尚与科技的完美结合,尖端科技穿戴,精美壁纸级
    筑梦工业|愿景蔚蓝XL模型愿景蔚蓝XL模型简介今天介绍一款高质量的时尚与科技装备模型:筑梦工业|愿景蔚蓝XL,这是一款以追求极致时尚美学同时兼具最新科技武器设定的SDXLLoRA绘图模型。能够生成新一代眼镜/目镜/面罩/面具的模型,拥有大胆的色彩以及前沿的时尚审美。......
  • (14-2)基于Latent Diffusion Transformer的文生视频系统:系统配置
    6.3 系统配置在“configs”目录中,保存了本项目中涉及的不同数据集和任务提供配置文件。这些配置文件定义了模型的训练、验证和测试过程中的关键参数和设置,包括网络结构、优化器参数、学习率调度、数据预处理方式等。目录中每个子文件夹或文件的命名(如ffs、sky、t2x、taich......
  • 算法进阶 | Transformer+Diffusion? Transfusion!
    本文来源公众号“算法进阶”,仅用于学术分享,侵权删,干货满满。原文链接:Transformer+Diffusion?Transfusion!近日,Meta和Waymo发布了最新论文《Transfusion:PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModel》,该论文将流行的Transformer模型与Diff......
  • Stable Diffusion超详细教程!从0-1入门到进阶
    一、本地部署StableDiffusion(全套教程文末领取哈)前言目前市面上比较权威,并能用于工作中的AI绘画软件其实就两款。一个叫Midjourney(简称MJ),另一个叫Stable-Diffusion(简称SD)。MJ需要付费使用,而SD开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡、内存)。E和Mid......
  • AI绘画工具中,为什么专业玩家爱用Stable Diffusion,普通玩家却喜欢Midjourney?
    专业玩家与普通玩家,用的「AI绘画工具」有什么不同?今天有个朋友找我聊天,发现他的头像是个线稿,感觉用来练手AI生成建筑效果图挺好的。我觉得现在比较好用的AI绘画主要有三个,分别是开源的StableDiffusion和收费的Midjourney、以及ChatGPT中集成的DALL-E。后面两个的注册相......
  • 2025最强AI软件教程来了!教你如何使用stable diffusion快速出景观建筑效果图
    <StableDiffusion效果图教程>要说哪款AI软件最适合建筑设计类?那必然是midjourney和StableDiffusion!之前我们也看到了他们生成的图虽然很漂亮,但现有阶段md生成图对我们建筑景观类把控不是很友好,而且md属于收费软件,所以今天我们主要介绍StableDiffusion(后简称SD)的一些......
  • 2025最强AI绘画工具Stable Diffusion的本地化安装和应用
    StableDiffusion是当前一款强大的AI图片生成器。它不仅支持文本描述生成图片,还能以图生图,利用各种模型得到AI绘画作品,还能训练个人的图片模型。由于StableDiffusion是一个开源的模型,可以将StableDiffusion安装在个人电脑,本地生成,不受网络限制,有众多绘画模型可用,适合AI绘......
  • Stable Diffusion完整入门指南,保姆级教程!干货满满
    前言AI绘画真的火了!最近观察员打开各大平台刷到的基本上都是用AI生成的画像、插画,甚至建筑设计这份完整版的AI绘画全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】区别于早几年的人工智能如今的AI只需要给它一......
  • 【stable diffusion】:秋叶大佬整合包安装全过程,保姆级教程
    整合包对非技术出身的同学比较友好,因为秋叶大佬把相关的东西已经都整合好了,只需要点点点就行了。当然懂编程的同学就更没有问题了。准备为了保证AI绘画的效率,建议在本机安装Nvidia独立显卡,也就是俗称的N卡,并且显存要达到6G以上,6G只能出图,如果要做训练建议12G以上。推荐选......