这个文章其实写的有点晚了,毕竟2个工具都已经出现了很久。不过鉴于大部分人其实接触AI生图都两眼一黑的,还是写写吧。
在SD webui出现的时候我就已经半推半就的开始装了:为什么说半推半就呢?一个是因为我个人是个很懒的人,当时的webui安装步骤看到开头就开始头大了,全是编程的东西(尽管很简单);另一个是被人催促着要“接触新东西”,自己就有点跃跃欲试。事实证明,安装webui真的要了我命:从安装到可以跑起来,满打满算花了小半个月时间,各种报错各种百度各种从一个什么都不懂的人硬啃的把这东西靠我破破烂烂的能力给装起来了。
好在,不久之后AI生图的生态就好起来了,Comfyui也成功的超越了webui变成大家最爱的工具之一。而被誉为“AI界最快的男人”——张吕敏,敏神,也改造了webui,生成了一个新的项目:Stable Diffusion Forge(以下简称Forge)。
这就是本文我要说的2个工具Comfyui和Forge。
Comfyui安装
不用git,对,全文git含量极低。官方直接就提供了一键安装包!又是github又是python的,不需要!
官方甚至提供了直链下载(我直接翻译了,以防有人看不懂)
这份完整版的comfyui整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
Comfyui官方回复非N卡的启动方式
其次就是大家关心的问题:没有N卡能不能玩?官方给出了解答,AMD卡可以玩!所以整个流程就是:下载-解压-点“run_cpu”、“run_nvidia_gpu”就行。如果不是N卡那就按上图所示的跑。
Forge安装
敏神同样提供了一键安装包,流程和Comfyui一样,下载解压,但解压后要先运行一下update.bat,等待提示结束后,关闭窗口,再双击run.bat,同样也不需要任何的环境依赖,一键安装包全部搞定。
至于非N卡能不能玩,我不清楚,有兴趣的可以自己试试。
当然那也有一些国内大神出的秋叶包诸如此类的,我个人更喜欢本地安装,感觉使用起来舒服一些。
所需要的模型去哪里下载?
很多新闻都一直说大模型大模型的,也有不少人会有些混乱:到底GPT的大模型,和画图的大模型有什么不同?我的理解是在本质上没有大的区别(可能理解有误),只是GPT的预训练数据以文本为主,而生图的大模型则以文本、图像双结合。所以这就注定了两者使用的大模型是完全不一样的。
最开始推出生图大模型(简称为底模)的则是StabilityAI公司,他们发布了一系列的模型,从1.5开始编号,2.0闭源(目前已经无法在官方渠道下载),目前已经到了3.5。而耳熟能详的Flux出自于德国的黑森林实验室,官方也有网站,huggingface上搜索同样可以下载。
基础大模型:SD1.5、SD2.0(已被闭源)、SDXL、SD3.0、SD3.5。下载地址:https://huggingface.co/stabilityai ——这是官方的地址,当然网上也有很多网盘分享什么的,注意甄别获取,以免被骗。
附加模型:
1、embedding:用来增强词义的效果,分正面和负面,效果等同于常见的Lora。
2、Lora:简单理解就是针对大模型的轻量微调的“小”模型,比较常用,AIGC的一个分支——所谓“炼丹”,就是指训练Lora,分为风格、人/物。这个下载地址就非常多了,内外网都有,国内这块比较出色的平台是哩布哩布。
3、vae:通常用来做大模型的补充集,简单理解就是能让画面的色彩明暗更丰富一些。
要注意的是,以上的3类“小”模型,都是针对大模型训练的,也就是说,它们是互相配套的,因此,如果使用SDXL,那么下载的embedding、Lora、vae,都需要关注后缀的问题,搭配错了使用,不会生成很好的效果(当然如果某些Lora训练集非常好,泛用性很强,是可以交叉使用的)。
注意配套的后缀
以Forge为例(因为它的界面更适合小白),目前更新到的版本已经贴心分好类了:sd=低于XL的版本(1.5、3等等);xl是SDXL专用的,flux也是专用的,点击之后底下的参数基本上都已经给默认设置了,不需要小白再操心怎么设置的问题。
挂载Lora的话,Forge是需要在末尾增加lora:名称:强度的,Comfyui是使用单独面板控制。
挂载Lora的Forge
挂载Lora的Comfyui工作流,可见单独设置的面板
(上:Forge,下:Comfyui)
以上面的2个图为例,简单讲一些参数的不同。
Forge的采样迭代步数=Comfyui的步数,提示词相关性=CFG,采样器两者命名一致,Comfyui独有的运行后操作提供了固定、增加、减少、随机4个选项,以我了解这四个选项的意思分别是在随机种输出后固定、增加1位、减少1位和随机增加1位的意思。通常Comfyui的图片尺寸可以搭配不同的节点进行,上图的空latent的可以设置宽高尺寸,而Forge通过进度条拉取实现,但Forge只提供到2048*2048的尺寸,Comfyui可以设置更大(取决于你的电脑GPU能不能跑得动)。Comfyui的Clip文本编码器对应Forge的正、负面提示词,但Clip文本编码器又由于第三方插件的原因,有些集成了正负面提示词,内置的是不做区分的(如上图)。
现在,你已经了解了基础的知识,只需要将文本贴进去,然后点击就能生图了。
如果说想将固定的图改变风格、参考人物姿势,那就需要用到ControlNet(简称CN)。
CN初始面板
这个非常了不起的插件,也是敏神做的(我没记错的话)。它支持的样式如上图,但通常用的比较多的就是canny、lineart、openpose、softedge几个功能。除了openpose以外,其他的几个可以广泛用于各种提取线稿的场景。下图就是我用一个非常简单的工作流提取到的线稿,基本上每张图的细节都能翻转成线稿了。
openpose通常用于人的姿势识别,可以利用姿势来生成不同风格的图。
以Forge为例,使用1.5的底模
(上:输出的结果;下:捕捉的人体骨骼姿势和面部表情)
可以看到,尽管是SD1.5的模型,但是手还是没有画崩的(可能是因为姿势没有很暴露手指)。而我只是输入了非常简单的提示词:1 man sitting.
CN的模型也是需要单独下的,遵循的规则和生图的底模一样,名称是配套的,如上图,我的openpose是sd1.5的,那么搭配的底模也必须是sd1.5,且后缀是openpose。以上文的名称拆解:CN模型–底模+适用场景,所以sd1.5_openpose表示这是一个使用sd1.5底模、且用于openpose控制的CN模型。
至此,你已经完全掌握了进阶的用法。至于高清放大之类的,也遵循必须下载单独模型的原则,它适用的场景主要是想要生成超过工具极限的大图或者显存实在撑不住,就使用先生成小图,再使用高清放大将图片高清化。
当然Forge还有很好的功能:layerdiffuse可以用于生成透明底的图片,我曾经用来做图标、内置SVD,只需要下载SVD大模型就可以本地跑视频且比较丝滑。(但新版本都已经移除,可以下载旧版本使用)。
怎么升级?只需要在根目录调出cmd然后输入git pull,就能升级。当然之前我也到官方页面询问了各位大神怎么升级,最后也得到了答案,不懂的可以尝试去官方页面问一问。
最后,祝大家玩得快乐!近期摸索在老一点的Mac上跑本地生图工具。
这份完整版的comfyui整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】