工具初探一ComfyUI应用场景探索
ComfyUI剖析视频:1 万字系统剖析ComfyUI | Stable Diffusion:GUI全盘点
ComfyUI应用场景视频:ComfyUI应用场景探索
官方Github链接:GitHub - ComfyUI
官方应用的示例:ComfyUI Examples
工作流分享网站:Comfy Workflows
在魔搭使用ComfyUI:在魔搭使用ComfyUI,玩转AIGC!
1、初识ComfyUI
ComfyUI 是GUI的一种,是基于节点工作的用户界面,主要用于操作图像的生成技术,ComfyUI 的特别之处在于它采用了一种模块化的设计,把图像生成的过程分解成了许多小的步骤,每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程,这样用户就可以根据需要定制自己的图像生成过程。
使用 ComfyUI 最主要的原因是其对 SDXL 的优化更好,跑图的显存占用更低,速度更快。ComfyUI紧密遵循 SD 的工作原理,并且代码比其他 SD UI 更容易理解。
(1)核心模块
ComfyUI的核心模块由模型加载器(加载基础的模型文件)、提示词管理器(将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入)、采样器(调节生成过程的速度和质量之间的平衡)、解码器(将latent space中的embedding解码为像素级别的图像)构成。
采样(多次)—>降噪—> Stable Diffusion框架运行
采样的系数在KSampler中配置:
seed:控制噪声产生的随机种子
control_after_generate:控制seed在每次生成后的变化
steps:降噪的迭代步数,越多则信号越精准,相对的生成时间也越长
cfg(classifier free guidance):决定了prompt对于最终生成图像的影响有多大。更高的值代表更多地展现prompt中的描述。
denoise: 多少内容会被噪声覆盖
sampler_name、scheduler:降噪参数。
(2)生成图片流程
选择模型(如Stable Diffusion模型等文生图模型)—> 构建工作流(形成完整流程并修改参数)—>执行生成—>调整与优化
(3)优点
- 占用显存更少。与传统的 WebUI 相比同等大小的显存 ComfyUI 可以出更大的图,尤其现在比较小的显存用 WebUI 玩 SDXL 难度太大。这应该是目前 ComfyUI 迎来第二春的主要原因。
- 应用上限高,效率也高。ComfyUI 更适合复杂长线的大型工作,可以把传统 WebUI 需要多步操作的流程整合在一个流程里面。
- 工作流可快速复用。ComfyUI 可以把使用过的工作流保存下来,下次使用相同的流程可以直接加载复用。
(4)缺点
相对于传统的 WebUI 主要劣势是上手难度有些高,ComfyUI 插件现在还是没有 WebUI 多。
参考资料:【ComfyUI】AI绘图工作流,抽卡者的福音,低显存就选她
2、20分钟速通安装ComfyUI
(1)下载脚本代码文件
(2) 一键运行
(感觉运行时间有点久)
(3)当执行到最后一个节点的内容输出了一个访问的链接的时候,复制链接到浏览器中访问
(注意:这一步不是要等这个代码块都运行完,而是出现
This is the URL to access ComfyUI:xxxxxxxxxx
时,点击后面的xxxxxxxxxx链接直接进入即可)
(进行完这一步也还没有生成图片噢)
3、浅尝ComfyUI工作流
需要下载工作流脚本加载到刚刚安装的comfyUI上
(1)不带Lora的工作流示例
(2)带Lora的工作流示例
点开图片—>右键—>点击save image,即可保存图片
最后生成的图片如下:
Lora微调
学习视频:通俗易懂理解全量微调和LoRA微调
1、Lora简介
LoRa微调是指对LoRa(Long Range)技术进行优化和调整,以适应特定的应用场景。
LoRa技术特点包括长距离通信和低功耗,适用于远距离物联网应用如农业监测、智能城市等。LoRa微调着重于提高其性能,如在LoRA-drop中层的适配器可被完全训练或根本不被训练,同时AdaLoRA方法可以根据不同适配器决定具有不同的秩。
Lora微调的优势:快速适应新任务,保持泛化能力,提升资源效率
2、Lora详解
参数含义详见Task1笔记:Datawhale X 魔搭 AI夏令营 第四期魔搭-AIGC文生图方向Task1笔记
UNet、VAE和文本编码器的协作关系
UNet:负责根据输入的噪声和文本条件生成图像。在Stable Diffusion模型中,UNet接收由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入,并预测去噪后的噪声,从而生成与文本描述相符的图像
VAE:生成模型,用于将输入数据映射到潜在空间,并从中采样以生成新图像。在Stable Diffusion中,VAE编码器首先生成带有噪声的潜在表示,这些表示随后与文本条件一起输入到UNet中
文本编码器:将文本输入转换为模型可以理解的向量表示。在Stable Diffusion模型中,文本编码器使用CLIP模型将文本提示转换为向量,这些向量与VAE生成的噪声一起输入到UNet中,指导图像的生成过程
如何准备一个高质量的数据集
我们应该关注:应用场景、数据类型和数据量
标签:Task3,文生,ComfyUI,模型,生成,AI,图像,文本,数据 From: https://blog.csdn.net/qq_74869852/article/details/141101700数据集来源整理
公开的数据平台
魔搭社区内开放了近3000个数据集,涉及文本、图像、音频、视频和多模态等多种场景,左侧有标签栏帮助快速导览,大家可以看看有没有自己需要的数据集。
其他数据平台推荐:
ImageNet:包含数百万张图片,广泛用于分类任务,也可以用于生成任务。
Open Images:由Google维护,包含数千万张带有标签的图片。
Flickr:特别是Flickr30kK和Flickr8K数据集,常用于图像描述任务。
CelebA:专注于人脸图像的数据集。
LSUN (Large-scale Scene Understanding):包含各种场景类别的大规模数据集。
使用API或爬虫获取
如果需要特定类型的内容,可以利用API从图库网站抓取图片,如Unsplash、Pexels等。
使用网络爬虫技术从互联网上抓取图片,但需要注意版权问题。
数据合成
利用现有的图形引擎(如Unity、Unreal Engine)或特定软件生成合成数据,这在训练某些类型的模型时非常有用。
参考资料:从零入门多模态大模型数据合成
数据增强
对于较小的数据集,可以通过旋转、翻转、缩放、颜色变换等方式进行数据增强。
购买或定制
特定领域的应用,比如医学影像、卫星图像等,建议从靠谱的渠道购买一些数据集