首页 > 其他分享 >comfyui

comfyui

时间:2024-12-15 22:31:03浏览次数:7  
标签:ComfyUI 提示 comfyui 模型 图像 生成 onnx

comfyui

配置和部署

硬件需求

GPU:4G显存nvidia显卡
CPU:intel 13代i5
内存:16G
硬盘:200G固态

下载

github:GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

官网:ComfyUI | Generate video, images, audio with AI

模型管理插件:https://github.com/ltdrdata/ComfyUI-Manager

组件透明化插件:easy use

基础模型

majicMIX realistic 麦橘写实 - v7 | Stable Diffusion Checkpoint | Civitai

基础模块含义

Load checkpoint

加载模型

CLIP模型

文本编码器 理解输入文字的含义
从这里输入正面、负面提示词,clip模型将提示词转化为特征向量
不同模型使用的clip模型也会有所差异

VAE变分自编码器

将clip中的特征向量编码图像为latent格式

或者将latent格式图片解码为图像

https://huggingface.co/akibanzu/animevae/blob/main/animevae.pt

https://huggingface.co/stabilityai/sd-vae-ft-mse-original/blob/main/vae-ft-mse-840000-ema-pruned.safetensors

lora模型

是Stable diffusion模型的一种微调方法,在不修改SD模型的前提下,利用少量数据训练出一种画风,实现更加细致的需求。

k采样器

latent:潜空间图像 生成图的一些参数(高、宽、批次大小)

随机种:生成图片的种子值

运行后的操作:生成图片之后对种子值的操作(增、减、不变

步数:数字越大,计算机运算时间越长 20-30即可

cfg:提示词引导系数,数字越大与提示词吻合度越高,5-8即可

以下两个参数可以理解为做菜时候的烹调方式:

采样器:选择dpmpp_2m或者dpmpp_2m_sde即可

调度器:一般选择karras

降噪:

文生图

提示词

当输入多个提示词的时候,会根据每个提示词不同的权重决定画面内容的优先级

比如:女孩权重为1、花园权重为0.8 则生成的图像会更注重女孩

给提示词加上括号可以调整提示词的权重,括号可以多个叠加

[] 代表0.9倍的权重 ————降低

() 代表1.1倍的权重 ————增加

{} 代表1.05倍数的权重

快捷键 选中提示词 contrl+上 增加权重 contrl+下 减少权重

用词组而不是句子生成的画面会更准确,推荐使用英文加英文分号的格式撰写提示词

提示词控制在75个之内效果最精准

推荐提示词(起手式):

能让生成的图片质量更高

正向:4k,masterpiece,high quality,high detail,best quality

(高清、大作)

反向:blur,text,low quality

(模糊、带文字)

提示词顺序

靠前的提示词权重较高

推荐顺序:画质/画风——画面主体——环境/场景/灯光/构图——lora

提示词融合

想要生成两个提示词融合的画面,可以使用以下方式

例如:想生成带猫耳朵的女孩, 则可以输入:

1gril AND cat 

或者

1gril_cat 

或者

[1girl|cat]

控制生成的时间段

{forest:1girl:0.3} 表示前30%的时间生成forest 后面的时间生成1girl

图生图

工作流程

1.输入的图片由vae编码为latent图片,并放入latent

2.采样器往latent图片添加噪声,通过改变降噪幅度可以控制噪声数量,0表示不添加任何,1表示添加全部(提示图像不产生作用)

3.u-net:采样器内的噪声预测器将潜空间图像和文字指令作为输入,传入到u-net,并预测出应减去的潜空间噪声张量,将此张量从噪声图片中减去,得到新的图像。 此流程会重复特定的次数(采样步数steps)

4.vae将降噪后的潜空间图像解码成像素空间的图像——结果

构建方式

image.png

降噪

0.3-0.5 较为安全的重绘区

0.5-0.7 给ai更多的想象空间

低于0.3 或高于0.7 图像可能发生扭曲变形

三重放大

todo

control net

用于指导图像生成

对于sd15版本的controlnet预处理器下载地址:
lllyasviel/ControlNet-v1-1 at main
comfyanonymous/ControlNet-v1-1_fp16_safetensors at main

从comfyui manager安装预处理器与自定义结点:

结点:

ComfyUI's ControlNet Auxiliary Preprocessors

ComfyUI-Advanced-ControlNet

canny

image.png

低阈值与低阈值:数值越低细节越多(与原始图像相似度变高),但高阈值不能低于低阈值

阈值太低的时候,会出现过拟合(图像变形) 一般低0.2 高0.8

soft edge

提取较为粗糙的图片结构,使生成图片效果好

image.png

line art

线稿上色

漫画线稿转绘使用line art anime

image.png

open pose

通过骨骼控制姿态

openpose 有身体、面部等5个大类
dw pose estimater 综合性强,只有一类包含面部、身体、手指,识别效果比openpose好

1.识别图像的姿势
image.png

2.通过pose node自定义姿势

安装结点:AlekPet/ComfyUI_Custom_Nodes_AlekPet
image.png

depth

深度预处理器 控制图像的空间关系

zoe depth anything 结点

image.png

总结

建筑重绘 soft edge +depth

人物 softedge + openpose + depth + ipadapter

tile

增强细节

原理:将图片分块处理,重采样后将每部分进行图生图,最后再将图像拼合

使用tile结点

purup_iters 迭代步数,数值越大处理后的图像越模糊,会导致最后生成的图像有更大的变化,2-4之间比较合适。
resousion 分辨率

image.png

IP-Adapter

实现人脸替换、材质迁移、风格迁移

manager-model manager-搜索ipadapter,下载以下模型:

ip-adapter_sd15.safetensors

ip-adapter-faceid-plusv2_sd15.bin

ip-adapter-faceid-plusv2_sdxl.bin

1k3d68.onnx

2d106det.onnx

det_10g.onnx

genderage.onnx

w600k_r50.onnx

ip-adapter-faceid-plusv2_sdxl_lora.safetensors

ip-adapter-faceid_sd15_lora.safetensors

CLIPVision* model (IP-Adapter) CLIP-ViT-H-14-laion2B-s32B-b79K

CLIPVision* model (IP-Adapter) CLIP-ViT-bigG-14-laion2B-39B-b160k

搜索antelopev2下载以下内容:

1k3d68.onnx

2d106det.onnx

genderage.onnx

glintr100.onnx

scrfd_10g_bnkps.onnx

下载以下自定义结点:

ComfyUI_IPAdapter_plus

使用方式

基础

image.png

生成卡通图像时使用animatevae.pt 会使图像颜色更鲜明

人脸提取

材质替换

image.png

image.png

image.png

image.png

comfyui

配置和部署

硬件需求

GPU:4G显存nvidia显卡
CPU:intel 13代i5
内存:16G
硬盘:200G固态

下载

github:GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

官网:ComfyUI | Generate video, images, audio with AI

模型管理插件:https://github.com/ltdrdata/ComfyUI-Manager

组件透明化插件:easy use

基础模型

majicMIX realistic 麦橘写实 - v7 | Stable Diffusion Checkpoint | Civitai

基础模块含义

Load checkpoint

加载模型

CLIP模型

文本编码器 理解输入文字的含义
从这里输入正面、负面提示词,clip模型将提示词转化为特征向量
不同模型使用的clip模型也会有所差异

VAE变分自编码器

将clip中的特征向量编码图像为latent格式

或者将latent格式图片解码为图像

https://huggingface.co/akibanzu/animevae/blob/main/animevae.pt

https://huggingface.co/stabilityai/sd-vae-ft-mse-original/blob/main/vae-ft-mse-840000-ema-pruned.safetensors

lora模型

是Stable diffusion模型的一种微调方法,在不修改SD模型的前提下,利用少量数据训练出一种画风,实现更加细致的需求。

k采样器

latent:潜空间图像 生成图的一些参数(高、宽、批次大小)

随机种:生成图片的种子值

运行后的操作:生成图片之后对种子值的操作(增、减、不变

步数:数字越大,计算机运算时间越长 20-30即可

cfg:提示词引导系数,数字越大与提示词吻合度越高,5-8即可

以下两个参数可以理解为做菜时候的烹调方式:

采样器:选择dpmpp_2m或者dpmpp_2m_sde即可

调度器:一般选择karras

降噪:

文生图

提示词

当输入多个提示词的时候,会根据每个提示词不同的权重决定画面内容的优先级

比如:女孩权重为1、花园权重为0.8 则生成的图像会更注重女孩

给提示词加上括号可以调整提示词的权重,括号可以多个叠加

[] 代表0.9倍的权重 ————降低

() 代表1.1倍的权重 ————增加

{} 代表1.05倍数的权重

快捷键 选中提示词 contrl+上 增加权重 contrl+下 减少权重

用词组而不是句子生成的画面会更准确,推荐使用英文加英文分号的格式撰写提示词

提示词控制在75个之内效果最精准

推荐提示词(起手式):

能让生成的图片质量更高

正向:4k,masterpiece,high quality,high detail,best quality

(高清、大作)

反向:blur,text,low quality

(模糊、带文字)

提示词顺序

靠前的提示词权重较高

推荐顺序:画质/画风——画面主体——环境/场景/灯光/构图——lora

提示词融合

想要生成两个提示词融合的画面,可以使用以下方式

例如:想生成带猫耳朵的女孩, 则可以输入:

1gril AND cat 

或者

1gril_cat 

或者

[1girl|cat]

控制生成的时间段

{forest:1girl:0.3} 表示前30%的时间生成forest 后面的时间生成1girl

图生图

工作流程

1.输入的图片由vae编码为latent图片,并放入latent

2.采样器往latent图片添加噪声,通过改变降噪幅度可以控制噪声数量,0表示不添加任何,1表示添加全部(提示图像不产生作用)

3.u-net:采样器内的噪声预测器将潜空间图像和文字指令作为输入,传入到u-net,并预测出应减去的潜空间噪声张量,将此张量从噪声图片中减去,得到新的图像。 此流程会重复特定的次数(采样步数steps)

4.vae将降噪后的潜空间图像解码成像素空间的图像——结果

构建方式

image.png

降噪

0.3-0.5 较为安全的重绘区

0.5-0.7 给ai更多的想象空间

低于0.3 或高于0.7 图像可能发生扭曲变形

三重放大

todo

control net

用于指导图像生成

对于sd15版本的controlnet预处理器下载地址:
lllyasviel/ControlNet-v1-1 at main
comfyanonymous/ControlNet-v1-1_fp16_safetensors at main

从comfyui manager安装预处理器与自定义结点:

结点:

ComfyUI's ControlNet Auxiliary Preprocessors

ComfyUI-Advanced-ControlNet

canny

image.png

低阈值与低阈值:数值越低细节越多(与原始图像相似度变高),但高阈值不能低于低阈值

阈值太低的时候,会出现过拟合(图像变形) 一般低0.2 高0.8

soft edge

提取较为粗糙的图片结构,使生成图片效果好

image.png

line art

线稿上色

漫画线稿转绘使用line art anime

image.png

open pose

通过骨骼控制姿态

openpose 有身体、面部等5个大类
dw pose estimater 综合性强,只有一类包含面部、身体、手指,识别效果比openpose好

1.识别图像的姿势
image.png

2.通过pose node自定义姿势

安装结点:AlekPet/ComfyUI_Custom_Nodes_AlekPet
image.png

depth

深度预处理器 控制图像的空间关系

zoe depth anything 结点

image.png

总结

建筑重绘 soft edge +depth

人物 softedge + openpose + depth + ipadapter

tile

增强细节

原理:将图片分块处理,重采样后将每部分进行图生图,最后再将图像拼合

使用tile结点

purup_iters 迭代步数,数值越大处理后的图像越模糊,会导致最后生成的图像有更大的变化,2-4之间比较合适。
resousion 分辨率

image.png

IP-Adapter

实现人脸替换、材质迁移、风格迁移

manager-model manager-搜索ipadapter,下载以下模型:

ip-adapter_sd15.safetensors

ip-adapter-faceid-plusv2_sd15.bin

ip-adapter-faceid-plusv2_sdxl.bin

1k3d68.onnx

2d106det.onnx

det_10g.onnx

genderage.onnx

w600k_r50.onnx

ip-adapter-faceid-plusv2_sdxl_lora.safetensors

ip-adapter-faceid_sd15_lora.safetensors

CLIPVision* model (IP-Adapter) CLIP-ViT-H-14-laion2B-s32B-b79K

CLIPVision* model (IP-Adapter) CLIP-ViT-bigG-14-laion2B-39B-b160k

搜索antelopev2下载以下内容:

1k3d68.onnx

2d106det.onnx

genderage.onnx

glintr100.onnx

scrfd_10g_bnkps.onnx

下载以下自定义结点:

ComfyUI_IPAdapter_plus

使用方式

基础

image.png

生成卡通图像时使用animatevae.pt 会使图像颜色更鲜明

人脸提取

材质替换

image

标签:ComfyUI,提示,comfyui,模型,图像,生成,onnx
From: https://www.cnblogs.com/skiinaurora/p/18608845

相关文章