Datawhale X 魔搭 AI夏令营 AIGC方向 Task3

标签：编码器 Task3 AI 模型 AIGC 图像文本 LoRA 节点

ComfyUI简介

ComfyUI是一个基于节点工作流稳定扩散算法的图形界面，它通过将稳定扩散的流程巧妙分解成各个节点，成功实现了工作流的精准定制和可靠复现。

基本概念

节点工作流：
ComfyUI的核心是基于节点式的工作流程，这种设计允许用户将复杂的稳定扩散过程分解为多个可独立操作的节点，通过连接这些节点来构建和执行工作流。

每个节点代表一个特定的处理步骤，如加载模型、文本编码、图像采样、解码等，节点之间通过数据流相互连接，形成一个完整的处理链。

稳定扩散（Stable Diffusion）：
稳定扩散是一种文本到图像的人工神经网络模型，能够理解用户输入的文本描述并生成相应的图像。ComfyUI作为这一模型的图形界面，使得非专业人士也能方便地使用这一技术。

图形界面（GUI）：
ComfyUI提供了一个直观易用的图形界面，用户无需编写复杂的代码，只需通过拖拽节点、设置参数等操作即可完成图像生成任务。

组成结构

主要节点类型：
加载节点（Load Checkpoint）：用于加载稳定扩散模型和其他必要的组件，如CLIP模型和VAE模型。
文本编码节点（CLIP Text Encode）：将用户输入的文本提示词编码成模型可理解的格式，作为图像生成的指导。
采样节点（KSampler）：在潜在空间中生成图像，通过逐步降噪的过程将随机噪声转化为与文本提示匹配的图像。
解码节点（VAE Decode）：将潜在空间中的图像解码回像素空间，生成最终的RGB图像。
辅助节点：
除了上述主要节点外，ComfyUI还提供了多种辅助节点，如用于调整图像大小的放大节点、用于加载LoRA的节点等，以满足用户的不同需求。

工作流定制：
用户可以根据自己的需求，通过连接不同的节点来定制工作流。例如，可以先通过加载节点加载模型，然后通过文本编码节点输入提示词，再通过采样节点生成图像，最后通过解码节点得到最终图像。

ComfyUI还支持用户保存和分享自己的工作流，方便其他用户复用和修改。

高度定制性和灵活性：
ComfyUI提供了高度的定制性和灵活性，用户可以通过调整节点的参数和连接方式来实现不同的图像生成效果。

同时，由于其基于节点的工作流设计，ComfyUI还具有较高的可扩展性，可以方便地集成新的节点和功能。

下面是教程里面给出的ComfyUI的基本构成：

通过选择模型、构建工作流、执行生成与调整参数优化等步骤以后就可以生成想要的图像了，下面是根据Task3的教程生成不带LoRA的脚本的结果：

LoRA参数优化与参数解析

LoRA（Low-Rank Adaptation）是一种高效且轻量级的模型微调技术，尤其适用于大型预训练模型。它的主要目的是通过在模型中引入少量额外的可训练参数来适应新的任务，而不需要对整个模型进行微调。这样既能保持原始模型的强大表示能力，又能有效减少存储和计算资源的需求。

LoRA的工作原理

基础架构:
- 假设有一个预训练好的模型，比如一个大型的Transformer模型。
- 该模型由一系列的层组成，每一层通常包括线性变换（如全连接层）和其他组件（如注意力机制）。
低秩分解:
- LoRA利用低秩分解的思想，将模型中的每个线性变换层的权重矩阵( W )近似为两个较小矩阵( A )和( B )的乘积形式，即( W \approx AB )，其中( A )和( B )的形状设计使得它们的乘积具有较低的秩。
- 这种分解允许我们用较少的参数来逼近原有的权重矩阵的变化。
参数化更新:
- 在LoRA中，并不直接修改原始模型的权重，而是引入一组额外的可训练矩阵( A )和( B )来模拟权重更新。
- 实际上，对于每一个线性层，LoRA会添加一个( A )矩阵和一个( B )矩阵，并将原始的线性变换更新为( W + BA )，其中( W )是预训练的权重矩阵。
微调过程:
- 在微调阶段，只有新增加的( A )和( B )矩阵会被优化以适应特定任务，而原始模型的权重保持不变。
- 由于( A )和( B )矩阵的大小远小于原始权重矩阵，这种方法大大减少了需要训练的参数数量，从而降低了内存和计算成本。
优势:
- 轻量化：LoRA只需要很少的额外参数就能实现有效的微调。
- 灵活性：可以在不同的任务之间快速切换，而无需重新训练整个模型。
- 可组合性：多个LoRA模块可以叠加使用，以便于处理更复杂或多元化的任务需求。
应用场景:
- LoRA非常适合用于迁移学习场景，特别是在资源有限的情况下，需要对大规模语言模型进行个性化调整。

总结

LoRA通过引入低秩分解的概念，在不改变原模型结构的前提下实现了高效的模型适应，特别适合于大模型的快速微调。这种方法不仅能够保持模型原有的泛化能力，还能够在新任务上获得良好的性能表现。
这里记录一下Task2的微调代码以及它们各自对应的含义：

import os
cmd = """
python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \ # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py
  --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \ # 选择unet模型
  --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \ # 选择text_encoder
  --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \ # 选择vae模型
  --lora_rank 16 \ # lora_rank 16 表示在权衡模型表达能力和训练效率时，选择了使用 16 作为秩，适合在不显著降低模型性能的前提下，通过 LoRA 减少计算和内存的需求
  --lora_alpha 4.0 \ # 设置 LoRA 的 alpha 值，影响调整的强度
  --dataset_path data/lora_dataset_processed \ # 指定数据集路径，用于训练模型
  --output_path ./models \ # 指定输出路径，用于保存模型
  --max_epochs 1 \ # 设置最大训练轮数为 1
  --center_crop \ # 启用中心裁剪，这通常用于图像预处理
  --use_gradient_checkpointing \ # 启用梯度检查点技术，以节省内存
  --precision "16-mixed" # 指定训练时的精度为混合 16 位精度（half precision），这可以加速训练并减少显存使用
""".strip()
os.system(cmd) # 执行可图Lora训练


参数名称	参数值	说明
`pretrained_unet_path`	models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors	指定预训练UNet模型的路径
`pretrained_text_encoder_path`	models/kolors/Kolors/text_encoder	指定预训练文本编码器的路径
`pretrained_fp16_vae_path`	models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors	指定预训练VAE模型的路径
`lora_rank`	16	设置LoRA的秩（rank），影响模型的复杂度和性能
`lora_alpha`	4	设置LoRA的alpha值，控制微调的强度
`dataset_path`	data/lora_dataset_processed	指定用于训练的数据集路径
`output_path`	./models	指定训练完成后保存模型的路径
`max_epochs`	1	设置最大训练轮数为1
`center_crop`		启用中心裁剪，用于图像预处理
`use_gradient_checkpointing`		启用梯度检查点，节省显存
`precision`	"16-mixed"	设置训练时的精度为混合16位精度（half precision）

解释一下其中的几个概念：

VAE

VAE（Variational Autoencoder，变分自编码器）是一种生成式模型，它结合了自编码器（Autoencoder）和概率图模型的优点，主要用于无监督学习和生成数据。VAE 能够学习数据的潜在表示，并从中采样以生成新的数据实例。下面详细介绍 VAE 的工作原理和组成部分。

自编码器（Autoencoder）

自编码器是一种无监督学习方法，通常用于降维、特征学习和生成模型。一个基本的自编码器包含两部分：

编码器（Encoder）：将输入数据映射到一个低维的潜在空间（latent space）。
解码器（Decoder）：从潜在空间重构出原始数据。

自编码器的目标是最小化重构误差，即原始输入与重构输出之间的差异。

变分自编码器（VAE）

变分自编码器是一种特殊的自编码器，它在编码过程中加入了一些额外的约束条件，以确保潜在空间遵循某种先验分布（通常是高斯分布）。这有助于生成新的样本，并使潜在空间更加平滑和有意义。

VAE 的组成部分

编码器:
- 输入是原始数据 (x)。
- 输出是一个概率分布的参数，通常是均值 (μ) 和标准差 (σ)，这些参数定义了一个关于潜在变量 (z) 的高斯分布 (q(z|x))。
解码器:
- 输入是从编码器得到的概率分布中采样的潜在变量 (z)。
- 输出是重建的数据 (x')，目标是使 (x') 尽可能接近原始输入 (x)。
- 解码器同样输出一个概率分布，通常也是高斯分布，用于描述重建数据的概率。

训练过程

采样:
- 给定输入 (x)，编码器输出一个关于 (z) 的高斯分布 (q(z|x))。
- 从这个分布中采样得到 (z)。
重构:
- 使用 (z) 作为输入，通过解码器得到重建数据的概率分布 (p(x|z))。
损失函数:
- 重构损失（Reconstruction Loss）: 衡量原始输入 (x) 与重建输出 (x') 之间的差异。
- 正则化项（Regularization Term）: 保证潜在变量 (z) 的分布尽可能接近预设的先验分布（通常是标准正态分布 (N(0, I))）。
损失函数通常表示为：

其中 (D_{KL}) 是 Kullback-Leibler 散度，用来衡量两个概率分布之间的差异。

应用

生成样本：通过从先验分布中采样 (z) 并通过解码器生成新的数据实例。
异常检测：根据重构误差识别异常数据点。
数据增强：生成与训练集相似的新样本以增强模型的泛化能力。
半监督学习：利用未标记数据进行特征学习。

总结

VAE 通过在自编码器的基础上增加变分推断的元素，不仅能够有效地学习数据的潜在表示，还能用于生成新的数据样本。这种模型在许多领域都有广泛的应用，包括图像生成、文本生成和推荐系统等。

UNet

UNet 是一种卷积神经网络架构，特别设计用于生物医学图像分割任务，但它的应用已经扩展到了更广泛的领域，如自然图像分割和其他计算机视觉任务。UNet 最初由 Olaf Ronneberger、Philipp Fischer 和 Thomas Brox 在 2015 年提出，并在 MICCAI（Medical Image Computing and Computer Assisted Intervention）会议上发表。

UNet 架构概述

UNet 采用了编码器-解码器结构，其中包含一个收缩路径（编码器）和一个扩展路径（解码器），这两部分共同构成了一个 U 形结构，这也是其名字“UNet”的由来。

缩减路径（编码器）

功能：该路径负责捕获上下文信息。
组成：通常由多个卷积层和最大池化层组成。
操作：每个阶段通常包含两个连续的 3×3 卷积层，后面跟着一个 2×2 的最大池化操作，用于下采样数据并减少空间维度。

扩展路径（解码器）

功能：该路径负责利用学习到的上下文信息来进行精确定位。
组成：通常由上采样操作（双线性插值或转置卷积）和卷积层组成。
操作：每个阶段开始于上采样操作，然后是两个 3×3 的卷积层。每个阶段还包含了来自缩减路径的相应层的特征映射的连接（concatenation），以便恢复丢失的空间细节。

特征映射连接

目的：保留边缘和其他重要的位置信息。
操作：在每个解码阶段开始之前，从相应的编码阶段复制特征映射，并与上采样后的特征映射进行连接。

UNet 的特点

跳跃连接（Skip Connections）：这是 UNet 的关键特性之一，它允许解码器直接访问编码器中的特征图，从而有助于恢复丢失的空间信息，提高分割精度。
对称结构：U 形结构意味着解码器部分与编码器部分具有相同的层次深度，每一对编码器-解码器层之间都通过跳跃连接相连接。
端到端训练：整个网络可以使用标准的监督学习方法进行端到端训练，使用交叉熵损失函数或其他适合分割任务的损失函数。
输入大小灵活：尽管最初的 UNet 架构使用固定大小的输入图像，但后来的变体允许任意大小的输入图像。

应用场景

生物医学图像分割：如细胞、组织和器官的分割。
自然图像分割：如道路、建筑、行人等对象的分割。
其他领域：如遥感图像分析、自动驾驶车辆中的障碍物检测等。

总结

UNet 是一种非常有效的图像分割网络，它通过结合编码器和解码器的结构以及跳跃连接，能够在保持计算效率的同时实现高质量的分割效果。由于其强大的性能和灵活性，UNet 成为了图像分割任务的一个重要基准，并启发了许多后续的研究和发展。

文本编码器

Stable Diffusion 是一个用于文本到图像生成的深度学习模型，它基于扩散模型（diffusion models）的框架。Stable Diffusion 的核心在于将文本描述转换成对应的图像，这一过程涉及到多个组件，其中包括一个文本编码器。下面详细解释 Stable Diffusion 中的文本编码器的作用及其工作原理。

文本编码器的作用

文本编码器的主要任务是将输入的文本描述转换成一个向量表示，这个向量表示捕捉了文本的语义信息，并将被用来指导图像生成过程。在这个过程中，文本编码器起到了桥梁的作用，它将非结构化的文本数据转化为结构化的向量表示，从而使模型能够理解和生成相应的图像。

文本编码器的工作原理

输入: 文本编码器接受一段文本描述作为输入。这段文本可以是对要生成的图像的简短描述，例如：“一只穿着宇航服的小猫站在月球表面”。
嵌入层:
- 文本首先通过一个嵌入层，将每个词汇映射到一个高维向量空间。这一步骤将文本中的词汇转换为数值形式，便于进一步处理。
编码器网络:
- 文本嵌入之后，它们通过一个编码器网络。在 Stable Diffusion 中，常用的编码器是 Transformer 编码器，它能够捕获文本中的长期依赖关系。
- Transformer 编码器通过多头自注意力机制（Multi-Head Self-Attention）和前馈神经网络（Feed Forward Network）来处理序列数据，从而提取出文本的深层特征表示。
输出: 文本编码器的输出是一个固定长度的向量，这个向量包含了输入文本的语义信息。这个向量随后会被传递给扩散模型的其余部分，用于指导图像生成的过程。

Stable Diffusion 中的文本编码器

在 Stable Diffusion 模型中，文本编码器通常是一个预训练的 Transformer 编码器，如 CLIP（Contrastive Language-Image Pre-training）的文本编码器部分。CLIP 是一个预先训练的模型，它能够同时理解图像和文本，并且已经在大量图像-文本对上进行了预训练，因此它能够有效地将文本转换为与图像相关的向量表示。

总结

在 Stable Diffusion 模型中，文本编码器扮演着至关重要的角色，它将文本描述转换为能够指导图像生成的向量表示。这个过程涉及将文本嵌入到向量空间中，并通过 Transformer 编码器提取高级特征。最终，这些特征将被用来引导扩散过程，逐步生成与文本描述相对应的图像。

标签：编码器,Task3,AI,模型,AIGC,图像,文本,LoRA,节点
From： https://www.cnblogs.com/qaz961501/p/18364421