首页 > 其他分享 >Datawhale X 魔搭 AI夏令营 第四期魔搭-AIGC文生图方向Task3笔记

Datawhale X 魔搭 AI夏令营 第四期魔搭-AIGC文生图方向Task3笔记

时间:2024-08-15 15:25:52浏览次数:8  
标签:Task3 文生 ComfyUI 模型 生成 AI 图像 文本 数据

工具初探一ComfyUI应用场景探索

ComfyUI剖析视频:1 万字系统剖析ComfyUI | Stable Diffusion:GUI全盘点 

 ComfyUI应用场景视频:ComfyUI应用场景探索

官方Github链接:GitHub - ComfyUI

官方应用的示例:ComfyUI Examples 

工作流分享网站:Comfy Workflows

在魔搭使用ComfyUI:在魔搭使用ComfyUI,玩转AIGC!

        1、初识ComfyUI

        ComfyUI 是GUI的一种,是基于节点工作的用户界面,主要用于操作图像的生成技术,ComfyUI 的特别之处在于它采用了一种模块化的设计,把图像生成的过程分解成了许多小的步骤,每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程,这样用户就可以根据需要定制自己的图像生成过程。 

        使用 ComfyUI 最主要的原因是其对 SDXL 的优化更好,跑图的显存占用更低,速度更快。ComfyUI紧密遵循 SD 的工作原理,并且代码比其他 SD UI 更容易理解。

(1)核心模块 

        ComfyUI的核心模块模型加载器(加载基础的模型文件)、提示词管理器(将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入)、采样器(调节生成过程的速度和质量之间的平衡)、解码器(将latent space中的embedding解码为像素级别的图像)构成。 

采样(多次)—>降噪—> Stable Diffusion框架运行

采样的系数在KSampler中配置:

  • seed:控制噪声产生的随机种子

  • control_after_generate:控制seed在每次生成后的变化

  • steps:降噪的迭代步数,越多则信号越精准,相对的生成时间也越长

  • cfg(classifier free guidance):决定了prompt对于最终生成图像的影响有多大。更高的值代表更多地展现prompt中的描述。

  • denoise: 多少内容会被噪声覆盖

  • sampler_name、scheduler:降噪参数。

(2)生成图片流程

        选择模型(如Stable Diffusion模型等文生图模型)—> 构建工作流(形成完整流程并修改参数)—>执行生成—>调整与优化

(3)优点

  • 占用显存更少。与传统的 WebUI 相比同等大小的显存 ComfyUI 可以出更大的图,尤其现在比较小的显存用 WebUI 玩 SDXL 难度太大。这应该是目前 ComfyUI 迎来第二春的主要原因。
  • 应用上限高,效率也高。ComfyUI 更适合复杂长线的大型工作,可以把传统 WebUI 需要多步操作的流程整合在一个流程里面。
  • 工作流可快速复用。ComfyUI 可以把使用过的工作流保存下来,下次使用相同的流程可以直接加载复用。

 (4)缺点

        相对于传统的 WebUI 主要劣势是上手难度有些高,ComfyUI 插件现在还是没有 WebUI 多。


参考资料:【ComfyUI】AI绘图工作流,抽卡者的福音,低显存就选她 

        2、20分钟速通安装ComfyUI

 (1)下载脚本代码文件

(2) 一键运行

(感觉运行时间有点久)

(3)当执行到最后一个节点的内容输出了一个访问的链接的时候,复制链接到浏览器中访问

(注意:这一步不是要等这个代码块都运行完,而是出现

This is the URL to access ComfyUI:xxxxxxxxxx

时,点击后面的xxxxxxxxxx链接直接进入即可)

(进行完这一步也还没有生成图片噢) 

        3、浅尝ComfyUI工作流

需要下载工作流脚本加载到刚刚安装的comfyUI上

 (1)不带Lora的工作流示例

(2)带Lora的工作流示例

点开图片—>右键—>点击save image,即可保存图片 

最后生成的图片如下:

Lora微调

学习视频:通俗易懂理解全量微调和LoRA微调 

        1、Lora简介

         LoRa微调是指对LoRa(Long Range)技术进行优化和调整,以适应特定的应用场景。

        LoRa技术特点包括长距离通信和低功耗,适用于远距离物联网应用如农业监测、智能城市等。LoRa微调着重于提高其性能,如在LoRA-drop中层的适配器可被完全训练或根本不被训练,同时AdaLoRA方法可以根据不同适配器决定具有不同的秩。

Lora微调的优势:快速适应新任务,保持泛化能力,提升资源效率 

        2、Lora详解 

参数含义详见Task1笔记:Datawhale X 魔搭 AI夏令营 第四期魔搭-AIGC文生图方向Task1笔记

UNet、VAE和文本编码器的协作关系

  • UNet:负责根据输入的噪声和文本条件生成图像。在Stable Diffusion模型中,UNet接收由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入,并预测去噪后的噪声,从而生成与文本描述相符的图像

  • VAE:生成模型,用于将输入数据映射到潜在空间,并从中采样以生成新图像。在Stable Diffusion中,VAE编码器首先生成带有噪声的潜在表示,这些表示随后与文本条件一起输入到UNet中

  • 文本编码器:将文本输入转换为模型可以理解的向量表示。在Stable Diffusion模型中,文本编码器使用CLIP模型将文本提示转换为向量,这些向量与VAE生成的噪声一起输入到UNet中,指导图像的生成过程

如何准备一个高质量的数据集

我们应该关注:应用场景、数据类型和数据量 

数据集来源整理

公开的数据平台

        魔搭社区内开放了近3000个数据集,涉及文本、图像、音频、视频和多模态等多种场景,左侧有标签栏帮助快速导览,大家可以看看有没有自己需要的数据集。

其他数据平台推荐:

  • ImageNet:包含数百万张图片,广泛用于分类任务,也可以用于生成任务。

  • Open Images:由Google维护,包含数千万张带有标签的图片。

  • Flickr:特别是Flickr30kK和Flickr8K数据集,常用于图像描述任务。

  • CelebA:专注于人脸图像的数据集。

  • LSUN (Large-scale Scene Understanding):包含各种场景类别的大规模数据集。

使用API或爬虫获取

  • 如果需要特定类型的内容,可以利用API从图库网站抓取图片,如Unsplash、Pexels等。

  • 使用网络爬虫技术从互联网上抓取图片,但需要注意版权问题。

数据合成

        利用现有的图形引擎(如Unity、Unreal Engine)或特定软件生成合成数据,这在训练某些类型的模型时非常有用。

参考资料:从零入门多模态大模型数据合成

数据增强

对于较小的数据集,可以通过旋转、翻转、缩放、颜色变换等方式进行数据增强。

购买或定制

特定领域的应用,比如医学影像、卫星图像等,建议从靠谱的渠道购买一些数据集

标签:Task3,文生,ComfyUI,模型,生成,AI,图像,文本,数据
From: https://blog.csdn.net/qq_74869852/article/details/141101700

相关文章

  • AI Agent工程师认证-学习笔记(2)——【多Agent】AgentScope
    基础学习链接:【多Agent】AgentScope学习指南速通攻略:零基础做个多智能体游戏Agentscope入门文档:AgentScope初探应用开发进阶:AgentScope应用开发入门AgentScope官方文档:AgentScope官方文档AgentScope开源仓库(觉得不错,Star一下):AgentScope视频课程合集:从零开始学多智能体应......
  • linux 同时tail 多个文件并过滤多个关键字
    多个文件  过滤多个关键字或的关系tail-fcdc-adapter/err_cdc-adapter.logcdc-admin/err_cdc-adapter.logcdc-dpm/err_cdc-dpm.logcdc-extractor/err_cdc-extractor.log|grep-E'.log|ERROR'==>cdc-adapter/err_cdc-adapter.log<==[2024-08-1514:59:25.905......
  • 【AiDocZh.com】Scikit-Learn1.6官方文档中文翻译上线啦
    【AiDocZh.com】Scikit-Learn1.6官方文档中文翻译上线啦网站地址:http://www.aidoczh.com/scikit-learn/一、scikit-learn官方文档翻译自从有了想翻译scikit-learn官方文档的想法,已经有了半年时间,现在终于翻译和校验完了。由于精力有限,难免会有一些错误,请大家见谅。scikit......
  • 【学术会议征稿】第三届人工智能、物联网和云计算技术国际会议(AIoTC 2024)
    第三届人工智能、物联网和云计算技术国际会议(AIoTC2024)20243rd InternationalConferenceonArtificialIntelligence,InternetofThingsandCloudComputingTechnology第三届人工智能、物联网与云计算技术国际会议(AIoTC2024)将于2024年9月13日-15日在中国武汉举行......
  • 你要了解的2种AI思维链
    我们使用的AI助手,一般是经过了预训练和微调这2个步骤,尽管训练出的模型能回答许多通用类问题,但是在遇到复杂问题时还是束手无策。直到有人提出了思维链方式,才解决了模型在面对复杂问题时的推理能力。1、什么是思维链思维链(ChainofThought,CoT)是用于提高AI模型推理能力的方式......
  • 容器引擎说明——Contianerd与Docker的区别以及Containerd换源操作
    容器引擎是Kubernetes最重要的组件之一,负责管理镜像和容器的生命周期。Kubelet通过ContainerRuntimeInterface(CRI)与容器引擎交互,以管理镜像和容器。表1容器引擎对比Containerd和Docker组件常用命令对比表2镜像相关功能表3容器相关功能表4Pod相关功能说明:Cont......
  • SLF4J: Class path contains multiple SLF4J bindings. 运行报错 表示在您的应用程序
    java使用SLF4J时出现下面的错误,是因为项目中使用了多个SLF4J的类库SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/D:/%e5%bd%93%e5%89%8d%e5%b7%a5%e4%bd%9c/SipPBX%e8%ae%af%e6%97%b6/JoinCallOMCC/JoinCallOMCC/out/artifacts/......
  • 为您的网站或博客添加AI:智能优化提升用户体验
    前提一个网站或者一个博客可以下载插件安装插件插件部署创建工具把插件安装到WordPress并启用。填写回调密钥,回调密钥是随便写的,主要用于认证。到LeaflowAmber中点击左侧菜单中的登录来登录LeaflowUserLand账户。登录后点击左侧 工具,然后 新建一个工具,工具名称你可......
  • Android笔试面试题AI答之Kotlin(6)
    文章目录24.以下代码执行的结果是什么?25.解释一下下述Kotlin代码有什么问题?26.如何在Kotlin中创建常量?示例注意事项总结27.Koltin可以互换使用IntArray和Kotlin中的Array吗?IntArrayArray<Int>互换使用从IntArray到Array<Int>从Array<Int>到IntArra......
  • 新工种,AI商业化变现思路
    本文由ChatMoney团队出品AI变现,你我都能成为创收高手!不必是科技大咖,也无需深厚背景,让我们一起探索Chatmoney全能知识库AI的奥秘,轻松步入收益之门!想象一下,你的智慧和创意通过ChatmoneyAI技术转化为可观的收益,这一切并非遥不可及。现在,就让我们揭开ChatmoneyAI变现的神秘面......