#Datawhale AI夏令营第4期#AIGC 文生图 Task1

时间：2024-08-11 23:25:50浏览次数：14

标签：Task1 训练文生模型生成 AI 图像 LoRA

1.赛题解读

这是Datawhale AI夏令营第4期AIGC方向的学习，这次的赛题任务是：基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。

赛题内容

参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性
样例：偶像少女养成日记

2.AIGC文生图知识介绍

文生图（Text-to-Image Generation）的历史可以追溯到人工智能领域开始尝试使用深度学习技术来生成图像。

早期探索：GAN（生成对抗网络）的提出标志着生成模型的一个重大突破。它由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器的任务是生成看起来真实的图像，而判别器的任务是区分真实图像和生成图像。

发展阶段：随着技术的成熟和进步，出现了更多的GAN的变体，并结合了注意力机制，提高了文本到图像生成的质量。

重要突破：基于Transformer架构的模型，如DALL·E，展示了生成复杂图像的能力，并且可以处理非常具体的指令。DALL·E 2引入了改进的技术，如扩散模型（Diffusion Models），这些模型可以产生更精细和更真实的图像。

当前现状：文生图技术继续快速发展。新的模型和技术不断出现，如Stable Diffusion、Midjourney等，它们不仅提高了图像的质量，还增强了生成图像的多样性。

目前文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词（Prompt）对于文本到图像生成模型如 Stable Diffusion 至关重要，因为它们指导模型生成什么样的图像。提示词包括正向提示词（Positive Prompts）和反向提示词（Negative Prompts）。

LoRA即Low-Rank Adaptation（低秩适应），这是一种用于微调预训练模型的轻量级方法。

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。

3.baseline代码解读

baseline还是比较简单的，我们跟着baseline的思路快速的过一下。

导入库：首先，代码导入了需要用到的库，包括 data-juicer 和微调的工具 DiffSynth-Studio。DataJuicer 是一个开源的大规模数据清洗框架，旨在帮助研究人员和工程师高效地清洗和优化大规模数据集。DiffSynth-Studio：高效微调训练大模型工具。
数据集构建：下载数据集kolors，处理数据集。使用Data-Juicer处理数据，整理训练数据文件。
模型微调：模型微调训练，以及加载训练后的模型。使用DiffSynth-Studio在基础模型上，使用前面整理好的数据文件进行训练微调。
图片生成：调用训练好的模型用户指定的prompt提示词的图片。

4.小结

修改了一下baseline的提示词，最终生成了如下图片。水墨画风格。图片展示如下：

至此，初级阶段，AIGC文生图的入门就完成了，期待后续进一步精读代码，学会熟练应用。

喜欢的小伙伴，点赞收藏关注吧。

标签：Task1,训练,文生,模型,生成,AI,图像,LoRA
From： https://blog.csdn.net/fzyz123/article/details/141103817

Datawhale x魔搭AI夏令营:AIGC文生图
学习链接：Datawhale什么是LoRA？Stablediffusion提供了中的Lora(LoRA)模型是一种轻量级的微调方法，即“Low-RankAdaptation”（低秩适应）。LoRA也不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在StableDiffusion模型的应用中，LoRA被用作一种插件，允......
AI Python for Beginners-Andrew吴恩达-study notes（2）
1Introduction itisbelievedthatwiththehelpofAIchatbotwecanlearnpythonmoreeasilyanditwillbeamazingtoautomatetasksusingPython2 CompletingatasklistwithAI2.1List①listisasinglevariableoftype thatholdsm......
LangChain 安全特性全解析与实践指南
LangChain安全特性全解析与实践指南引言在人工智能的浪潮中，LangChain以其卓越的能力，成为开发大型语言模型（LLM）应用程序的佼佼者。然而，随着技术的发展，安全问题逐渐浮出水面。本文将深入探讨LangChain的安全特性，并提供详细的代码示例和最佳实践，以确保开发者能够在保障安全......
D - Square Pair
原题链接题解多想几种暴力1.遍历所有数对：\(O(n^2)\)2.求有多少数对其乘积为平方数\(\to\)求有多少平方数能被数对乘积：\(O(n^2)\)3.如果两个数的乘积为平方数，代表他们的质因数，要么都是奇数，要么都是偶数:\(O(?)\)4.如果\(a\timesb\)是完全平方数，代表\(a\timesb\)......
解密AI的未来：决策式AI与生成式AI的深度解析
在当今科技飞速发展的时代，人工智能（AI）已成为各行各业的热议话题。尤其是决策式AI和生成式AI，这两种技术各具特色，却又相辅相成。本文将深入探讨这两种AI的定义、应用及其未来发展趋势，带你一探究竟！一、什么是决策式AI？决策式AI是指能够通过分析数据和信息，帮助用户做出明智决策的人......
洛谷 P1560 [USACO5.2]蜗牛的旅行Snail Trails（c++）
describe蜗牛在制定今天的旅游计划，有n个景点可选，它已经把这些景点按照顺路游览的顺序排成一排了，每个地方有相应的景观，这里用一个整数表示。蜗牛希望选取连续的一段景点，还要选出来的每一个景点的景观都不同，问它最多能选出多少个景点进行旅游。#include<iostream>#inc......
DataWhale-2024夏令营第四期-从零入门AI生图原理&实践-学习笔记
DataWhale-2024夏令营第四期-从零入门AI生图原理&实践-学习笔记Datawhale(linklearner.com)学习链接AI生图基础知识一、文生图(Text-to-ImageGeneration)历史随着深度学习的发展，近些年来越来越多的AI生图效果通过大语言模型得到了一定的提升。文生图的历史：文生图的概念最......
Windows平台Hyper-V下使用iKuai作为主路由实现网口桥接
Windows平台Hyper-V下使用iKuai作为主路由实现网口桥接问题背景在使用iKuai作为主路由时，可能会遇到后添加的虚拟端口下的设备无法联网的问题，这可能是iKuai的一个bug。解决方案以下是解决Windows平台Hyper-V下iKuai主路由网口桥接问题的步骤：确定主要网卡：观察并确定网桥使用的......
解决pip无法更新问题的简单方法：WARNING: You are using pip version 20.2.1; however,
用pip安装python应用的程序包时，也遇到了同样的问题，pip无法正常更新，因此就不能用pip下载安装程序包了。需要必须把pip更新到最新的状态后，才能使用pip的便捷功能。当时网上搜搜答案解决了，没有记录下来。今天使用pip使，又遇到了同样的问题，依然是网上一顿搜，试了各种方法，才成功安装好了......
从英特尔错失AI机遇看未来生活的启示与行动指南
题目：从英特尔错失AI机遇看未来生活的启示与行动指南引言在科技日新月异的今天，每一个决策都可能成为影响企业乃至整个行业走向的关键。英特尔错失投资OpenAI的机遇，不仅揭示了企业在面对新兴技术时的战略短视，也为我们的生活和工作带来了深刻的启示。本文旨在探讨这一事件背后的......