“Datawhale x魔搭 AI夏令营”-AIGC方向-Day1从零入门AI生图原理&实践

时间：2024-08-11 23:27:57浏览次数：13

标签：生图 AI 模型微调 AIGC 文生 https 链接

学习内容提要：

从通过代码实现AI文生图逐渐进阶，教程偏重图像工作流、微调、图像优化等思路，最后会简单介绍AIGC应用方向、数字人技术（选学）

Task01:简单了解一下文生图相关的基础知识

具体Datawhale教程学习内容见链接：https://linklearner.com/activity/14/10/24

报名赛事

链接：https://tianchi.aliyun.com/competition/entrance/532254

基础知识

关于文生图技术研究的发展：

文生图基础知识：

提示词

提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

工具

python语言

Data-Juicer：数据处理和转换工具，旨在简化数据的提取、转换和加载过程

DiffSynth-Studio：高效微调训练大模型工具

实践步骤

Step0：开通阿里云PAI-DSW试用

链接：https://free.aliyun.com/?productCode=learn

在魔搭社区进行授权

Step1：报名赛事！(点击即可跳转)

赛事链接：https://tianchi.aliyun.com/competition/entrance/532254

> 链接：https://www.modelscope.cn/my/mynotebook/authorization

Step2：在魔搭社区创建PAI实例！

链接：https://www.modelscope.cn/my/mynotebook/authorization

Step3：30 分钟体验一站式 baseline！

下载baseline文件（大约需要2分钟）

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

进入文件夹，打开baseline文件
安装环境，然后重启kernel

安装 Data-Juicer 和 DiffSynth-Studio

运行代码

代码块按照功能主要分成这几类

使用Data-Juicer处理数据，整理训练数据文件
使用DiffSynth-Studio在基础模型上，使用前面整理好的数据文件进行训练微调
加载训练微调后的模型
使用微调后的模型，生成用户指定的prompt提示词的图片

最后结果：生成的图片还挺清晰的~

最喜欢这张

Step4：微调结果上传魔搭

链接：https://www.modelscope.cn/models/create

最后别忘了关掉PAI实例

写在最后

感觉挺有意思的，使用了阿里云的算力，魔塔社区跟阿里云合作，能够使用云端深度学习开发环境，Notebook功能由阿里云提供产品和资源支持。感觉是国内能对标Google colab的产品组合了。

标签：生图,AI,模型,微调,AIGC,文生,https,链接
From： https://www.cnblogs.com/zhuomoyixia/p/18354100

Datawhale AI 夏令营第四期大模型应用开发学习笔记
附上参考链接:Datawhale简单介绍下背景知识一.背景知识1.大模型的定义:为了对人类语言的内在规律进行建模，研究者们提出使用语言模型（languagemodel）来准确预测词序列中下一个词或者缺失的词的概率。目前已经有四代语言模型了1)统计语言模型（StatisticalLanguageMode......
基于大数据的混合音乐推荐系统的设计与设计(论文+源码)_kaic
摘要随着数据的不断增长和用户对随听随播的收听方式的习惯，开发一款音乐推荐系统变得越来越必要。为了满足这一需求，本论文采用Java语言、Vue以及数据库MySQL进行开发。系统的主要功能包括登录注册、音乐分类管理、音乐推荐管理、音乐资讯管理、音乐库管理、音乐论坛管理、用......
基于SpringBoot框架的企业财务管理系统设计与实现(论文+源码)_kaic
摘要在快速增长的信息时代，每个企业都在紧随其后，不断改进其办公模式。与此同时，各家企业的传统管理模式也逐步发生变化，政府和企业都将需要一个更加自动化和现代化的财务管理系统。这能够便利员工之间的信息交流和公司的工作任务进而提高工作效率。因此对现有的系统进行调......
#Datawhale AI夏令营第4期#AIGC 文生图 Task1
1.赛题解读这是DatawhaleAI夏令营第4期AIGC方向的学习，这次的赛题任务是：基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。赛题内容参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格......基......
Datawhale x魔搭AI夏令营:AIGC文生图
学习链接：Datawhale什么是LoRA？Stablediffusion提供了中的Lora(LoRA)模型是一种轻量级的微调方法，即“Low-RankAdaptation”（低秩适应）。LoRA也不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在StableDiffusion模型的应用中，LoRA被用作一种插件，允......
AI Python for Beginners-Andrew吴恩达-study notes（2）
1Introduction itisbelievedthatwiththehelpofAIchatbotwecanlearnpythonmoreeasilyanditwillbeamazingtoautomatetasksusingPython2 CompletingatasklistwithAI2.1List①listisasinglevariableoftype thatholdsm......
LangChain 安全特性全解析与实践指南
LangChain安全特性全解析与实践指南引言在人工智能的浪潮中，LangChain以其卓越的能力，成为开发大型语言模型（LLM）应用程序的佼佼者。然而，随着技术的发展，安全问题逐渐浮出水面。本文将深入探讨LangChain的安全特性，并提供详细的代码示例和最佳实践，以确保开发者能够在保障安全......
D - Square Pair
原题链接题解多想几种暴力1.遍历所有数对：\(O(n^2)\)2.求有多少数对其乘积为平方数\(\to\)求有多少平方数能被数对乘积：\(O(n^2)\)3.如果两个数的乘积为平方数，代表他们的质因数，要么都是奇数，要么都是偶数:\(O(?)\)4.如果\(a\timesb\)是完全平方数，代表\(a\timesb\)......
解密AI的未来：决策式AI与生成式AI的深度解析
在当今科技飞速发展的时代，人工智能（AI）已成为各行各业的热议话题。尤其是决策式AI和生成式AI，这两种技术各具特色，却又相辅相成。本文将深入探讨这两种AI的定义、应用及其未来发展趋势，带你一探究竟！一、什么是决策式AI？决策式AI是指能够通过分析数据和信息，帮助用户做出明智决策的人......
洛谷 P1560 [USACO5.2]蜗牛的旅行Snail Trails（c++）
describe蜗牛在制定今天的旅游计划，有n个景点可选，它已经把这些景点按照顺路游览的顺序排成一排了，每个地方有相应的景观，这里用一个整数表示。蜗牛希望选取连续的一段景点，还要选出来的每一个景点的景观都不同，问它最多能选出多少个景点进行旅游。#include<iostream>#inc......