ControlNet++：让AI图像生成更精准、更可控

时间：2024-06-07 16:01:21浏览次数：29

在人工智能的世界里，文本到图像的生成技术正变得越来越先进。但如何确保生成的图像精确地反映我们的想象呢？最近，一项名为ControlNet++的新技术为我们提供了答案。

ControlNet++是一种新颖的方法，它通过优化生成图像与给定条件之间的像素级循环一致性，显著提高了文本到图像生成的可控性。这意味着，无论你的想象多么独特，ControlNet++都能更准确地帮你实现。

ControlNet++：更可控的图像生成

像素级循环一致性

ControlNet++的核心思想是确保生成的图像在像素级别上与给定的条件控制保持一致。条件控制可以是分割掩码、线稿边缘、深度图等，这些都是图像的重要视觉特征。循环一致性意味着如果我们将条件控制应用到生成模型上，生成的图像应该能够反映出这些条件，并且如果我们从生成的图像中重新提取条件，应该能够回到最初的输入条件。

预训练的判别奖励模型

ControlNet++使用预训练的判别模型来提取生成图像的条件。这些预训练模型已经在大量数据上训练过，能够识别和提取图像中的特定特征，如边缘或深度信息。

优化一致性损失

为了实现循环一致性，ControlNet++优化了一个一致性损失函数。这个损失函数衡量了生成图像的条件与输入条件控制之间的差异。通过最小化这个损失，生成模型被引导去产生与输入条件更加一致的图像。

高效的奖励微调策略

在传统的扩散模型中，生成图像需要从随机噪声开始，逐步去噪，这通常需要多步采样，计算成本高且耗时。ControlNet++提出了一种高效的奖励微调策略，通过向训练图像添加噪声，然后进行单步去噪，来快速计算一致性损失，从而避免了多步采样的开销。

实验验证

实验设置

条件控制和数据集：选择了多个数据集来训练和评估模型，包括ADE20K、COCOStuff和MultiGen-20M，这些数据集提供了精确的图像-标签配对，如分割掩码、边缘图和深度图。
评估和指标：使用了多种评估指标，包括mIoU（交并比）、F1-Score、SSIM（结构相似性）、RMSE（均方根误差）等，来衡量生成图像与输入条件之间的相似度。

基线比较

对比方法：与ControlNet++进行比较的方法包括T2I-Adapter、ControlNet v1.1、GLIGEN、Uni-ControlNet和UniControl等，这些方法都是在可控文本到图像扩散模型领域的先驱。
公平比较：为了确保比较的公平性，所有方法都使用相同的图像条件和文本提示进行评估。

实验结果

控制性比较：ControlNet++在多个条件控制任务中的控制性均优于现有方法。例如，在分割掩码条件下，ControlNet++实现了7.9%的mIoU提升，在深度图条件下实现了7.6%的RMSE降低。
定性比较：提供了可视化的比较结果，展示了ControlNet++在保持输入条件一致性方面的优势。相比之下，现有方法在生成与条件控制一致的图像方面存在不足。

图像质量比较

FID（Fréchet Inception Distance）：ControlNet++在多种条件下的FID值通常优于现有方法，表明其在提高控制性的同时，图像质量并未降低。
CLIP分数：为了评估文本控制性，使用CLIP分数对不同方法进行了评估。ControlNet++在多个数据集上取得了与现有方法相当或更好的结果。

生成图像的有效性

训练判别模型：使用ControlNet++生成的图像和真实标注的标签创建了一个新的数据集，用于训练分割模型。实验结果表明，使用ControlNet++生成的图像训练的分割模型性能优于使用ControlNet生成的图像。

消融研究

损失设置：研究表明，结合像素级一致性损失和扩散训练损失可以提高控制性而不损害图像质量。
文本提示的影响：探讨了不同文本提示对生成结果的影响，ControlNet++在各种文本提示情况下都能生成与输入条件一致的图像。

实验结果证明了ControlNet++在提高文本到图像生成模型的可控性方面的有效性，同时保持了图像质量。此外，ControlNet++生成的图像可以有效地用于训练更强大的判别模型。

这些实验结果不仅验证了ControlNet++的技术优势，还展示了其在实际应用中的潜力。通过这些详细的实验，研究人员能够展示ControlNet++如何在多个方面超越现有技术。

论文链接：https://arxiv.org/pdf/2404.07987

标签：ControlNet,++,模型,图像,生成,AI,条件
From： https://blog.csdn.net/yetzi1975/article/details/139437364

C/C++ 联合体的注意事项
联合体（Union）在C/C++中是一个特殊的数据类型，它允许在相同的内存位置存储不同的数据类型。联合体的主要特点是，其所有的成员共享同一块内存区域，也就是说，联合体中的各个成员首地址都是相同的。这使得联合体在节省内存、进行数据类型转换等方面非常有用。然而，使用联合体时也需要注意......
史上最强 AI 翻译诞生了！拳打谷歌，脚踢 DeepL
CoT推理范式默认情况下，大语言模型通常是直接给出问题的最终答案，中间推理过程是隐含的、不透明的，无法发挥出大模型最极致的理解能力。如果你用它来充当翻译，可能效果和传统的机器翻译也差不了太多。如果我们给大模型设计一个合理的提示词，控制大模型的思考方式，就能发挥出大模型的......
开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（三）
一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提供了便利，让他们能......
C++ 模板
一.非类型模板参数模板参数分为类型形参与非类型形参。类型形参：类作为模板参数，typename/classT(T就是类型形参)非类型形参：内置类型作为模板参数，intdoublechar...(在C++20前只有int可以传)这样我们就可以随便定义栈的大小。注：因为n是常量所以是不能修改的。......
MainWindows移动View文件夹和使用Window.DataContext单例绑定需要修改的地方
项目结构移动文件夹后需要修改的三个地方1、App.xaml2、MainWindow.xaml3、MainWindow.xaml.cs单例绑定需要修改的地方MainWindow.xaml ......
免费，C++蓝桥杯比赛历年真题--第14届蓝桥杯省赛真题（含答案解析和代码）
C++蓝桥杯比赛历年真题–第14届蓝桥杯省赛真题一、选择题答案：A解析：C++中bool类型与char类型一样，都需要1byte。一些其他类型的占用字节数:short:2byte，int:4byte，longlong:8byte，double:8byte，故答案为A。答案：C解析：A中结构体中可以定义成员变量，也可以定义只有该结......
10_1、C++继承与派生：声明与继承关系
声明与继承关系继承派生概念派生类声明派生类从基类继承的过程吸收基类成员修改基类成员添加新成员继承关系公有继承保护继承私有继承继承派生概念类的继承就是新类由已经存在的类获得已有特性。类的派生则是由已经存在的类产生新类的过程。由已有类产生新类时，新......
AI助手：Agent工作流程与应用场景详解
引言智能体（Agent）是一种在特定环境中自主行动、感知环境、做出决策并与其他智能体或人类进行交互的计算机程序或实体。它们具备自主性、反应性、社交性和适应性等特点，能够根据环境的变化调整自己的行为，以达到预设的目标。本文将详细拆解智能体从提示词接收、LLM大模型理解识别、知......
基于函数计算部署GPT-Sovits语音生成模型实现AI克隆声音
GPT-Sovits是一个热门的文本生成语音的大模型，只需要少量样本的声音数据源，就可以实现高度相似的仿真效果。通过函数计算部署GPT-Sovits模型，您无需关心GPU服务器维护和环境配置，即可快速部署和体验模型，同时，可以充分利用函数计算按量付费，弹性伸缩等优势，高效地为用户提供基于GPT-Sovits......
AI预测平台处理思路
AI预测平台处理思路配置：1.创建模型2.配置方案（设置训练周期与粒度）3.配置算法（设置算法）4.配置有效特征数据（影响因素）数据：1.历史数据2.特征数据（影响因素）数据取数：1.sql获取、灵活配置出参入参2.excel导入数据预测思路：根据历史数据，结合特征数据（影响因素），使用设置的算法......