为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。
相关链接
-
文章:https://arxiv.org/pdf/2412.20800
-
代码:https://github.com/fenfenfenfan/VMix
-
项目:https://vmix-diffusion.github.io/VMix/
论文介绍
虽然扩散模型在文本到图像生成方面表现出色,但它们仍可能无法生成高度美观的图像。更具体地说,在颜色、光照、构图等更细粒度的维度上,生成的图像与现实世界的美学图像之间仍然存在差距。
在本文中,我们提出了跨注意值混合控制(VMix)适配器,这是一种即插即用的美学适配器,通过(1)通过初始化美学嵌入将输入文本提示解开为内容描述和美学描述,以及(2)通过值混合交叉注意将美学条件整合到去噪过程中,网络通过零初始化的线性层连接,来升级生成图像的质量,同时保持跨视觉概念的通用性。我们的关键见解是通过设计一种优越的条件控制方法来增强现有扩散模型的美学呈现,同时保持图像-文本对齐。
通过我们精心的设计,VMix 足够灵活,可以应用于社区模型以获得更好的视觉性能而无需重新训练。为了验证我们方法的有效性,我们进行了大量实验,结果表明 VMix 优于其他最先进的方法,并且与其他社区模块(例如 LoRA、ControlNet 和 IPAdapter)兼容以用于图像生成。
现有的方法总是无法满足人类对视觉生成内容的细粒度偏好。人类喜爱的图像应该同时在各种细粒度的美学维度上表现出色,例如自然光、连贯的色彩和合理的构图。为了应对这一挑战,我们推出了VMix,这是一种新颖的即插即用适配器,旨在系统地弥合生成的图像与现实世界图像在各种美学维度上的美学质量差距。
它是如何工作的?
VMix 示意图:
(a)在初始化阶段,通过 CLIP 将预定义的美学标签转化为 [CLS] token,从而得到 AesEmb,只需要在训练开始时处理一次。
(b)在训练阶段,项目层首先将输入的美学描述 y aes映射到与内容文本嵌入 f t具有相同 token 维度的 嵌入 f a 。然后通过值混合交叉注意力将文本嵌入 f t集成到去噪网络中。
(c) 在推理阶段,VMix 从 AesEmb 中提取所有正向美学嵌入以形成美学输入,并与内容输入一起输入到模型中进行去噪过程。
美学细腻控制
VMix 可以通过调整美学嵌入来实现细粒度的美学控制。当仅使用单维美学标签时,可以观察到图像质量在特定维度上得到改善。当使用全正美学标签时,图像的视觉性能整体优于基线。
Prompt: "A girl leaning against a window with a breeze blowing, summer portrait, half-length medium view"
与当前方法的比较
与各种最先进的方法进行定性比较。所有结果均基于稳定扩散。
与各种最先进的方法进行定性比较。所有方法的结果均基于 SDXL。
个性化文本转图像模型
带有或不带有 VMix 的个性化模型生成的图像。
标签:Diffusion,细粒度,Text,模型,美学,生成,VMix,图像 From: https://blog.csdn.net/xs1997/article/details/145148455