首页 > 其他分享 >解决生成图像质量和美学问题!《VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control》

解决生成图像质量和美学问题!《VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control》

时间:2025-01-14 21:58:28浏览次数:3  
标签:Diffusion 细粒度 Text 模型 美学 生成 VMix 图像

为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。

相关链接

  • 文章:https://arxiv.org/pdf/2412.20800

  • 代码:https://github.com/fenfenfenfan/VMix

  • 项目:https://vmix-diffusion.github.io/VMix/

论文介绍

虽然扩散模型在文本到图像生成方面表现出色,但它们仍可能无法生成高度美观的图像。更具体地说,在颜色、光照、构图等更细粒度的维度上,生成的图像与现实世界的美学图像之间仍然存在差距。

在本文中,我们提出了跨注意值混合控制(VMix)适配器,这是一种即插即用的美学适配器,通过(1)通过初始化美学嵌入将输入文本提示解开为内容描述和美学描述,以及(2)通过值混合交叉注意将美学条件整合到去噪过程中,网络通过零初始化的线性层连接,来升级生成图像的质量,同时保持跨视觉概念的通用性。我们的关键见解是通过设计一种优越的条件控制方法来增强现有扩散模型的美学呈现,同时保持图像-文本对齐。

通过我们精心的设计,VMix 足够灵活,可以应用于社区模型以获得更好的视觉性能而无需重新训练。为了验证我们方法的有效性,我们进行了大量实验,结果表明 VMix 优于其他最先进的方法,并且与其他社区模块(例如 LoRA、ControlNet 和 IPAdapter)兼容以用于图像生成。

现有的方法总是无法满足人类对视觉生成内容的细粒度偏好。人类喜爱的图像应该同时在各种细粒度的美学维度上表现出色,例如自然光、连贯的色彩和合理的构图。为了应对这一挑战,我们推出了VMix,这是一种新颖的即插即用适配器,旨在系统地弥合生成的图像与现实世界图像在各种美学维度上的美学质量差距。

它是如何工作的?

VMix 示意图:

(a)在初始化阶段,通过 CLIP 将预定义的美学标签转化为 [CLS] token,从而得到 AesEmb,只需要在训练开始时处理一次。

(b)在训练阶段,项目层首先将输入的美学描述 y aes映射到与内容文本嵌入 f t具有相同 token 维度的 嵌入 f a 。然后通过值混合交叉注意力将文本嵌入 f t集成到去噪网络中。

(c) 在推理阶段,VMix 从 AesEmb 中提取所有正向美学嵌入以形成美学输入,并与内容输入一起输入到模型中进行去噪过程。

美学细腻控制

VMix 可以通过调整美学嵌入来实现细粒度的美学控制。当仅使用单维美学标签时,可以观察到图像质量在特定维度上得到改善。当使用全正美学标签时,图像的视觉性能整体优于基线。

Prompt: "A girl leaning against a window with a breeze blowing, summer portrait, half-length medium view"

与当前方法的比较

与各种最先进的方法进行定性比较。所有结果均基于稳定扩散。

与各种最先进的方法进行定性比较。所有方法的结果均基于 SDXL。

个性化文本转图像模型

带有或不带有 VMix 的个性化模型生成的图像。

标签:Diffusion,细粒度,Text,模型,美学,生成,VMix,图像
From: https://blog.csdn.net/xs1997/article/details/145148455

相关文章

  • AI绘画stable diffusion入门基础教程(非常详细),AI绘画入门到精通,收藏这一篇就够了!
    现在学习AI绘画的人越来越多,这是属于"生成式人工智能(AIGC)"的春天。4月初,第一批被AI取代的人已出现,据媒体报道,一家游戏公司的原画团队被大面积裁员;4月末,AI又悄悄将手"伸"向网店模特岗位,使用AI模特取代真人模特只需要多投喂数据集,例如采用loRa在stablediffusion上训练出一个......
  • 【AI绘画】Stable Diffusion实战(一):入门详细教程(环境安装,插件,参数,提示词)
    StableDiffusion是利用扩散模型进行图像生成的产品,可以支持text2image、image2image。并且由于“论文公开+代码开源”,其用户群体远大于其他AI图像生成产品,之后小编会连续更新一些关于AI绘画的干货教程**目标:**了解入门StableDiffusion相关背景,环境安装,插件,文生图参数......
  • Stable Diffusion基础操作教程(保姆喂饭级)爷爷都能学会(一)
    有需要stablediffusion整合包以及提示词插件,可以扫描下方,免费获取1.StableDiffusion是什么?StableDiffusion是⼀款基于⼈⼯智能技术开发的绘画软件,它可以帮助艺术家和设计师快速创建⾼品质的数字艺术作品。该软件使⽤了⼀种称为GAN(⽣成对抗⽹络)的深度学习模型,该模型......
  • Stable Diffusion基础介绍
    前言❝在人工智能生成内容(AIGC)领域,StableDiffusion是一个具有里程碑意义的创新技术,它重新定义了如何通过AI生成高质量图像。该技术通过其独特的扩散模型,不仅在技术层面上取得了重要突破,更是在广告、游戏开发、医学影像等多个行业中得到了广泛的实际应用。作为一名深耕AI......
  • StableDiffusion筑梦工业愿景蔚蓝XL模型:时尚与科技的完美结合,尖端科技穿戴,精美壁纸级
    筑梦工业|愿景蔚蓝XL模型愿景蔚蓝XL模型简介今天介绍一款高质量的时尚与科技装备模型:筑梦工业|愿景蔚蓝XL,这是一款以追求极致时尚美学同时兼具最新科技武器设定的SDXLLoRA绘图模型。能够生成新一代眼镜/目镜/面罩/面具的模型,拥有大胆的色彩以及前沿的时尚审美。......
  • DraggableSheetContext
    DraggableSheetContext基础库3.2.0开始支持,低版本需做兼容处理。相关文档:draggable-sheetDraggableSheet实例,可通过wx.createSelectorQuery的NodesRef.node方法获取。方法DraggableSheetContext.scrollTo(Objectobject)滚动到指定位置。size取值[0,1],size......
  • wx.getExtConfigSync
    Objectwx.getExtConfigSync()基础库1.1.0开始支持,低版本需做兼容处理。小程序插件:不支持微信Windows版:支持微信Mac版:支持功能描述wx.getExtConfig的同步版本。返回值Object第三方平台自定义的数据Tips本接口暂时无法通过wx.canIUse判断是否兼容,开发者需......
  • wx.getExtConfig
    wx.getExtConfig(Objectobject)基础库1.1.0开始支持,低版本需做兼容处理。以Promise风格调用:支持小程序插件:不支持微信Windows版:支持微信Mac版:支持功能描述获取第三方平台自定义的数据字段。参数Objectobject属性类型默认值必填说明successf......
  • (14-2)基于Latent Diffusion Transformer的文生视频系统:系统配置
    6.3 系统配置在“configs”目录中,保存了本项目中涉及的不同数据集和任务提供配置文件。这些配置文件定义了模型的训练、验证和测试过程中的关键参数和设置,包括网络结构、优化器参数、学习率调度、数据预处理方式等。目录中每个子文件夹或文件的命名(如ffs、sky、t2x、taich......
  • Unity TextMesh Pro入门
    概述TextMeshPro是Unity提供的一组工具,用于创建2D和3D文本。与Unity的UI文本和TextMesh系统相比,TextMeshPro提供了更好的文本格式控制和布局管理功能。本文介绍了TMP_Text组件和Tmp字体资产(如何创建字体资产和如何解决缺字问题),还有一些高级功能可能在以后的时候完善.......