首页 > 其他分享 >Gen4Gen:多概念个性化图像生成的数据驱动革新

Gen4Gen:多概念个性化图像生成的数据驱动革新

时间:2024-07-10 22:29:13浏览次数:18  
标签:MyCanvas 革新 模型 生成 概念 图像 Gen4Gen 个性化

个性化文本到图像生成模型在用户控制生成过程方面取得了重要进展。这些模型能够通过少量训练样本学习并合成包含新颖个性化概念的图像,例如用户的宠物或特定物品。然而,现有技术在处理多概念个性化时存在局限性,尤其是在生成包含多个相似概念的复杂场景时。来自加州大学戴维斯分校的研究团队及其合作者提出了Gen4Gen,一个半自动化的数据集创建管道,它利用生成模型将个性化概念组合成具有复杂构成的真实场景,并配以详细的文本描述,形成了MyCanvas数据集。这一数据集在不修改模型架构或训练算法的情况下,显著提高了多概念个性化性能。

Gen4Gen 数据集创建管道如何将少量代表多个概念的源图像(每个概念后面带有星号*标记)组合成具有复杂构成的真实场景,并配以详细的文本描述,即 MyCanvas 数据集

方法

研究者首先提出了三个关键原则以确保MyCanvas数据集的质量和有效性:

  • 详细文本描述和图像配对:文本必须与相应图像良好对齐,为前景和背景对象提供信息。
  • 合理的对象布局和背景生成:确保对象在图像中的共存和位置在现实生活中是可能的,并且布局合理。
  • 高分辨率:确保数据集能够满足生成高质量多概念个性化图像的最终目标。

创建MyCanvas数据集主要分三个阶段。整个Gen4Gen管道的设计旨在通过自动化和半自动化的方法,高效地生成具有高度个性化和现实感的图像及其配套文本描述。

Gen4Gen创建MyCanvas数据集的流程

Figure 2 展示了 Gen4Gen 管道的概览,该管道是创建 MyCanvas 数据集的核心过程。这一过程分为三个主要阶段,利用了图像前景提取、大型语言模型(LLMs)、多模态大型语言模型(MLLMs)以及图像修复技术,以生成真实、个性化的图像及其配套的文本描述。

第一阶段:对象关联与前景分割 (1)

  • 在这一阶段,首先从包含多个概念的源图像中,使用类别无关的显著性对象检测器来分割前景对象。这里的“类别无关”意味着检测器不依赖于特定类别的先验知识,能够处理各种不同的对象。

  • 给定一组对象组合 O′,检测器将每个对象的前景分割出来,形成前景图像 D(X′) 及其对应的掩码 M(D(X′))。

第二阶段:LLM 引导的对象组合 (2)

  • 接下来,研究者利用大型语言模型(LLM)的零样本学习能力,请求模型提供给定对象集合O′ 的可能边界框组合。
  • 根据 LLM 提供的边界框,将分割出的前景对象放置在适当的位置,形成复合的前景图像  及其掩码
  • 同时,LLM 还被用来生成一组背景提示,描述O′ 可能存在的潜在场景,这有助于后续阶段的背景重绘。

第三阶段:背景重绘与图像重新描述 (3)

  • 在最后阶段,使用扩散修复模型将复合前景图像 嵌入从互联网上获取的背景图像 ​ 中,生成最终的图像 
  • 为了提高文本描述的多样性同时保持与图像的对齐,研究者使用多模态大型语言模型(MLLM,例如 LLaVA)为的一部分组合提供详细的描述。
  • 这一步骤不仅增加了描述的丰富性,而且通过限制单词数量(以适应 CLIP 的上下文限制)来确保文本与图像紧密对应。

MyCanvas 数据集收集了150个对象,并创建了41种可能的组合,生成了超过10K图像,并手动筛选至2684张最佳质量图像。

MyCanvas数据集的统计信息。a) 饼状图显示了MyCanvas中大约30%的图像与超过20个单词的文本描述配对。b) 词云展示了数据集中使用的各种对象类别。c) 和 d) 词云展示了训练和推理过程中频繁使用的描述,以确保比较的公平性

为了进一步提升模型在训练阶段的性能和图像生成的准确性,研究者采取了一系列创新的文本提示策略。他们引入了“全局组合标记”,这一策略使得模型能够更好地理解和描述复杂的场景布局,从而增强了对整体图像结构的把控能力。

为了确保图像中包含所有指定的概念,并且在生成过程中不遗漏任何细节,研究者实施了“重复概念标记提示”的方法,这有助于模型更加准确地捕捉和再现每个概念。最后通过“合并背景提示”,研究者优化了模型对前景对象和背景的区分能力,鼓励模型专注于学习对象的身份特征,同时避免对象特征与背景特征在特征空间中发生混淆,这些策略共同提升了模型对多概念个性化图像生成任务的泛化和特化能力。

MyCanvas数据集中的一些示例

为了全面评估多概念个性化图像生成任务的性能,研究者提出了两个创新的度量标准:CP-CLIP(Composition-Personalization-CLIP)分数和TI-CLIP(Text-Image alignment CLIP)分数。CP-CLIP分数专注于评估图像生成在组合和个性化方面的准确性,它通过检查文本中提及的每个个性化概念是否都能在生成的图像中得到准确反映,并且这些概念的视觉表现是否与其原始对象保持一致性。

这种度量方式确保了生成图像不仅在视觉上忠实于源数据,而且在概念层面上也与文本描述相匹配。而TI-CLIP分数则作为评估模型泛化能力的一种手段,通过比较生成图像与用于生成它的文本提示之间的一致性,来检测模型是否对训练数据出现过拟合。一个理想的个性化图像生成模型应该在提高CP-CLIP分数的同时,保持TI-CLIP分数的稳定,这表明模型在生成高质量图像的同时,还能够适应不同的文本描述,展现出良好的泛化能力。这两个度量标准的提出,为多概念个性化图像生成的研究提供了更为精确和全面的评价工具。

实验

基线:研究者首先使用Custom Diffusion模型作为基线,这是一个可复现的代码基础,用于与先前的方法进行广泛比较。

实现细节:对于每种组合,研究者训练了上述方法的模型(训练细节在附录中)。评估时,他们选择了每个组合的最佳检查点。使用与训练期间不同的、独特的提示,以更好地分析每个模型的泛化能力。

三种不同设置下使用我们的度量标准(CP-CLIP和TI-CLIP)测量的定量性能

表1所示,研究者通过量化的方法来评估Gen4Gen管道和MyCanvas数据集对于提升多概念个性化图像生成性能的具体影响。他们使用了一系列预定义的文本提示来生成图像,并通过比较不同实验设置下生成的246张图像的性能,来展示MyCanvas数据集的优越性。实验结果表明,与仅使用原始源图像的Custom Diffusion相比,结合MyCanvas数据集的方法在CP-CLIP分数上实现了显著提升,这表明了在图像生成中个性化概念的准确性和完整性得到了增强。同时,TI-CLIP分数的稳定性验证了性能提升并非由过拟合所致,从而证明了MyCanvas数据集在提高多概念个性化生成任务中的有效性和泛化能力。

多概念组合的定性结果。呈现了四组结果,按组合难度(更多的个性化概念)递增顺序排列

图5中,四组结果根据组合难度递增排序,每组展示了在不同训练策略下的图像生成效果。使用Custom Diffusion模型结合原始源图像的结果作为基线,展示了模型在没有额外数据集支持时的生成能力。当引入MyCanvas数据集后,模型在区分潜在空间中相似对象(如猫和狮子,两种拖拉机)方面表现出显著的改进。进一步应用提示策略后,模型在生成过程中对文本描述的遵循程度更高,确保了所有概念都被准确反映在图像中,即使在涉及多个概念的复杂场景中也是如此。这些定性结果突出了MyCanvas数据集和提示策略在提升图像生成质量和与文本描述一致性方面的重要作用。

为了深入理解Gen4Gen管道生成图像的质量,并探究训练数据规模与模型性能之间的关系,研究者开展了一系列消融实验:

MyCanvas生成质量评估:开发了一个过滤工具来评估Gen4Gen管道生成的800张图像的质量。基于包含个性化概念、它们的正确放置和排除视觉伪影的标准,对每个图像进行评分。

训练数据大小与概念数量:提供了一个分析,展示了使用1到100张图像进行训练时的性能。当训练涉及4个以上概念时,稳定表现需要10到50张图像。

得分分布:表2显示了质量评估的得分分布。只有被评为4/5的图像被添加到MyCanvas数据集中。

MyCanvas生成质量的质量评估

通过这些实验,研究者展示了Gen4Gen方法在创建数据集和提高多概念个性化图像生成质量方面的有效性。实验结果支持了他们的观点,即通过改进数据集的质量,可以在不修改模型架构或训练算法的情况下显著提高性能。

论文链接:https://arxiv.org/abs/2402.15504

标签:MyCanvas,革新,模型,生成,概念,图像,Gen4Gen,个性化
From: https://blog.csdn.net/weixin_44292902/article/details/140279382

相关文章

  • 打造个性化科学工具箱:使用conda-build自定义软件包
    打造个性化科学工具箱:使用conda-build自定义软件包引言Conda是一个强大的包管理系统,广泛用于Python社区,尤其在数据科学和机器学习领域。除了安装现成的包,Conda还允许用户通过conda-build工具构建和分享自己的软件包。本文将详细介绍如何在Conda环境中使用conda-build构建......
  • 2024 「全球软件研发技术大会】-刘兴东分享京东的AIGC革新之旅
    大模型和开源的发展将带来全球软件研发技术的新变革,AI使代码自动化应用达到新水平,开源工具的云化和应用的AI化将促中国软件迎来新一轮的爆发。开发者正在迎接新一轮的技术浪潮变革。由CSDN和高端IT咨询和教育平台Boolan联合主办的2024年度「全球软件研发技术大会」于7月4日-5日在......
  • springboot智慧医疗数据共享和个性化推荐系统-计算机毕业设计源码05875
    目 录摘要1绪论1.1研究背景1.2 研究意义1.3论文结构与章节安排2 智慧医疗数据共享和个性化推荐系统分析2.1可行性分析2.2系统流程分析2.2.1数据增加流程2.2.2数据修改流程2.2.3数据删除流程2.3 系统功能分析2.3.1功能性分析2.4 系......
  • 【饼图交通方式】用ECharts的graphic配置打造个性化
    利用ECharts的graphic配置打造个性化图表内容概要ECharts是一款强大的数据可视化工具,它提供了丰富的配置选项来定制图表。本文将重点介绍graphic配置的使用,展示如何通过在饼图中添加个性化的图形元素,例如中心图像,来增强图表的视觉效果。效果预览适用人群数据可视化工......
  • python+flask计算机毕业设计个性化图书借阅系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景在信息化高速发展的今天,图书馆作为知识传播与学术研究的重要基地,其服务模式正经历着深刻的变革。传统的图书借阅方式已难以满足读者日益增......
  • python+flask计算机毕业设计个性化电子书籍商城系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展和数字阅读习惯的普及,电子书籍已成为现代人获取知识、享受阅读乐趣的重要方式。然而,当前市场上的电子书籍商城大多......
  • 健康产业崛起:医疗机构行业的技术革新与前景展望
    一、行业简述医疗机构,是指依法成立的从事疾病诊断、治疗活动的卫生机构的总称。随着中国社会经济的不断发展和人民生活水平的逐步提高,人们对医疗健康服务的需求日益增长,医疗机构行业也因此得到了快速发展。作为社会卫生服务体系的重要组成部分,医疗机构在保障人民健康、促进社......
  • 解码技术债:AI代码助手与智能体的革新之道
    技术债技术债可能来源于多种原因,比如时间压力、资源限制、技术选型不当等。它可以表现为代码中的临时性修补、未能彻底解决的设计问题、缺乏文档或测试覆盖等。虽然技术债可以帮助快速推进项目进度,但长期来看,它会增加软件维护的成本和风险,降低系统的稳定性和可维护性。今天,我们......
  • 个性化出行新选择:P2P租车市场趋势一览
    一、行业简述P2P租车,即个人对个人的租车模式,是利用互联网技术将闲置的私家车与有用车需求的人进行有效匹配,实现车辆资源的共享与利用。这一新兴租车方式的出现,不仅打破了传统租车行业的局限,还为用户提供了更加灵活、便捷且成本更低的租车体验。P2P租车行业的特点主要体现在......
  • 探索鸿蒙开发:鸿蒙系统如何引领嵌入式技术革新
    嵌入式技术已经成为现代社会不可或缺的一部分。而在这个领域,华为凭借其自主研发的鸿蒙操作系统,正悄然引领着一场技术革新的浪潮。本文将探讨鸿蒙开发的特点、优势以及其对嵌入式技术发展的深远影响。鸿蒙操作系统的特点鸿蒙,作为华为推出的全新操作系统,具有许多显著的特点......