首页 > 其他分享 >提升文本到图像一致性的新方法:自动提示优化

提升文本到图像一致性的新方法:自动提示优化

时间:2024-09-26 21:20:33浏览次数:8  
标签:得分 提示 生成 LLM 图像 一致性 文本

 人工智能咨询培训老师叶梓 转载标明出处

尽管图像质量得到了显著提升,但这些模型在生成与输入文本提示一致的图像方面仍需要提升。常见的问题包括无法正确捕捉对象的数量、关系和属性。为了解决这些挑战,现有的解决方案通常需要模型微调、只关注附近的提示样本,并且受到图像质量、表示多样性和提示-图像一致性之间不利权衡的影响。来自Meta 团队及其合作的研究人员提出了一种名为OPT2I的新框架,过迭代生成修订的提示,目标是最大化一致性得分,从而解决了这些挑战。如图1所示,该框架由文本到图像生成模型(T2I)、大模型(LLM)和一致性评估目标(Scorer)组成。LLM会迭代地利用提示和评分对的历史记录来提出经过改进的提示。在示例中,该系统在Davidsonian Scene Graph评分标准下将一致性评分提高了30%以上。

OPT2I框架

图2描述了OPT2I框架的组成部分,展示了如何通过迭代生成修订后的提示来优化一致性评分。

框架组成: OPT2I框架由三个核心组件构成:

  1. 预训练的T2I生成模型:这个模型负责根据文本提示生成图像。
  2. 一致性度量(Consistency Metric):用于评估生成图像与用户提示之间的一致性。
  3. 大型语言模型(LLM):利用任务描述和历史提示-得分对来生成修订后的提示。

工作流程:

  • 初始化:用户输入一个文本提示,该提示被用来生成初始图像,并计算一致性得分。
  • 迭代优化:基于初始得分,LLM提出改进的文本提示。这些新提示再次用于生成图像,并计算新的一致性得分。
  • 元提示(Meta-prompt):包含任务描述和历史提示-得分对,用于指导LLM生成更好的提示。
  • 终止条件:优化过程在达到最大迭代次数或一致性得分达到完美/目标值时结束。

优化问题的目标是找到一个能够最大化图像与文本提示一致性的文本提示改写版本。这里涉及到的主要元素包括:

  • 大模型(LLM):用于生成文本提示的改写版本。
  • 预训练的文本到图像(T2I)生成模型:根据文本提示生成图像。
  • 一致性得分(S(p, I)):评估生成的图像与原始文本提示之间的一致性。

所有可能的文本提示改写版本集合为 ,并引入了一个优化目标,即找到一个最佳的改写版本,使得预期的一致性得分最大化:其中,表示用户原始的文本提示。

这个优化过程通过迭代搜索来实现,每次迭代都利用LLM生成新的文本提示,并通过一致性得分来评估这些提示的效果。

为了指导LLM生成更好的文本提示,论文设计了“元提示”。元提示由以下两部分组成:

  • 任务指令:描述了优化任务的目标和要求。
  • 历史修订提示-得分对:记录了之前迭代中生成的文本提示及其一致性得分,为LLM提供历史信息,帮助它生成更好的文本提示。

元提示的设计允许LLM在每次迭代中参考之前成功的文本提示,从而提高生成文本提示的质量。一致性得分被归一化到0到100的范围内,并且只保留得分最高的前k个提示。

LLM提供详细视觉反馈的重要性主要通过一致性得分来实现。一致性得分不仅需要能够评估文本提示与生成图像之间的一致性,还需要足够细致,以便LLM能够根据得分来优化文本提示。两种一致性得分计算方法:

  1. Davidsonian Scene Graph (DSG) 得分:通过从用户提示中生成一系列问题,并根据生成的图像回答这些问题来计算得分。这种方法能够提供关于图像内容的细粒度信息。
  2. 分解的CLIPScore:将用户提示分解为多个名词短语,并对每个短语单独计算一致性得分,然后将这些得分平均,得到最终的一致性得分。

这两种方法都能够为LLM提供比单一标量得分更丰富的信息,帮助它更有效地优化文本提示。

在优化过程中,OPT2I需要在探索新的文本提示和利用已有成功经验之间找到平衡。过多的探索可能会导致难以找到高质量的解决方案,而过分依赖已有经验则可能限制提示的多样性。为了控制这种平衡,可以通过调整每次迭代生成的修订提示数量和LLM采样温度的方法。

为了确保找到的文本提示在不同的T2I输入噪声样本下都能表现良好,每次迭代都会针对每个文本提示生成多个图像。

通过这些详细的设计和优化策略,OPT2I框架能够有效地提高文本到图像生成的一致性,生成更符合用户输入提示的图像。

实验

实验设置:

  • 基准测试: 实验使用了两个数据集,MSCOCO和PartiPrompts。MSCOCO数据集使用了2000个验证集的标题,这些标题代表了包含常见对象的真实世界场景。PartiPrompts则包含了1600个人工提示,这些提示往往是不切实际的,被分为不同类别以测试T2I生成模型的不同能力。
  • 基线对比: 将OPT2I与随机改写基线进行比较,其中LLM被要求生成用户提示的多样化改写版本,而不关注生成图像的一致性。此外,还与Promptist进行比较,Promptist利用初始和目标提示的数据集来微调LLM,以改善图像美学,同时尽量保持提示-图像一致性。
  • 评估指标: 通过多次图像生成(即多次随机种子的初始噪声)来计算T2I提示的质量,使用提出的分解CLIPScore(dCS)和最近的DSG得分作为一致性指标。

LLM和T2I模型:

  • 考虑了两种T2I模型:一种是使用CLIP文本编码器进行条件化的最先进的潜在扩散模型LDM-2.1,另一种是基于大型语言模型T5-XXL的级联像素扩散模型CDM-M。
  • 对于LLM,实验使用了开源的Llama-2-70B-chat和GPT-3.5-Turbo-0613。

OPT2I最多运行30次迭代,每次迭代生成5个新的修订提示,而随机改写基线一次性生成150个提示。为了加快图像生成速度,使用了DDIM采样。对于LDM-2.1,执行50次推理步骤,而对于CDM-M,执行100次低分辨率生成器步骤和50次超分辨率网络步骤。

图3展示了使用LDM-2.1/CDM-M作为T2I模型,Llama-2/GPT-3.5作为LLM,以及dCS/DSG作为评分者的提示优化曲线。每个数据点对应于在该迭代中生成的修订提示相对于用户提示一致性得分的平均/最大相对改进。

优化曲线显示了整体上升趋势,这证实了OPT2I中的LLM能够有效地优化T2I提示。这些改进在最大一致性得分中尤为明显。

表1显示了OPT2I框架在不同的LLM、T2I模型和优化/评估目标选择下都表现出色。OPT2I在所有配置中一致性地优于随机改写基线。

图4提供了使用OPT2I生成的用户提示和优化提示的图像示例。观察到OPT2I能够找到用户的提示的改写版本,这些改写版本显著提高了生成图像与初始用户提示之间的一致性。

在OPT2I生成的图像在质量与多样性方面的权衡上,通过计算图像生成指标,如Fréchet Inception Distance (FID)、精确度(Precision, P)和召回率(Recall, R),评估了OPT2I生成图像的质量。实验使用了MSCOCO验证集中的2000个提示,并为每个初始和最佳提示生成了4张图像。为了确保结论的稳健性,使用了两种特征提取器:Inception-v3 (IV3)和CLIP。表2展示了使用OPT2I优化的提示与初始提示相比,在FID上持平或更好,这验证了OPT2I方法不会为了一致性牺牲图像质量。然而,在精确度和召回率方面,优化后的提示虽然召回率提高,但精确度有所下降,这可以解释为重新表述输入提示允许生成更多样化的图像(召回率更高),这些图像可能偶尔落在自然图像的流形之外(精确度更低)。

图5展示了在不同的探索和利用策略下,一致性得分(dCS)的变化。通过调整每次迭代生成的修订提示数量和LLM采样温度,来控制探索和利用的平衡。实验发现,增加迭代次数可以提高一致性改进,但过分推动利用,如迭代次数过多而每次迭代生成的提示过少,可能会适得其反。

研究者通过消融研究探讨了不同任务指令对元提示的影响。通过与基础元提示结合,探索了四种指令添加方式:简洁性(Conciseness)、优先级(Prioritize)、推理(Reasoning)和结构(Structure)。实验结果显示(表3),在这些变体中,优先级(Prioritize)指令在提高一致性评分方面表现略好于推理(Reasoning)和结构(Structure)指令,而且大模型(LLM)对于元提示的具体措辞保持了相当程度的鲁棒性。

OPT2I旨在优化提示以期望生成更一致的图像。为了完整性,研究者还评估了从初始提示生成相同数量图像并选择最一致图像的设置。特别是,作者从PartiPrompts生成了600张图像,使用初始提示的随机图像采样、改写或OPT2I,并基于DSG得分选择最一致的前k张图像。图6展示了OPT2I在这一设置中一致性得分始终优于基线。初始提示的随机采样优于改写,这可能是因为随机改写偏离了用户的意图太远。

通过这些实验和分析,论文展示了OPT2I在提高文本到图像生成一致性方面的有效性,同时保持了图像的质量和多样性。此外,通过消融研究和后处理图像选择的评估,进一步验证了OPT2I方法的鲁棒性和实用性。

论文链接:https://arxiv.org/abs/2403.17804

标签:得分,提示,生成,LLM,图像,一致性,文本
From: https://blog.csdn.net/yetzi1975/article/details/142488083

相关文章