首页 > 编程语言 >【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt

时间:2023-12-07 13:32:41浏览次数:42  
标签:Diffusion Prompt 提示 EMNLP 模型 BeautifulPrompt 高质量 图像 低质量

近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型,可以从简单的图片描述中生成高质量的提示词,从而使文生图模型能够生成更美观的图像。BeautifulPrompt通过对低质量和高质量的提示进行微调,并进一步提出了一种基于强化学习和视觉信号反馈的技术,以最大化生成提示的奖励值。

论文:

Tingfeng Cao, Chengyu Wang, Bingyan Liu, Ziheng Wu, Jinhui Zhu, Jun Huang. BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis. EMNLP 2023 (Industry Track)

背景

文生图是AIGC中最引人注目和广泛应用的技术之一,旨在通过文本输入创建逼真的图像。最近,随着大型模型建模能力的提升,文生图模型得到快速的发展。大规模的TIS模型,如DALLE-2、Imagen和stable diffusion,显著提高了最先进的性能,并允许没有艺术专业知识的用户通过个人想象力创建前所未有的图像。

然而,文成图模型要求用户在模型推理之前编写文本提示(例如“一艘雄伟的帆船”)。编写满足设计师或艺术工作者需求的这些提示充满了不确定性,就像开盲盒一样。这是由于训练数据的质量问题,导致需要详细的描述才能生成高质量的图像。在现实场景中,非专家往往很难手工编写这些提示,并且需要通过试错的迭代修改来重新生成图像,从而导致时间和计算资源的严重浪费。

提示工程(prompt engineering)是一个新兴的研究领域,旨在探索如何为深度生成模型提供提示,并提高人与AI之间直接交互的效率。因此,我们关注于大语言模型(LLM)自动地生成高质量的提示词,下图展示了使用简单的图片描述和BeautifulPrompt之后生产的图片。

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt_自然语言处理

算法概述

数据收集

我们提出一个自动化收集prompt优化的数据集方案:

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt_数据_02

原始数据源是DiffusionDB,它只包含未配对的提示。启发式地,我们根据提示的长度、提示中包含的某些标签等将提示分为低质量提示和高质量提示。

接下来,我们

i)使用BLIP 对与高质量提示相关的图像进行caption,并将结果视为相应的低质量提示,因为说明文字较短且缺乏细节;

ii)使用ChatGPT对高质量的提示进行总结,并将总结视为低质量的提示;

iii)使用ChatGPT从低质量的提示生成更好的提示;结果被认为是高质量的提示。

通过以上三种方法,我们获得了大量的提示对;然而,这些提示对的质量无法保证。因此,我们需要进行进一步的数据清理和过滤。我们清洗了包含色情、政治敏感等不适合工作场景的数据,并对图片的美观值进行筛选。得到最终的数据集。与InstructGPT类似,我们采用了三阶段的训练,整体训练架构图如下:

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt_数据_03

Step 1. SFT

给定提示对的数据集D={(x,y)},其中包含低质量提示对x和高质量提示对y,我们对仅解码器语言模模型(BLOOM)进行微调,以输出具有给定指令和低质量提示x的高质量令牌tokeny={y1,...,yn}。

我们使用自回归语言建模目标来微调语言模型:

Lsft=−∑ilogP(yi∣x,y1,...,yi−1)

Step 2. RM

我们基于PickScore 和 Aesthetic Score来训练奖励模型。

简单地说,PickScore是一个基于文本到图像提示和真实用户偏好的大型数据集训练的偏好模型,它在预测人类对图像的偏好方面表现出超人的表现。我们计算低质量提示和相应高质量提示生成的图像的PickScore。为了减少随机种子对TIS模型生成的图像质量的影响,我们使用8种不同的随机种子生成图像并对结果进行平均。计算的平均PickScore PS被用作训练奖励模型的基础真相。损失函数为:

Lps=−N1∑iNMSE(rps(x,y),PS),

其中rps(x,y)是提示对(x,y)的奖励模型的标量输出。MSE是均方误差。N为样本总数。

类似地,奖励模型还被训练以将图像中的相应提示与美学分数匹配AES:

Laes=−N1∑iNMSE(raes(y),AES),

其中raes(y)是奖励模型的标量输出。

最后,我们使用α作为平衡因子,将两个奖励模型的得分组合为最终奖励:

r(x,y)=α⋅rps(x,y)+(1−α)⋅raes

Step 3. PPO(RL)

由于收集到的数据集不可避免地包含一些噪声,例如,低质量提示与相应的高质量提示之间的一致性相对较低,因此监督训练模型 ρ 的性能可能不令人满意。为了进一步提高模型性能,我们初始化一个策略π=ρ , 然后微调π来使用强化学习执行任务。我们利用近端策略优化(PPO) 算法直接优化预期奖励:

Ex∼D,y∼π(⋅∣x)[r(x,y)−β⋅logρ(y∣x)π(y∣x)],

其中β为Kullback-Leibler (KL)罚系数。它可以防止政策偏离 ρ 。我们在这里采用自适应KL惩罚。

算法评测

为了验证BeautifulPrompt的有效性,我们在一些基于模型打分的客观指标和人类主观评估上做了实验:

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt_数据集_04

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt_数据_05

我们也对算法的模块进行了详细有效性分析,我们可以算法的各个流程都是有效的。

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt_自然语言处理_06

为了更好地服务开源社区,BeautifulPrompt算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎NLP从业人员和研究者使用。

EasyNLP开源框架:<https://github.com/alibaba/EasyNLP>

参考文献

  • Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
  • Stiennon, Nisan, et al. "Learning to summarize with human feedback." Advances in Neural Information Processing Systems 33 (2020): 3008-3021
  • Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022
  • Kirstain, Yuval, et al. "Pick-a-pic: An open dataset of user preferences for text-to-image generation." arXiv preprint arXiv:2305.01569 (2023)

论文信息

论文标题:BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis
论文作者:曹庭锋、汪诚愚、刘冰雁、吴梓恒、朱金辉、黄俊
论文pdf链接:<https://arxiv.org/abs/2311.06752>

标签:Diffusion,Prompt,提示,EMNLP,模型,BeautifulPrompt,高质量,图像,低质量
From: https://blog.51cto.com/u_15316473/8721129

相关文章

  • Prompt创新引领对话系统未来
    随着人工智能技术的快速发展,自然语言处理领域中的对话系统成为了研究热点。千帆大模型平台的海量Prompt模板库,给该领域带来了前所未有的变革和影响。本文将重点探讨千帆大模型平台的海量Prompt模板库的三个主要特点及其实践意义。一、海量数据,丰富多样的对话系统训练素材千帆大模型......
  • 掌握Prompt工程,开启AI大模型新时代
    人工智能(AI)领域正在快速发展,各种专业术语和黑话也层出不穷,使得新入行的人往往感到无所适从。特别是在涉及到AI大模型的领域,一些关键概念如提示工程(prompt)、向量工程(embedding)和微调工程(fine-tune)更是晦涩难懂。本文将用简洁明了的语言,详解这些行业黑话,帮助你迅速搞懂它们。一、提示......
  • 解密Prompt系列20. LLM Agent之再谈RAG的召回多样性优化
    几个月前我们就聊过RAG的经典方案解密Prompt系列14.LLMAgent之搜索应用设计。前几天刚看完openAI在DevDay闭门会议上介绍的RAG相关的经验,有些新的感悟,借此机会再梳理下RAG相关的优化方案。推荐直接看原视频(外网)ASurveyofTechniquesforMaximizingLLMPerformanceRAG最关键......
  • Stable diffusion
    目前来说效果比较好的影像生成模型,就算不是StableDiffusion,套路也和其相似.而StableDiffusion就是目前最好的影像生成模型.Howitworks目前最好的影像生成模型,其内部基本上由三个元件组成.第一个元件是TextEncoder,它能把输入的文字叙述变成对应的向量;接下来是一......
  • 什么是提示工程 Prompt Engineering
    一、什么是提示工程(PromptEngineering)提示工程,也称为"Γ指令工程"。在人工智能领域,Prompt指的是用户给大型语言模型发出的指令。例如,“Γ讲个笑话”、“Γ用Python编个贪吃蛇游戏”、“Γ给男/女朋友写封情书"等。虽然看似简单,但实际上,Prompt在人工智能时代扮演着非常重要的角色。......
  • 软件测试/人工智能|探究 LangChain 核心模块:PromptsModelsParsers
    简介LangChain是一种新兴的语言处理平台,其核心模块之一即PromptsModelsParsers。这一模块扮演着关键的角色,为LangChain的功能和性能提供了坚实的基础。在这篇文章中,我们将深入探讨PromptsModelsParsers模块的工作原理、功能和其对语言处理的重要性。什么是PromptsModels......
  • StableDiffusion笔记
    title:StableDiffusion笔记banner_img:https://drive.studyinglover.com/api/raw/?path=/photos/blog/background/1679396994125.pngdate:2023-5-2915:36:00categories:-笔记tags:-文字生成图片StableDiffusion是一个图像生成方法,由 StabilityAI and Runway......
  • 新火种AI | Stable Video Diffusion来了!普通人拍大片指日可待
    作者:小岩随着技术的不断进步,AI领域取得了巨大的突破。特别是在图片生成这个赛道,AI目前能做到的成绩超乎想象。或许就在1年以前,很多人,特别是一些专业从业者对AI绘画的印象还停留在“元素要靠东拼西凑”“废图率太高”“成品无法直接使用”等方面,但如今,高质量AI绘图软件的表现完全可......
  • change windows cmd prompt 修改windows命令行提示符
    通过修改环境变量控制cmd提示符。 refcmd-HowdoIchangethecommand-linepromptinWindows?-StackOverflowhttps://stackoverflow.com/questions/12028372/how-do-i-change-the-command-line-prompt-in-windowsAbetterPROMPTforCMD.EXEorCoolPromptEnv......
  • 解密Prompt系列19. LLM Agent之数据分析领域的应用:Data-Copilot & InsightPilot
    在之前的LLMAgent+DB的章节我们已经谈论过如何使用大模型接入数据库并获取数据,这一章我们聊聊大模型代理在数据分析领域的应用。数据分析主要是指在获取数据之后的数据清洗,数据处理,数据建模,数据洞察和数据可视化的步骤。可以为经常和数据打交道,但是并不需要太过艰深的数据分析......