首页 > 其他分享 >RFFT:数据与代码已开源,京东推出广告图生成新方法 | ECCV 2024

RFFT:数据与代码已开源,京东推出广告图生成新方法 | ECCV 2024

时间:2024-08-29 10:05:22浏览次数:13  
标签:mathbf ECCV align RFNet 生成 2024 RFFT 广告 图像

论文将多模态可靠反馈网络(RFNet)结合到一个循环生成图片过程中,可以增加可用的广告图片数量。为了进一步提高生产效率,利用RFNet反馈进行创新的一致条件正则化,对扩散模型进行微调(RFFT),显著增加生成图片的可用率,减少了循环生成中的尝试次数,并提供了高效的生产过程,而不牺牲视觉吸引力。论文还构建了一个可靠反馈100万(RF1M)数据集,包含超过一百万张由人类标注的生成广告图片,帮助训练RFNet准确评估生成图片的可用性,准确地反映人类的反馈。

来源:晓飞的算法工程笔记 公众号

论文: Towards Reliable Advertising Image Generation Using Human Feedback

Introduction


  一张引人注目的广告图片对电子商务的成功至关重要,因为它可以提高点击率(CTR)。手工创作需要显著的人力成本,因此自动广告图片生成的需求正在上升。然而,先前的方法往往导致产品与背景视觉上的不匹配。最新的扩散模型提供了一种解决方案,与ControlNet的结合显示出在保持产品细节不变的同时为产品创造和谐背景的潜力。

  尽管生成模型在创造吸引人的背景方面有潜力,但存在如图1所示的频繁生成低质量广告图片的情况,包括空间和尺寸不匹配、模糊不清和形状错觉等多种情况。这些有缺陷的图片可能导致顾客对产品的误解,降低购物体验质量,因此需要大量人力成本来检查生成的图片,限制了生成模型在广告图片制作中的广泛应用。因此,核心问题在于可用图片的生成率低,即如何建立一个可靠的广告图片生成流水线,能够生产出高可用率的图片。

  一种自然的解决方案是通过重复生成图像直到获得可用图像(循环生成),因为生成过程中存在随机性。为了替代在这一重复过程中的人工检查,论文引入一种新的可靠反馈网络(RFNet)作为人类检查员,评估生成的广告图片的可用性。由于仅依赖单一生成的图片,模型无法有效地获取关键信息,例如产品是什么以及产品在背景中的表现。因此,RFNet集成了多种辅助模态,提供关键信息来判断不同情况下的可用性。同时,论文构建了一个大规模数据集,称为可靠反馈百万数据集(RF1M),包括超过一百万张精心生成的广告图片,并配有丰富的人类注释,这对于准确训练RFNet以反映人类反馈起到了关键作用。

  虽然循环生成显著增加了可用图像的数量,但由于生成模型固有的能力不足,多次尝试会显著延长生成过程。利用人类反馈来增强扩散模型的能力提供了一种可行的选择,能够成功提升了生成图像的视觉质量。然而,生成图像的视觉质量和可用性之间存在权衡关系,例如,具有重复和简单背景的产品虽然可用率高,但美观度低。为了解决这个问题,论文提出了一种新的损失项,一致性条件(CC)正则化 \(L_{CC}\) ,以抵消生成背景的统一性和退化,规避传统Kullback-LeiblerKL)正则化的对抗性质。通过利用这一正则化项,由RFNet评估生成图像偏离可用类型的反馈直接反向传播到微调扩散模型(RFFT),显著提升了生成广告图像的可用率,同时不影响其美学品质。这一方法为解决可靠广告图像生成的挑战提供了全面的解决方案。

  论文的主要贡献包括:

  1. 一个广告图像生成解决方案,循环生成以及新型多模态模型RFNet,模拟人类反馈并有效利用各种模态来帮助区分细粒度的问题类型。
  2. 一个直观而有效的方法RFFT,利用人类反馈来精化扩散模型,同时采用创新的一致条件正则化来防止崩溃。
  3. 一个大规模多模态数据集RF1M,包含超过一百万张生成的广告图像,并带有丰富的注释。

Dataset


  通过精细的人类反馈构建的可靠反馈一百万(RF1M)数据集,作为检查和改进广告图像生成的关键资源。与当前的大规模图像生成数据集Laion-5BDiffusionDBPick-a-Pic相比,RF1M专门为广告领域设计,解决了该领域对广泛数据资源的迫切需求。以下是对其构成、注释及其对社区潜在影响的深入分析。

  • Composition

  该数据集使用京东商城广泛的产品收集而成。它包含1,058,230个样本,每个样本由多种组成部分组成,旨在全面理解广告图像生成:

  1. 生成的广告图像及相应的透明背景产品图像,并由专业设计师精心设计的提示。

  2. 由在电子商务数据上训练的密集预测变压器和U2-Net创建的深度和显著性图像,以及产品标题,有助于检查生成的广告图像的可用性。

  3. 人工标注的标签,指示图像是否可用于广告目的。

  这些元素共同为分析生成的广告图像提供了丰富的基础。图2展示了一些示例。

  • Annotation

  参与标注的人员精通广告,并对广告图像的标准有深入的理解。在数据集中,样本已进一步细分为五个细粒度类别,如图1所示:

  1. Available:适合用于广告目的的图像。
  2. Space Mismatch:产品与背景之间空间关系不合适的图像,例如产品的一部分漂浮着。
  3. Size Mismatch:产品大小与背景之间的差异,例如,按摩椅看起来比一个柜子小。
  4. Indistinctiveness:由于背景复杂或颜色相似,产品未能突出的图像。
  5. Shape Hallucination:背景错误地延伸了产品形状,增加了像底座或腿这样的元素。
  • Potential Impact

RF1M凭借其多模态设计和全面功能,是RFNet训练和RFFT的基石,并将进一步显著影响电子商务广告领域及更广泛的领域,具有以下三个亮点:

  1. Large scale:凭借其广泛的产品类别和图像类型,RF1M超越了以往的广告数据集BG60kPPG30k和人类反馈数据集ImageRewardDBRichHF-18K,同时与Pick-a-Pic数据集规模相当,为RFNet在多样化的广告图像生成任务中准确反映人类反馈提供了坚实的基础。
  2. Scalability:RF1M的多模态性质为RFNet提供了充足的信息,使其能够精确地进行判断。除了生成可靠的广告图像外,它还支持高级图像理解和图像抠图等任务。这种灵活性确保了数据集能够满足不断变化的需求,并可以在广告以及其他领域广泛应用。
  3. Visual appeal:论文精心设计了针对产品特征的提示和生成模型,因此生成的图像具有令人满意的美学效果,能够吸引顾客的注意力。我们在京东进行了为期一周的在线A/B测试,从超过6000万次曝光中获得了2.2%的点击率增长,凸显了这些图像的高质量,准确捕捉了用户的偏好。

Methodology


Preliminaries

  论文生成广告图像的方法如图3所示,从描述所需背景的文本提示和带有透明背景的产品图像 ( \(I_o\) ) 开始。文本提示被输入到Stable Diffusion中,而 ( \(I_o\) ) 在输入ControlNet之前经过cannny边缘检测预处理。采用DDIM作为去噪调度,第 ( t ) 步的潜在表示 ( x ) 计算如下:

\[\begin{align} x_{t}=\sqrt{\bar{\alpha}_{t}} \frac{x_{t+1}-\sqrt{1-\bar{\alpha}_{t+1}} \epsilon_\theta\left(x_{t+1}, t+1\right)}{\sqrt{\bar{\alpha}_t+1}}+\sqrt{1-\bar{\alpha}_{t}} \epsilon_\theta\left(x_{t+1}, t+1\right), \label{eq1} \end{align} \]

  其中, \(\epsilon_{\theta}\) 表示预测添加噪声的模型, \(\{\bar{\alpha}\}\) 是控制前向添加噪声过程的系数集合。为了保持产品的完整性并确保背景的连贯性,采用修补技术,将潜在表示 \(x_{t}\) 经过以下处理:

\[\begin{align} x_{t}= (\mathbf{I}-M)\otimes x_{t} + M\otimes x_{o}, \label{eq2} \end{align} \]

  其中, \(x_{o}\) 是 \(I_o\) 的潜在表示, \(M\) 是产品的掩模, \(\otimes\) 表示逐元素乘法。在获得 \(x_0\) 后,该潜在表示被转换为生成的图像 \(I_g\) 。

Recurrent Generation with RFNet

  由于固有的随机性,重复生成可以显著扩展可用图像的数量。为了自动化检查过程并消除人类参与,引入了一个多模型RFNet用于精确确定生成的图像是否可用,如图4所示。除了 \(I_o\) 和 \(I_g\) ,RFNet还结合了来自辅助模态的信息:

  1. 由深度估计模型生成的 \(I_g\) 的深度图像 \(I_d\) ,突出显示了产品相对于背景的位置;

  2. 由显著性检测模型生成的 \(I_g\) 的显著性图像 \(I_s\) ,勾画出产品的轮廓;

  3. 产品标题 \(Cap\) ,提供有关产品属性的见解。

  \(I_o\) , \(I_g\) , \(I_d\) 和 \(I_s\) 被送入图像编码器以获取各自的图像嵌入 \(\{\mathbf{e_o}, \mathbf{e_g}, \mathbf{e_d}, \mathbf{e_s}\}\) 。同时, \(Cap\) 被输入到BERT中,以获取文本嵌入 \(\mathbf{e_c}\) ,有助于识别产品的属性。

  由于产品标题通常包含大量信息,例如品牌,从标题中可以提炼与视觉相关的属性。因此,首先采用了 \(N_1\) 个特征过滤模块(FFM),每个模块包括一个交叉注意力层和若干卷积层。FFM的输出被表述为:

\[\begin{align} \mathbf{e_f} = \text{Conv}\left(\text{Conv}(\text{CrossAttention}(\mathbf{e_o}, \mathbf{e_c})) \otimes \text{Conv}(\mathbf{e_o})\right)+ \mathbf{e_o}, \end{align} \]

  其中, \(\mathbf{e_o}\) 充当交叉注意力层中的 \(Query\) ,而 \(\mathbf{e_c}\) 同时作为 \(Key\) 和 \(Value\) 。 \(\text{Conv()}\) 表示具有 \(1\times1\) 核的卷积层, \(\otimes\) 表示逐元素乘法。该过程确保从标题中提取的关键信息有效地与图像嵌入集成,增强了模型对产品的理解能力。

  通过融合嵌入 \(\mathbf{e_f}\) ,不同的特征进一步通过 \(N_2\) 个自注意力层整合,

\[\begin{align} \mathbf{f} = \text{SelfAttention}(\text{Concat}(\mathbf{e_f}, \mathbf{e_g}, \mathbf{e_d}, \mathbf{e_s})), \end{align} \]

  其中, \(\text{Concat()}\) 表示拼接操作。这些堆叠层捕获了嵌入中的关键特征。最后,一个全连接分类器确定了生成图像每个案例的概率。

  在大规模RF1M数据集上训练的RFNet,通过考虑全面的视觉和文本特征,并提供细致的反馈,准确评估生成的广告图片的可用性。这种能力与递归生成策略相结合,显著增加了可用于广告的生成图像数量,实现了自动化生成。

RFFT with Consistent Condition regularization

  尽管递归生成能够总体上生成更多可用的图像,但生成模型本身的能力较差导致生产过程冗长且低效,给应用带来了巨大挑战。论文的端到端生成-检测流水线允许来自RFNet的反馈梯度直接对扩散模型进行微调,增强其能力。具体而言,论文提出的RFFT40-step去噪过程中选择最后10-step中的随机step \(t\) 来生成 \(\hat{x}_0^t=\frac{x_{t+1}-\sqrt{1-\bar{\alpha}_{t+1}} \epsilon_\theta\left(x_{t+1}, {t+1}\right)}{\sqrt{\bar{\alpha}_{t+1}}}\) 。生成的 \(\hat{x}_0^t\) 经过后处理成 \(\hat{I}_g^t\) ,然后通过RFNet进行检查以确定其可用性,其反馈计算如下:

\[\begin{align} F_{AC} = -\frac{1}{N}\sum_{i=1}^{N} \mathbf{y}_d\text{log}(\mathbf{\hat{o}_i}), \end{align} \]

  其中, \(\mathbf{y}_d\) 是表示所需的“可用”类别的one-hot向量,向量 \(\mathbf{\hat{o}_i}\) 包含每个生成图像案例的概率, \(N\) 是样本总数。然后,梯度 \(\nabla F_{AC}\) 被反向传播,以引导模型生成更高概率可用的图像。

  然而,训练模型可靠性的目标与模型生成的图像美学相矛盾,例如,重复且简单的背景可以完全避开前面提到的不良情况。因此,如图5.a所示,随着训练的进行,模型实现了极高的可用率,但产生了同质化且美学上崩溃的输出。因此,需要一种训练方法来提高图像可用性的同时保持其美学稳定性。一种常见的解决方案涉及Kullback-LeiblerKL)正则化,这是一个损失项,确保修改后的模型不会显著偏离期望的分布,从而保持多样性,防止收敛到次优且重复的结果。该损失项可以表述为:

\[\begin{align} L_{KL} = \text{KL}(p_{\theta}(\hat{x}_0^t|x_t,z,c)\Vert(p_{ref}(\hat{x}_0^t|x_t,z,c)), \end{align} \]

  其中, \(c\) 和 \(z\) 是图像和文本的控制条件, \(p_{\theta}\) 和 \(p_{ref}\) 分别表示当前模型和参考模型的分布。然而,反馈梯度努力将图像生成引向更高的可用率,而KL正则化则致力于保持生成的图像不变。这种对立反映了对抗训练的原则,并且对于实现双赢解决方案提出了挑战。

  为此,论文打算不再专注于保持图像不变,而是致力于保持视觉质量。对于文本到图像的生成,视觉输出与输入文本条件 \(z\) 密切相关,以无需分类器的方式,通过从模型的隐式分类器中提取文本指导信息:

\[\begin{align} \nabla_{x_t}\text{log}p_{\theta}^t(z|x_t, c) \approx - \frac{1}{\sqrt{1-\bar{\alpha}_{t}}}\Big(\epsilon_{\theta}(x_t, z, c) - \epsilon_{\theta}(x_t, c)\Big), \end{align} \]

  这表明文本条件影响图像生成的方向。为了确保图像可用性的提高不会损害核心条件,论文引入了一致条件(CC)正则化项 \(L_{CC}\) ,如下所示:

\[\begin{align} L_{CC} = \Vert \nabla_{x_t}\text{log}p_{\theta}^t(z|x_t, c) - \nabla_{x_t}\text{log}p_{ref}^t(z|x_t, c)\Vert_{2}. \end{align} \]

  图5.b展示了 \(L_{CC}\) 相对于 \(L_{KL}\) 的优势。虽然 \(L_{KL}\) 通过限制来自 \(\nabla F_{AC}\) 的更新,可能导致刚性,但 \(L_{CC}\) 提供了一种双赢的方法。它保持条件的方向,使模型能够被精调以生成更多可用的图像。因此,用于在RFFT中微调扩散模型的最终反馈是:

\[\begin{align} F_{total} = F_{AC}+\beta L_{CC}, \end{align} \]

Experiments




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:mathbf,ECCV,align,RFNet,生成,2024,RFFT,广告,图像
From: https://www.cnblogs.com/VincentLee/p/18386026

相关文章

  • Ynoi 做题笔记(2024 年暑假)
    P9992[YnoiEasyRound2024]TEST_130之前大概想出来了,但是没想清楚。发现每次询问\(w,d\)就相当于算\(w\)子树里离\(w\)距离不超过\(d\)的点的贡献之和,\(w\)的贡献是\(d+1\)(因为\(N(w,0),N(w,1),\ldots,N(w,d)\)都可以),\(w\)往下第一层的每个点分别的贡......
  • PCSR:已开源,三星提出像素级路由的超分辨率方法 | ECCV 2024
    基于像素级分类器的单图像超分辨率方法(PCSR)是一种针对大图像高效超分辨率的新方法,在像素级别分配计算资源,处理不同的恢复难度,并通过更精细的粒度减少冗余计算。它还在推断过程中提供可调节性,平衡性能和计算成本而无需重新训练。此外,还提供了使用K均值聚类进行自动像素分配以及后......
  • 2024.8.28 总结
    上午做了一个很板的广义SAM题,算是练了一下广义SAM,当时基本上能自己写出广义SAM了,但是还是写错了两个地方(好像是把p写成了q)。大概是做完这道题之后我去看了看lr的博客,发现他的博客里有计划。于是我也写了一个最近的计划。在这之后我就去挑了个较基础的SA题来写。后缀......
  • 2024年最新版Typora免费使用教程心得
    在数字化时代,写作已成为我们日常沟通、知识分享的重要手段。然而,繁琐的排版格式常常让人望而却步。幸运的是,Markdown编辑器以其简洁的语法和高效的排版功能,为我们带来了福音。Typora是一款功能强大的文本编辑器,它采用所见即所得的编辑方式,能够让用户快速地编辑各种文本格式,包括Mar......
  • 2024-8月总结
    一转眼就到8月了。其实之前一直想写个总结,但是一直拖延。今天不拖了,来写吧。一看日子,竟然离上一次总结恰好也是三个月。 ##工作工作好像也没什么好说的,可能确实没什么激情了。这三个月花了大力气完成了年度计划中的一部分。算是不小的一部分吧。偶尔也有一些疑难问题要解......
  • P10786 [NOI2024] 百万富翁
    思路:先考虑Sub1的部分分,暴力算法:暴力询问所有\(i<j\)的数对\((i,j)\)。则一个\(i\)为最大值当且仅当\((i,j)\)的返回值都是\(i\)且在\(i\)之前没有满足此条件的位置。则设\(\operatorname{F}(n)=\frac{n(n-1)}{2}\)表示暴力找出\(n\)个数中的最大值需要......
  • EPIC Institute of Technology Round Summer 2024 (Div. 1 + Div. 2) VP记录
    EPICInstituteofTechnologyRoundSummer2024(Div.1+Div.2)VP记录A一眼\((n-1)m+1\)。B最后的数列是固定的,每个数与最后数列的数相减后,对差值求和再加上最大值即可。C唐诗C题,获得\(3\)发罚时。只有一个数右边的数归零了,它才会归零。右往左扫,如果右边......
  • P10789 [NOI2024] 登山
    思路:我们可以对于每个\(i\)找到它能跳到的最远的点和最近的点,倍增求一下\(k\)级祖先即可,令\([l_i,r_i]\)新表示\(i\)能跳到其祖先中深度在\([l_i,r_i]\)内的点;同时令\(lim_i=d_i-h_i-1\)表示\(i\)至少要跳到\(lim_i\)的深度。考虑动态规划算法,令\(dp_i\)......
  • 基于SpringBoot+Vue的大学生志愿者信息管理系统设计与实现(2024年最新,原创项目)
    文章目录1.前言2.系统演示录像3.论文参考4.代码运行展示图5.技术框架5.1SpringBoot技术介绍5.2Vue技术介绍6.可行性分析7.系统测试7.1系统测试的目的7.2系统功能测试8.数据库表设计9.代码参考10.数据库脚本11.找我做程序,有什么保障?12.联系我们1.前......
  • 基于SpringBoot+Vue的建筑工程项目管理系统设计与实现(2024年最新,原创项目)
    文章目录1.前言2.系统演示录像3.论文参考4.代码运行展示图5.技术框架5.1SpringBoot技术介绍5.2Vue技术介绍6.可行性分析7.系统测试7.1系统测试的目的7.2系统功能测试8.数据库表设计9.代码参考10.数据库脚本11.找我做程序,有什么保障?12.联系我们1.前......