一、前言
现有的广告图片大多依赖人工制作,存在效率和成本的限制。尽管最近AIGC技术取得了卓越的进展,但其在广告图片的应用还存在缺乏卖点信息、难以规模化和个性化以及不利于卖点展示等问题。为了解决上述业界难题,京东广告部门在2023年提出了一系列创新性方法:首先提出了关系感知扩散模型将卖点信息叠加在人工制作的商品图片上;之后提出了融合类目共性和个性化风格的背景生成模型来实现规模化和个性化的图片自动生成;最后提出了基于规划和渲染的海报生成模型来实现图文创意的端到端生成。借助以上方法,既实现了高质量广告创意的自动生成,又带来了平台广告收入的提升。
二、基于关系感知扩散模型的海报布局生成
【2.1 技术背景】
海报布局的生成旨在预测图像上视觉元素的位置和类别。此任务对于海报的美学吸引力和信息传播起到了至关重要的作用。创建一流的海报布局需要同时考虑到布局元素的彼此关系和图像组成,因此这项要求很高的任务通常由专业设计师完成。但是人工设计是一件既耗时又费财的事情。为了以低成本生成高质量的海报布局,自动布局生成在学术界和工业界越来越流行。
随着深度学习的出现,一些内容无关的方法被提出用于学习布局元素之间的关系。但这些方法更关注元素之间的图形关系而忽略视觉内容对海报布局的影响,直接将这些方法用于海报布局生成可能会产生负面影响。为了解决这些问题,一些内容有关的方法被提出用于布局生成。尽管这些方法考虑了图像本身的内容信息,甚至额外引入了图片的空间信息,但是两个重要的因素仍该被考虑进去。一方面,文字在海报的信息传递中扮演了重要的作用;另一方面,一个好的布局不仅要考虑单个元素的坐标是否准确,也要考虑到元素之间的坐标关系。
针对上述问题,我们提出了一个关系感知扩散模型用于海报布局生成领域,该模型同时考虑了视觉-文本和几何关系因素。 由于扩散模型有在许多生成任务中取得了巨大成功,我们遵循噪声到布局的范式,通过学习去噪模型逐渐调整噪声来生成海报布局。在每个采样步骤中,给定一组以高斯采样的框分布或最后一个采样步骤的估计框为输入,我们通过图像编码器提取RoI特征作为生成的特征图。 然后是图文关系感知模块(VTRAM)被提出用于建模视觉和文本特征之间的关系,这使得布局结果由图像和文本内容同时决定。 与此同时,我们设计一个几何关系感知模块 (GRAM)基于RoI彼此的相对位置关系增强每个 RoI 的特征表达,这使得模型能够更好地理解布局元素之间的上下文信息。受益于新提出的VTRAM和GRAM模块,用户可以通过预定义布局或改变文本内容以控制布局生成过程。
【2.2 基于扩散模型的海报布局生成】
扩散模型是一类使用马尔可夫链将噪声转换为数据样本的概率生成模型。 如上图所示,我们将海报布局生成问题作为一个噪声到布局的生成过程,通过学习去噪模型以逐步调整噪声布局。 因此扩散模型生成的海报布局也同样包括两个过程:扩散过程和去噪过程。 给定一个海报布局,我们逐渐添加高斯噪声以破坏确定性的布局结果,我们称这个操作为扩散过程。相反给定初始随机布局,我们通过逐步去噪的方式获得最终海报布局称为去噪过程。
【2.3 图文关系感知】
相较于直接将视觉特征和文本特征简单拼接,我们设计了一个能够识别视觉-文本关联的模块(VTRAM)来对齐图像与文本的特征域。这个模块能够意识到视觉元素和文本元素之间的关系,并能从图像和文本中优化特征的利用,这样使得对内容的理解更加全面。上图展示了VTRAM的流程,它通过两步实现了第i个RoI特征
标签:海报,商品,布局,AIGC,生成,广告创意,图像,视觉,京东 From: https://www.cnblogs.com/Jcloud/p/18150186