首页 > 其他分享 >NLP论文速读(CVPR 2023)|更好的文生图人类偏好对齐

NLP论文速读(CVPR 2023)|更好的文生图人类偏好对齐

时间:2024-11-30 13:29:17浏览次数:14  
标签:NLP 速读 文生 模型 人类 生成 偏好 Score 图像

论文速读|Human Preference Score: Better Aligning Text-to-Image Models with Human Preference

论文信息:

简介:

      本文背景是深度生成模型的快速发展,尤其是文本到图像模型(text-to-image models)引起了公众的极大关注。这些模型能够根据文本提示生成图像,但在实际应用中,生成的图像往往与人类偏好不一致,例如生成的人物肢体和面部表情组合不自然。现有的评估指标,如Inception Score (IS) 和 Fréchet Inception Distance (FID),并不能很好地反映人类对图像的偏好。因此,本文旨在解决现有模型与人类偏好不一致的问题。

      本文的动机在于现有的图像生成模型在实际应用中存在明显的局限性,即生成的图像与用户的实际偏好和意图不匹配。这不仅影响了用户体验,也限制了这些模型在更广泛领域的应用潜力。因此,研究者们收集了大量用户对生成图像的选择数据,以期通过分析这些数据来训练一个能够预测人类偏好的分类器,并据此提出一种新的方法来指导图像生成模型,使其输出更符合人类的偏好。

论文方法:

      本文提出了一种基于人类偏好分类器的方法来改进文本到图像模型。

      首先,研究者们收集了一个大规模的人类对生成图像选择的数据集,该数据集包含了由用户提示生成的98,807张多样化图像以及25,205个人类选择。

      然后,他们使用这个数据集训练了一个人类偏好分类器,并基于该分类器定义了人类偏好得分(Human Preference Score, HPS)。HPS是通过将图像和文本提示输入到经过微调的CLIP模型中,计算它们之间的余弦相似度来得到的。

      接着,研究者们提出了一种简单的方法来调整Stable Diffusion模型,使其更好地符合人类偏好。

      具体来说,他们通过LoRA(Low-Rank Adaptation)技术对Stable Diffusion模型进行微调,使其能够区分偏好和非偏好的图像。在训练过程中,对于非偏好的图像,他们在对应的提示前添加了一个特殊的前缀,以便模型在学习过程中能够识别并避免生成这类图像。通过这种方式,调整后的模型在生成图像时能够更好地捕捉用户的意图,并减少不自然的图像生成,从而生成更符合人类偏好的图像。

论文实验:

      论文中的实验部分涉及到了对原始Stable Diffusion模型(SD 1.4)和经过调整的模型(Adapted model)的比较。这些模型被评估了多个指标,包括Fréchet Inception Distance(FID)、Aesthetic Score、CLIP Score和HPS(Human Preference Score)原始的Stable Diffusion模型(SD 1.4)和调整后的模型在FID、Aesthetic Score、CLIP Score和HPS四个不同的指标上进行了比较。FID用于衡量生成图像与真实图像之间的距离,Aesthetic Score和CLIP Score评估图像的美学质量,而HPS则是本文提出的新指标,用于衡量图像与人类偏好的一致性。实验结果通过表格和图表的形式呈现,使得读者可以直观地理解模型性能的变化。Table 4就是一个例子,它宏观地展现了不同模型在各项指标上的表现。

论文链接:

https://arxiv.org/abs/2303.14420

标签:NLP,速读,文生,模型,人类,生成,偏好,Score,图像
From: https://blog.csdn.net/2401_85576118/article/details/144148217

相关文章