论文速读|Quality Diversity through Human Feedback:Towards Open-Ended Diversity-Driven Optimization
论文信息:
简介:
本文的背景主要涉及两个领域:强化学习从人类反馈(Reinforcement Learning from Human Feedback, RLHF)和质量多样性(Quality Diversity, QD)算法。RLHF在缺乏明确性能指标的定性任务中显示出潜力,但通常用于优化平均人类偏好,这在需要模型响应多样性的生成任务中存在局限性。QD算法擅长识别多样且高质量的解决方案,但通常依赖于手动设计的多样性指标,这限制了其在复杂和开放领域任务中的适用性。
本文旨在结合这两种方法的优势,提出一种新的方法,通过人类反馈来推断多样性指标,从而增强QD算法在复杂和开放领域中的适用性和有效性。
本文的动机是通过人类反馈来推断多样性指标,从而提高QD算法在复杂和开放领域中的性能。具体动机包括:提高多样性和质量:在生成任务中,如文本到图像生成,需要模型能够生成多样且高质量的响应,以满足不同用户的需求。适应复杂任务:在复杂和开放领域中,手动设计多样性指标是不切实际的,因此需要一种自动发现多样性指标的方法。增强探索能力:多样性鼓励探索,这对于找到复杂问题的新颖和有效解决方案至关重要。没有多样性,优化算法可能会过早收敛,陷入局部最优或产生有限的响应集。
论文方法:
本文提出了一种名为Quality Diversity through Human Feedback (QDHF)的新方法,通过人类反馈逐步推断多样性指标,从而增强QD算法在复杂和开放领域中的适用性和有效性。
具体方法步骤如下:
第一步:多样性特征表示特征提取:使用一个特征提取器将输入数据转换为特征空间。这个特征提取器可以是任何能够将原始数据转换为有意义特征的模型。
第二步:潜空间投影:将提取的特征通过一个投影函数转换到一个更紧凑的潜空间。潜空间中的每个维度代表一个多样性指标,这些维度的大小和方向捕捉了不同的多样性概念,提供了一个紧凑且信息丰富的输入表示。
第三步:参数学习:投影函数的参数通过对比学习过程进行学习。
第四步:对齐多样性指标与人类直觉对比学习:使用对比学习策略,通过优化潜空间中的距离关系,使相似的嵌入更接近,不相似的嵌入更远离。具体来说,给定三个潜空间嵌入,如果人类判断第一个嵌入与第二个嵌入比与第三个嵌入更相似,那么就优化潜空间中的距离,使第一个和第二个嵌入的距离变小,而与第三个嵌入的距离变大。
第五步:人类相似性判断:使用Two Alternative Forced Choice (2AFC)方法获取人类对解决方案相似性的判断。当呈现三个解决方案时,评估者需要判断哪两个解决方案更相似。这种方法不仅适用于人类判断,也适用于启发式方法和AI系统生成的判断,使得框架在不同的反馈模式下都具有普遍适用性。
论文实验:
机器人臂任务的目标是为平面机器人臂的每个可达位置找到一个逆运动学解。
具体来说,任务是通过最小化关节角度的方差来优化解决方案。标准的多样性测量方法是机器人臂末端位置在2D空间中的坐标,这些坐标通过机器人臂的正运动学计算得出。
实验结果如表1所示,统计结果是基于20次重复试验得出的。
表中报告了QD分数(归一化到0-100的规模)和覆盖度,分别针对“所有解决方案”(整个训练过程中发现的解决方案)和“档案解决方案”(最终档案中的解决方案)。
实验结果表明,QDHF在机器人臂任务中显著优于AURORA和QDHF-Base,接近使用真实多样性指标的标准QD算法的性能。这表明QDHF能够通过人类反馈有效地推断多样性指标,从而提高QD算法在复杂和开放领域中的适用性和有效性。