《Towards a Unified View of Preference Learning for Large Language Models: A Survey》
链接:https://arxiv.org/pdf/2409.02795
github:https://github.com/kbsdjames/awesome-LLM-preference-learning
摘要
- 大型语言模型(LLMs)展现出强大的能力,但要实现与人类偏好的对齐,往往需要少量数据来有效提升性能。
- 研究领域分散,方法复杂,不同方法间的关系尚未充分探索。
- 本文提出了一个统一框架,将偏好学习策略分解为模型、数据、反馈和算法四个组成部分,以促进对现有算法的深入理解并探索不同策略的协同优势。
内容概述
- 引言:介绍了LLMs的能力和偏好对齐的必要性。
- 定义和公式化:定义了偏好学习的目标和过程。
- 统一视角:提出了一个统一的框架,将偏好学习分解为数据-反馈信号-反馈优化-评估四个组成部分。
- 并对目前的反馈偏好学习进行了系统的总结归纳
- 偏好数据:讨论了在线(on-policy)和离线(off-policy)数据收集方法。
-
偏好数据的收集被分为两大类:在线(On-policy)数据收集和离线(Off-policy)数据收集。下面详细介绍这两种数据收集方法:
-
在线(On-policy)数据收集
在线数据收集指的是直接从语言模型本身实时生成数据。这种方法类似于在线强化学习中的策略,其中模型通过与环境的实时交互来收集数据。具体步骤包括:
- 采样策略:使用不同的采样策略(如Top-K/Nucleus Sampling、Beam Search、Monte Carlo Tree Search等)来生成多样化的数据。
- 环境反馈:模型生成的数据会实时与环境(如用户或其他评估系统)交互,以获得关于生成数据的偏好反馈。
- 实时更新:根据环境的反馈,模型可以实时更新其参数,以更好地符合用户的偏好。
-
离线(Off-policy)数据收集
离线数据收集则是在模型训练过程之外独立进行的,通常使用预先收集好的数据集,或者利用初始模型生成的数据。这种方法不依赖于模型的实时反馈,而是使用已有的数据集进行训练。具体步骤包括:
- 人类标注数据:从人类标注者处获取数据,这些数据集通常包含了问题和对应的偏好标签。
- 利用高级LLMs生成数据:使用更高级的语言模型来模拟人类偏好,生成大量的偏好数据。
- 数据集构建:通过上述两种方式,构建包含丰富偏好信息的数据集,这些数据集可以在模型训练前准备好,用于离线训练。
-
具体实例
- 人类标注数据:例如,Webgpt、OpenAI的Human Preferences、HH-RLHF、SHP等数据集,它们通过人类评估员对模型生成的回答进行评分或选择,从而获得偏好数据。
- LLM生成数据:例如,RLAIF、Open-Hermes-Preferences、ULTRAFEEDBACK、UltraChat等项目,它们利用高级语言模型生成偏好数据,这些数据可以用于训练和优化模型。
-
通过这两种方法,研究者可以收集到反映人类偏好的数据,进而训练出更符合用户期望的语言模型。这些数据收集方法的选择取决于具体的应用场景、资源可用性以及对实时性的需求。
-
- 反馈:介绍了直接反馈和基于模型的反馈,包括奖励模型、成对评分模型和LLM作为评判。
- 算法:详细讨论了pointwise方法、pairwise对比、listwise对比和无训练对齐等算法。
- 其中有趣的是各家loss函数的设计都很雷同,本质是ltr loss
- 评估:探讨了基于规则的评估和基于LLM的评估方法。
未来研究方向
- 提高偏好数据的质量和多样性。
- 可靠的反馈和可扩展的监督。
- 先进的偏好学习算法。
- 更全面的LLM评估方法。