论文速读|Generative Reward Models
论文信息:
简介:
这篇论文探讨了如何提高现代大型语言模型(LLMs)的性能,特别是在强化学习从人类反馈(RLHF)过程中的效率和效果。RLHF方法虽然有效,但它需要大量的人类偏好数据来训练奖励模型,这不仅资源密集,而且技术上具有挑战性。此外,现有的基于人工智能的反馈(RLAIF)方法虽然可以解决数据收集问题,但它们生成的合成偏好标签可能与人类偏好判断不一致。因此,论文旨在解决如何有效地结合RLHF和RLAIF的优势,以改善合成偏好标签的质量,并提高LLMs的决策质量。动机在于现有的RLHF方法需要大量的人工标注数据,这限制了模型训练的规模和速度。同时,RLAIF虽然提供了一种替代方案,但其生成的偏好标签可能不完全符合人类的判断。为了克服这些限制,本文提出了一种混合方法,通过结合RLHF和RLAIF的方法,利用LLM自生成的推理轨迹来训练,从而产生与人类偏好判断相匹配的合成偏好标签。这种方法旨在提高模型在分布内任务的准确性,并增强其在分布外任务的泛化能力。
论文方法:
本文提出了一种名为GenRM的迭代算法,该算法训练LLM基于自生成的推理轨迹,以产生与人类偏好判断相匹配的合成偏好标签。GenRM方法则采取了一种不同的途径。它不是直接输出一个偏好概率,而是通过比较LLM对于两个答案指示符(I1和I2)的下一个词的概率。这种方法的核心在于利用LLM生成的偏好标签,而不是直接从人类标注中学习。CoT-GenRM方法在GenRM的基础上增加了一个中间步骤,即链式思考(Chain-of-Thought)推理。在这种方法中,模型首先生成一个推理轨迹(r),然后基于这个推理轨迹和一个答案指示符来输出最终的偏好判断。这种方法鼓励模型在做出偏好判断之前,生成一个逻辑上连贯的推理过程。
论文实验:
实验结果表明,STaR-DPO模型在分布内数据集上与最佳性能相当,并在RewardBench的分布外任务上展现出最强的泛化能力。这支持了论文提出的GenRM方法,即通过结合链式思考推理和迭代训练循环,可以显著提高LLMs的偏好建模性能。实验旨在评估提出的GenRM方法与传统的Bradley-Terry奖励模型、PairRM以及零样本RLAIF评估(LLM-as-a-judge)在不同任务上的表现。Figure 2显示了在UltraFeedback数据集上训练的模型在分布内数据(UltraFeedback)和分布外数据(RewardBench)上的性能比较。所有生成模型的得分是基于32个样本的多数投票结果。LLM-as-a-judge和GenRM (base)的零样本性能明显低于训练过的模型。Bradley-Terry RM、PairRM和训练过的GenRM模型在分布内数据上的准确率相当,约为73-74%。STaR-DPO模型在分布内数据上与最佳性能相当,在RewardBench的分布外任务上表现最强,尤其是在Safety类别上,STaR-DPO模型的准确率达到91.0%,远高于PairRM模型的81.8%。
论文链接:
https://arxiv.org/abs/2410.12832
原文来自:
NLP论文速读(斯坦福大学)|生成式奖励模型(Generative Reward Models)
标签:NLP,论文,速读,模型,生成式,GenRM,偏好,LLM,方法 From: https://blog.csdn.net/2401_85576118/article/details/143726742