本文是LLM系列文章,针对《Let’s Verify Step by Step》的翻译。
让我们一步一步地验证
摘要
近年来,大型语言模型在执行复杂多步推理的能力方面有了很大提高。然而,即使是最先进的模型也经常出现逻辑错误。为了训练更可靠的模型,我们可以转向结果监督,为最终结果提供反馈,也可以转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及人工反馈的高昂成本,仔细比较这两种方法非常重要。最近的工作已经开始进行这种比较,但许多问题仍然存在。我们进行了自己的调查,发现过程监督在训练模型解决具有挑战性的MATH数据集中的问题方面明显优于结果监督。我们的过程监督模型解决了MATH测试集代表性子集中78%的问题。此外,我们发现主动学习显著提高了过程监督的效率。为了支持相关研究,我们还发布了PRM800K,这是一个包含80万步级人类反馈标签的完整数据集,用于训练我们的最佳奖励模型。