本文是LLM系列文章,针对《Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators》的翻译。
与人类判断相一致:配对偏好在大型语言模型评估者中的作用
摘要
大型语言模型(LLM)作为评估生成的自然语言质量的自动评估器,已经证明了其很有前途的能力。然而,LLM在评估中仍然表现出偏见,并且经常难以产生与人类评估相一致的连贯评估。在这项工作中,我们首先对LLM评估者和人类判断之间的偏差进行了系统研究,揭示了旨在减轻偏差的现有校准方法不足以有效地调整LLM评估器。受RLHF中偏好数据使用的启发,我们将评估公式化为一个排序问题,并引入了成对偏好搜索(PAIRS),这是一种不确定性引导的搜索方法,使用LLM进行成对比较并有效地对候选文本进行排序。PAIRS在代表性评估任务上取得了最先进的性能,并比直接评分有了显著改进。此外,我们深入了解了成对偏好在量化LLM传递性中的作用,并展示了PAIRS如何从校准中受益。
1 引言
2 LLM计算器校准的局限性
3 不确定性引导的成对偏好搜索
4 相关工作
5 实验
6 结论
我们首先进行了系统分析,揭示了LLM和人类评估者之间的偏差,这无法通过应用校准技术有效缓解。受RLHF的启发,我们提出成对比较本质上更符合人类的判断。我们从传递性的角度将评估公式化为一个排名问题,并提出了PAIRS,这是一种高效、可
标签:Evaluators,PAIRS,Language,校准,Large,偏好,搜索,LLM,评估 From: https://blog.csdn.net/c_cpp_csharp/article/details/139649621