首页 > 其他分享 >Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators

Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators

时间:2024-06-13 11:32:04浏览次数:19  
标签:Evaluators PAIRS Language 校准 Large 偏好 搜索 LLM 评估

本文是LLM系列文章,针对《Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators》的翻译。

与人类判断相一致:配对偏好在大型语言模型评估者中的作用

摘要

大型语言模型(LLM)作为评估生成的自然语言质量的自动评估器,已经证明了其很有前途的能力。然而,LLM在评估中仍然表现出偏见,并且经常难以产生与人类评估相一致的连贯评估。在这项工作中,我们首先对LLM评估者和人类判断之间的偏差进行了系统研究,揭示了旨在减轻偏差的现有校准方法不足以有效地调整LLM评估器。受RLHF中偏好数据使用的启发,我们将评估公式化为一个排序问题,并引入了成对偏好搜索(PAIRS),这是一种不确定性引导的搜索方法,使用LLM进行成对比较并有效地对候选文本进行排序。PAIRS在代表性评估任务上取得了最先进的性能,并比直接评分有了显著改进。此外,我们深入了解了成对偏好在量化LLM传递性中的作用,并展示了PAIRS如何从校准中受益。

1 引言

2 LLM计算器校准的局限性

3 不确定性引导的成对偏好搜索

4 相关工作

5 实验

6 结论

我们首先进行了系统分析,揭示了LLM和人类评估者之间的偏差,这无法通过应用校准技术有效缓解。受RLHF的启发,我们提出成对比较本质上更符合人类的判断。我们从传递性的角度将评估公式化为一个排名问题,并提出了PAIRS,这是一种高效、可

标签:Evaluators,PAIRS,Language,校准,Large,偏好,搜索,LLM,评估
From: https://blog.csdn.net/c_cpp_csharp/article/details/139649621

相关文章

  • SentencePiece: A simple and language independent subword tokenizer and detokeniz
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 1Introduction 2SystemOverview  3LibraryDesign 3.1LosslessTokenization  3.2Efficientsubwordtrainingandsegmentation 3.3Vocabularyidmanagement 3.4Customi......
  • monaco-editor 的 Language Services
    我们是袋鼠云数栈UED团队,致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值。本文作者:修能这是一段平平无奇的SQL语法SELECTid,sum(name)FROMstudentGROUPBYidORDERBYid;如果把这段代码放到monaco-editor(@......
  • 论文解读——AAMAS2024《OPEx: A Large Language Model-Powered Framework for Embodi
    一、研究背景  具身指令执行(EmbodiedInstructionFollowing,EIF)是指在一个特定的物理或虚拟环境中,使能自主代理(如机器人或虚拟代理)根据自然语言指令来执行复杂的任务。这种研究领域集中于探索自然语言理解与机器执行能力的结合,尤其是在模拟家庭或日常环境中,如何使代理......
  • Hungry Hungry Hippos Towards Language Modeling with State Space Models
    目录概H3代码FuD.Y.,DaoT.,SaabK.K.,ThomasA.W.,RudraA.andReC.Hungryhungryhippos:towardslanguagemodelingwithstatespacemodels.2022.概Mamba系列第五作:H3.H3感觉H3是之前的linearattention和SSM的一个结合,它所做的只是把line......
  • LISA: Reasoning Segmentation via Large Language Model
    Motivation&Abs现有的感知系统依赖人类的指示,难以主动推理以理解人类意图。新任务:reasoningsegmentation,模型需要根据给定的复杂/具有隐含意义的文本输出相应的segmask。新的benchmark:包含1000张左右图像的数据集(image-instruction-mask)。模型:LISA,既有LLM的语言生成能力......
  • CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based M
    本文是LLM系列文章,针对《CBT-LLM:AChineseLargeLanguageModelforCognitiveBehavioralTherapy-basedMentalHealthQuestionAnswering》的翻译。CBT-LLM:一个基于认知行为治疗的心理健康问答的中文大语言模型摘要1引言2相关工作3方法4实验5结论和未......
  • Arcee’s MergeKit: A Toolkit for Merging Large Language Models
    本文是LLM系列文章,针对《Arcee’sMergeKit:AToolkitforMergingLargeLanguageModels》的翻译。Arcee的MergeKit:一个用于合并大型语言模型的工具包摘要1引言2背景和相关工作3库设计:关键设计原则4MergeKit的可扩展性5MergeKit的普及性和有效性6结论和......
  • CoLLEGe: Concept Embedding Generation for Large Language Models
    本文是LLM系列文章,针对《CoLLEGe:ConceptEmbeddingGenerationforLargeLanguageModels》的翻译。CoLLEGe:大型语言模型的概念嵌入生成摘要1引言2相关工作3CoLLEGe:概念学习与语言嵌入生成4用于训练CoLLEGe的数据集5实验6结论和讨论摘要当前的语言......
  • Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
    发表时间:2024(ICLR2024)文章要点:文章提出用预训练的视觉语言模型作为zero-shot的rewardmodel(VLM-RMs)。好处在于可以通过自然语言来给定一个具体的任务,通过VLM-RMs让强化学习基于reward学习这个任务(usingpretrainedvision-languagemodels(VLMs)aszeroshotrewardmodels......
  • 《Optimizing the LINPACK Algorithm for Large-Scale PCIe-Based CPU-GPU Heterogene
    论文标题《OptimizingtheLINPACKAlgorithmforLarge-ScalePCIe-BasedCPU-GPUHeterogeneousSystems》为基于PCIe的大规模CPU-GPU异构系统优化LINPACK算法作者GuangmingTan、ChaoyangShui、YinshanWang、XianzhiYu和YujinYan来自中科院计算所初读摘要......