首页 > 其他分享 >NLP论文速读(斯坦福大学)|生成式奖励模型(Generative Reward Models)

NLP论文速读(斯坦福大学)|生成式奖励模型(Generative Reward Models)

时间:2024-11-13 09:49:11浏览次数:3  
标签:NLP 论文 速读 模型 生成式 GenRM 偏好 LLM 方法

论文速读|Generative Reward Models

论文信息:

图片

简介:

      这篇论文探讨了如何提高现代大型语言模型(LLMs)的性能,特别是在强化学习从人类反馈(RLHF)过程中的效率和效果。RLHF方法虽然有效,但它需要大量的人类偏好数据来训练奖励模型,这不仅资源密集,而且技术上具有挑战性。此外,现有的基于人工智能的反馈(RLAIF)方法虽然可以解决数据收集问题,但它们生成的合成偏好标签可能与人类偏好判断不一致。因此,论文旨在解决如何有效地结合RLHF和RLAIF的优势,以改善合成偏好标签的质量,并提高LLMs的决策质量。动机在于现有的RLHF方法需要大量的人工标注数据,这限制了模型训练的规模和速度。同时,RLAIF虽然提供了一种替代方案,但其生成的偏好标签可能不完全符合人类的判断。为了克服这些限制,本文提出了一种混合方法,通过结合RLHF和RLAIF的方法,利用LLM自生成的推理轨迹来训练,从而产生与人类偏好判断相匹配的合成偏好标签。这种方法旨在提高模型在分布内任务的准确性,并增强其在分布外任务的泛化能力。

论文方法:

图片

      本文提出了一种名为GenRM的迭代算法,该算法训练LLM基于自生成的推理轨迹,以产生与人类偏好判断相匹配的合成偏好标签。GenRM方法则采取了一种不同的途径。它不是直接输出一个偏好概率,而是通过比较LLM对于两个答案指示符(I1和I2)的下一个词的概率。这种方法的核心在于利用LLM生成的偏好标签,而不是直接从人类标注中学习。CoT-GenRM方法在GenRM的基础上增加了一个中间步骤,即链式思考(Chain-of-Thought)推理。在这种方法中,模型首先生成一个推理轨迹(r),然后基于这个推理轨迹和一个答案指示符来输出最终的偏好判断。这种方法鼓励模型在做出偏好判断之前,生成一个逻辑上连贯的推理过程。

论文实验:

图片

      实验结果表明,STaR-DPO模型在分布内数据集上与最佳性能相当,并在RewardBench的分布外任务上展现出最强的泛化能力。这支持了论文提出的GenRM方法,即通过结合链式思考推理和迭代训练循环,可以显著提高LLMs的偏好建模性能。实验旨在评估提出的GenRM方法与传统的Bradley-Terry奖励模型、PairRM以及零样本RLAIF评估(LLM-as-a-judge)在不同任务上的表现。Figure 2显示了在UltraFeedback数据集上训练的模型在分布内数据(UltraFeedback)和分布外数据(RewardBench)上的性能比较。所有生成模型的得分是基于32个样本的多数投票结果。LLM-as-a-judge和GenRM (base)的零样本性能明显低于训练过的模型。Bradley-Terry RM、PairRM和训练过的GenRM模型在分布内数据上的准确率相当,约为73-74%。STaR-DPO模型在分布内数据上与最佳性能相当,在RewardBench的分布外任务上表现最强,尤其是在Safety类别上,STaR-DPO模型的准确率达到91.0%,远高于PairRM模型的81.8%。

论文链接:

https://arxiv.org/abs/2410.12832

原文来自:

NLP论文速读(斯坦福大学)|生成式奖励模型(Generative Reward Models)

标签:NLP,论文,速读,模型,生成式,GenRM,偏好,LLM,方法
From: https://blog.csdn.net/2401_85576118/article/details/143726742

相关文章

  • 深入浅出Word2Vec:从原理到实战,如何利用词嵌入提升NLP应用
    深入浅出Word2Vec:从原理到实战,如何利用词嵌入提升NLP应用引言:为什么Word2Vec如此重要?自然语言处理(NLP)作为人工智能中的核心领域,面临着如何将人类语言转化为机器可以理解的形式的问题。在这方面,Word2Vec模型作为一种强大的词嵌入方法,极大地推动了NLP技术的进步。通过将每个......
  • 【杂学】先进的 NLP 技术 —— 旋转位置编码(Rotary Position Embedding,RoPE)
    Transformer已经渐渐成为目前LLM最通用底层架构之一,其中的位置编码也显得极其重要,由于注意力分数本质上是每个token的val加权和,并没有考虑其中的空间信息,因此需要在自注意力模块之前就将位置信息融合进序列中。绝对位置编码绝对位置编码是一种将序列中的每个位置进行编码......
  • CLIPFit:不绕弯子,直接微调比提示微调和适配器微调更好 | EMNLP'24
    来源:晓飞的算法工程笔记公众号,转载请注明出处论文:Vision-LanguageModelFine-TuningviaSimpleParameter-EfficientModification论文地址:https://arxiv.org/abs/2409.16718论文代码:https://github.com/minglllli/CLIPFit创新点提出了一种CLIPFit方法以高效地微......
  • 第二届生成式人工智能与信息安全国际学术会议(GAIIS 2025) 2025 2nd International Con
    @目录一、会议详情二、重要信息三、大会介绍四、出席嘉宾五、征稿主题一、会议详情二、重要信息大会官网:https://ais.cn/u/vEbMBz三、大会介绍四、出席嘉宾五、征稿主题如想"投稿"请点击如下图片......
  • NLP论文速读|Describe-then-Reason: 通过视觉理解训练来提升多模态数学的推理
    论文速读|Describe-then-Reason:ImprovingMultimodalMathematicalReasoningthroughVisualCompre-hensionTraining论文信息:简介:   该论文试图解决的问题是开源多模态大型语言模型(MLLMs)在复杂多模态数学推理任务中的表现不佳的问题。尽管这些模型在处理涉......
  • 第二届生成式人工智能与信息安全国际学术会议(GAIIS 2025)
    第二届生成式人工智能与信息安全国际学术会议(GAIIS2025) 会议时间与地点:2025年2月21日至23日,中国杭州。会议主题:围绕“生成式人工智能与信息安全”的最新研究,聚焦AI热点和难点问题,深入剖析信息安全核心技术。大会主席:DongXu,UniversityofMissouri-Columbia,USA姚信......
  • 【NLP】使用 SpaCy 通过 LLM 合成数据微调 NER 模型
    在我们之前的文章“使用SpaCy、ollama创建用于命名实体识别的合成数据集”中,我们探讨了如何使用Qwen生成合成数据,以自动化命名实体识别(NER)的注释过程。通过利用合成数据,我们能够高效地准备来自SmoothNLP金融新闻数据集  的高质量数据集。现在,在这篇文章中,我们将更进......
  • Pytorch用BERT对CoLA、新闻组文本数据集自然语言处理NLP:主题分类建模微调可视化分析-C
     原文链接:https://tecdat.cn/?p=38181原文出处:拓端数据部落公众号自然语言处理(NLP)领域在近年来发展迅猛,尤其是预训练模型的出现带来了重大变革。其中,BERT模型凭借其卓越性能备受瞩目。然而,对于许多研究者而言,如何高效运用BERT进行特定任务的微调及应用仍存在诸多困惑。本文......
  • 研0找实习【学nlp】12-简历修改篇,应体现的内容
    在申请NLP实习时,简历应该突出与自然语言处理相关的技能和经验。以下是一些建议,帮助你在简历中展示你的能力:简历应体现的内容1.编程语言Python:大多数NLP库和工具都是用Python编写的,因此熟练掌握Python是必不可少的。R或Java(可选):如果你有使用这些语言的经验,可......
  • 75_api_intro_text_nlpsimilarity
    文本语义相似度检测API数据接口专注于语义相似判断,基于NLP,基于机器学习。1.产品功能秒级分析性能;基于NLP算法智能计算;进行语义上相似度精准检测;底层模型以及语料库持续更新集成中;数据持续更新与维护;全接口支持HTTPS(TLSv1.0/v1.1/v1.2/v1.3);全面兼容Apple......