首页 > 其他分享 >RLHF

RLHF

时间:2023-05-30 17:36:20浏览次数:23  
标签:训练 只到 RLHF 擅长 固定 推理

RLHF不擅长推理、事实等固定答案的优化,擅长自由度更高的生成;RLHF的上限取决于预训练模型本身的能力,对于多项选择这种需要推理、知识和输出格式固定的任务,预训练后的GPT-4[2]能到73.7%,RLHF之后只到了74%,单独看很多任务还有下降。

标签:训练,只到,RLHF,擅长,固定,推理
From: https://www.cnblogs.com/end/p/17443844.html

相关文章

  • chatgpt训练策略之RLHF 技术
      OpenAI推出的ChatGPT对话模型掀起了新的AI热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型(LargeLanguageModel,LLM)生成领域的新训练范式:RLHF(ReinforcementLearningfromHumanFeedback),即以强化学习方式......
  • 抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文
    文|卖萌酱大家好,我是卖萌酱。前几天,抱抱脸公司(HuggingFace)发表了一篇博客[1],详细讲解了ChatGPT背后的技术原理——RLHF。笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。此外,文末整理了几篇关于RLHF最热门的12篇必......
  • DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
    DeepSpeedChat:一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍1.概述近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT类模型具有惊人的泛用性,能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优。为......
  • 在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs
    我们很高兴正式发布trl与peft的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型(LLM)微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代......
  • ChatGPT背后的算法——RLHF总结
    ChatGPT背后的算法——RLHF总结参考链接:抱抱脸:ChatGPT背后的算法——RLHF|附12篇RLHF必刷论文(qq.com)背景 (文本生成的语言模型评价不在训练中)chatGPT训练4步骤......
  • RLHF:从GPT3.5系列到ChatGPT的临门一脚
    对齐与能力能力(Capability):模型完成一些特定任务的能力。未对齐(misalignment):模型在训练集上表现很好,但在测试集上表现很差。说明模型有能力学习,但训练设定的目标不对[1]......