首页 > 其他分享 >RLAIF方法与传说中的函数'Q',揭露OpenAI那不为人知的Qstar计划

RLAIF方法与传说中的函数'Q',揭露OpenAI那不为人知的Qstar计划

时间:2024-01-10 21:32:52浏览次数:29  
标签:Qstar 学习 函数 RLAIF RLHF OpenAI LLM GPT

早晨刚起来,看群里新哥转了这个帖子:

RLAIF方法与传说中的函数


RLAIF方法与传说中的函数

      帖子不长,但是基本是爆炸类的新闻了!这个应该也就是Sam之前被董事会诟病的所谓隐瞒了的真相!

      在讲解这个帖子之前,先要普及2个概念:

1- RLAIF:

      不是TGIF,虽然今天确实是周五

RLAIF方法与传说中的函数

      RLAIF是Google今年9月新出来的论文,论文地址:2309.00267.pdf (arxiv.org)(以后我这号再改名,直接叫博洋带你读论文算了...)


RLAIF方法与传说中的函数

      论文主要针对改进的领域,就是现在广受好评的大模型对齐方法,RLHF,众所周知,ChatGPT之所以从GPT-3进化为Chat,RLHF是第一大功臣

      但是我以前的帖子讲过,RLHF不是谁都玩得起的,OpenAI为了把GPT-3进入到Chat化雇佣了40多个外包团队来为它做人类反馈标注,这成本不要说一般公司,任何大厂都得喊肉疼...

       于是论文主要探讨了,是否可以让LLM来做大模型训练的对齐方式,某种程度有点像我之前写的借数据的帖子:Weixin Official Accounts Platform (qq.com),其实国内的模型,我可以负责任的说百分之95都从OpenAI上'借'过数据。

       但是用LLM来做对齐和人类的对齐能达到同样的效果吗?

     从论文中给出的数据来看,虽然上限没有RLHF的效果好,但是RLAIF,已经可以给出很好的数据了

RLAIF方法与传说中的函数

      大家了解到这个程度就可以了,今天这几个概念都比较复杂和绕人,篇幅关系没法完全展开,以后会逐一的讲,我们今天也不是主讲RLAIF, 下面说第二个概念

2- Q 函数

      Q函数是强化学习里的一个概念,有时又会被称为状态函数,也有叫state-action函数的,叫啥都行吧

      那Q函数的数学意义是什么?

      我可能在这里还需要简单的在一下强化学习的知识领域,给扫个盲,当然我不会写太深入,免得读起来费劲

      首先说一下强化学习的几个组成部分(不用特意记,大概理解就好):

RLAIF方法与传说中的函数

  • 智能体:是强化学习的核心部分。它可以接受环境状态的信息,还可以将计算的结果传输给环境。其中,负责计算的是个函数F(x),称作策略(policy),是强化学习最重要的部分,所有的决策都是策略通过计算生成出来的。
  • 环境:智能体以外的部分都是环境。比如阿尔法围棋,棋盘、落子位置等都属于环境。环境的功能是,执行智能体决策出的动作,并把改变的状态返回给智能体。
  • 状态:指环境的状态。比如阿尔法围棋,双方已经落子的战局就是'状态'。
  • 行动:指智能体根据当前状态采取的动作,比如阿尔法围棋,根据当前的状态,策略计算出位置进行落子的动作。
  • 奖励:智能体在当前状态下,采取了某个行动之后,会获得环境的反馈,称作奖励,实际是环境对该动作优劣的评价。(如果了解RLHF的人对这个就不陌生就是Rewarding)。在强化学习中,奖励非常重要,因为样本没有标签,理论上是奖励在引领学习。一般需要人工设置,是强化学习中较为复杂的难点。

      其次说强化学习的目的:训练策略函数F(x),使其在各种状态下,都能做出正确的决策(动作),以简捷的达到最终的目标。

  

RLAIF方法与传说中的函数

     那么什么是Q函数?

RLAIF方法与传说中的函数

      Q函数就是经过了动作a以后,让状态由s变为s'的时候 ,在a动作的行程中,所有的奖励之和即总回报的数学期望       

      所以,值函数是描述一个策略好坏的标量(实在上个公式不好理解,就看这句就行)

       Q函数(state-action),是一种非常理想化的数学公式,在真正的环境下几乎不太存在直接求解的可能性,所以以往实际中的强化学习领域,Q-learning,DQN都是试图逼近Q函数(违解/近似解), 这些算法通过与环境交互,逐步更新Q函数的解,通过数学期望的形式无限接近真正的Q的解

      在铺垫了这么多概念之后,说一下早上这个帖子,OpenAI的CTO Mira给员工发的信称他们的曝光出来的Q*(Q-star)计划

      Q-star,是Q-learning+一个star来共同构建一个整合的类似RLAIF的体系,在训练的时候,这个star就是本来由LLM来提供的reward奖励,现在被替换成由一个图搜索算法驱动的一个模型来取代之前的人类和LLM的位子

      为什么要这么做?我个人的判断是这样(有不同理解欢迎拍砖),图搜索是远高于LLM准确率的一种反馈机制,通过图搜索所提供出来的reward排序(如果按RLHF的训练方法来理解的话),就是这个真实世界的客观规律!!!

      那么基于图搜索形成的反馈机制,能让LLM(大概率是Gobi也就是GPT-5,GPT-4用的就是普通的RLHF)不用去考虑人类的喜好,就相当于把LLM直接放在自然世界里去学习客观的知识,拿帖子里的事件举例,GPT的数学水平本来只是一个juniper school的小孩,但是用了这个方法,瞬间让他可以理解这个世界上几乎所有的数学知识!!!(这在以往的训练方法上是不可能实现的,除非有专业的数学家团队来做RLHF,但是也不见得几乎每个题都能做到,请别拿math GPT这种产品来碰瓷!)

      但是请注意,客观世界的知识和自然规律与对人类友好的知识有时候不是一样的,比如战争,死亡,污染地球,贫穷的本质...

      我想这就是Ilya对Gobi或者Q-star计划感到害怕的原因吧!

      本文完

标签:Qstar,学习,函数,RLAIF,RLHF,OpenAI,LLM,GPT
From: https://blog.51cto.com/u_16432251/9186161

相关文章

  • OpenAI换血大震动始末:“ChatGPT之父”奥特曼,缘何被“扫地出门”?
    近期,AI业界发生了一场“大地震”。作为聊天机器人ChatGPT的开发者,OpenAI无疑是最受关注的人工智能公司之一。就是这家公司的联合创始人、CEO、有“ChatGPT之父”之称的阿尔特曼在“疯狂的5天”里,经历了被闪电免职、加入微软、最终又官复原职的戏剧性反转。ChatGPT:我是ChatGPT,一个由......
  • OpenAI换血大震动始末:“ChatGPT之父”奥特曼,缘何被“扫地出门”?
    近期,AI业界发生了一场“大地震”。作为聊天机器人ChatGPT的开发者,OpenAI无疑是最受关注的人工智能公司之一。就是这家公司的联合创始人、CEO、有“ChatGPT之父”之称的阿尔特曼在“疯狂的5天”里,经历了被闪电免职、加入微软、最终又官复原职的戏剧性反转。ChatGPT:我是ChatGPT,一个由......
  • 如何调用OpenAI API Key
    基准代码安装openai包,本实验手册使用是1.2.0版本pipinstallopenai==1.2.0确认openai版本importpkg_resourcesopenai_version=pkg_resources.get_distribution("openai").versionprint(openai_version)基准代码1:流式输出importosfromopenaiimportOpenAIclient=Op......
  • OpenAI“一路生花”,致力于超级人工智能研发
    原创|文BFT机器人INTELLIGENTROBOTOpenAI提供1000万美元的资助用于解决超级智能AI控制问题OpenAI是人工智能研究领域的领先组织,据媒体称,它正在采取积极措施应对与超级智能AI系统相关的潜在风险。在一项大胆的举措中,该公司宣布将提供1000万美元的资助,以支持技术研究,重点是确保对......
  • 大模型 RLHF 实战!【OpenAI独家绝技RLHF!RLHF的替代算法DPO!Claude 暗黑科技 RAIHF!】
    大模型RLHF实战大模型RLHF实战RLHF:OpenAI独家绝技RLHF的问题DPO直接偏好优化算法:RLHF的替代算法公式1-4:KL散度下奖励的最大化目标使用DPO微调Llama2RAIHF 大模型RLHF实战RLHF(基于人类反馈的强化学习)分为3个阶段:预训练:为了生成内容,需要一个生成式的预训练语言模......
  • OpenAI承认GPT-4变懒:暂时无法修复
    对于越来越严重的GPT-4偷懒问题,OpenAI正式回应了。还是用的ChatGPT账号。我们已收到相关反馈!自11月11日以来没有更新过模型,所以这当然不是故意造成的。模型行为可能是不可预测的,我们正在调查准备修复它。也就是段时间内还修复不好了。然而网友并不理解,“一遍一遍使用同一个模型,又不......
  • [转]OpenAI官方Prompt 工程指南
    本文转自  夕小瑶科技说https://platform.openai.com/examplesOpenAI官方发布了Prompt工程指南,讲述了快速上手ChatGPTPrompt的种种“屠龙术”,不仅在理论层面对Prompt分类总结,还提供了实际的Prompt用例,帮助大家来学习如何有效的与ChatGPT交互宏观来看,OpenAI给出......
  • AIKit v4.11.0 – WordPress AI 自动编写器、聊天机器人、写作助手和内容重定向器 / O
    AIKitv4.11.0:WordPress的AI革命一、引言AIKitv4.11.0是一款为WordPress用户精心设计的强大插件,该插件集成了OpenAI的GPT-3技术,为用户提供了前所未有的AI写作和聊天机器人功能。此版本的推出,将WordPress的功能扩展到了全新的领域,利用人工智能技术,让网站内容创作变得更加简单......
  • 人工智能大模型原理与应用实战:从OpenAI Five到MuZero
    1.背景介绍人工智能(AI)是计算机科学的一个分支,研究如何使计算机能够像人类一样进行智能操作。AI的目标是让计算机能够理解自然语言、进行逻辑推理、学习自主决策、进行视觉识别、进行语音识别等等。AI的主要技术有机器学习、深度学习、神经网络、自然语言处理、计算机视觉、机器人等......
  • OpenAI Q* 是一个彻底的 谣言...
    OpenAI仍未明确解释Q*究竟是什么,但透露的线索倒是相当不少。11月22日,就在OpenAI决定解雇(后又重新聘用)CEOSamAltman的几天之后,技术媒体TheInformation报道称OpenAI取得了一项重大技术突破,使其能够“开发出更强大的AI模型”。新模型被命名为Q*(音为「Qstar」),“具......