早晨刚起来,看群里新哥转了这个帖子:
帖子不长,但是基本是爆炸类的新闻了!这个应该也就是Sam之前被董事会诟病的所谓隐瞒了的真相!
在讲解这个帖子之前,先要普及2个概念:
1- RLAIF:
不是TGIF,虽然今天确实是周五
RLAIF是Google今年9月新出来的论文,论文地址:2309.00267.pdf (arxiv.org)(以后我这号再改名,直接叫博洋带你读论文算了...)
论文主要针对改进的领域,就是现在广受好评的大模型对齐方法,RLHF,众所周知,ChatGPT之所以从GPT-3进化为Chat,RLHF是第一大功臣
但是我以前的帖子讲过,RLHF不是谁都玩得起的,OpenAI为了把GPT-3进入到Chat化雇佣了40多个外包团队来为它做人类反馈标注,这成本不要说一般公司,任何大厂都得喊肉疼...
于是论文主要探讨了,是否可以让LLM来做大模型训练的对齐方式,某种程度有点像我之前写的借数据的帖子:Weixin Official Accounts Platform (qq.com),其实国内的模型,我可以负责任的说百分之95都从OpenAI上'借'过数据。
但是用LLM来做对齐和人类的对齐能达到同样的效果吗?
从论文中给出的数据来看,虽然上限没有RLHF的效果好,但是RLAIF,已经可以给出很好的数据了
大家了解到这个程度就可以了,今天这几个概念都比较复杂和绕人,篇幅关系没法完全展开,以后会逐一的讲,我们今天也不是主讲RLAIF, 下面说第二个概念
2- Q 函数
Q函数是强化学习里的一个概念,有时又会被称为状态函数,也有叫state-action函数的,叫啥都行吧
那Q函数的数学意义是什么?
我可能在这里还需要简单的在一下强化学习的知识领域,给扫个盲,当然我不会写太深入,免得读起来费劲
首先说一下强化学习的几个组成部分(不用特意记,大概理解就好):
- 智能体:是强化学习的核心部分。它可以接受环境状态的信息,还可以将计算的结果传输给环境。其中,负责计算的是个函数F(x),称作策略(policy),是强化学习最重要的部分,所有的决策都是策略通过计算生成出来的。
- 环境:智能体以外的部分都是环境。比如阿尔法围棋,棋盘、落子位置等都属于环境。环境的功能是,执行智能体决策出的动作,并把改变的状态返回给智能体。
- 状态:指环境的状态。比如阿尔法围棋,双方已经落子的战局就是'状态'。
- 行动:指智能体根据当前状态采取的动作,比如阿尔法围棋,根据当前的状态,策略计算出位置进行落子的动作。
- 奖励:智能体在当前状态下,采取了某个行动之后,会获得环境的反馈,称作奖励,实际是环境对该动作优劣的评价。(如果了解RLHF的人对这个就不陌生就是Rewarding)。在强化学习中,奖励非常重要,因为样本没有标签,理论上是奖励在引领学习。一般需要人工设置,是强化学习中较为复杂的难点。
其次说强化学习的目的:训练策略函数F(x),使其在各种状态下,都能做出正确的决策(动作),以简捷的达到最终的目标。
那么什么是Q函数?
Q函数就是经过了动作a以后,让状态由s变为s'的时候 ,在a动作的行程中,所有的奖励之和即总回报的数学期望
所以,值函数是描述一个策略好坏的标量(实在上个公式不好理解,就看这句就行)
Q函数(state-action),是一种非常理想化的数学公式,在真正的环境下几乎不太存在直接求解的可能性,所以以往实际中的强化学习领域,Q-learning,DQN都是试图逼近Q函数(违解/近似解), 这些算法通过与环境交互,逐步更新Q函数的解,通过数学期望的形式无限接近真正的Q的解
在铺垫了这么多概念之后,说一下早上这个帖子,OpenAI的CTO Mira给员工发的信称他们的曝光出来的Q*(Q-star)计划
Q-star,是Q-learning+一个star来共同构建一个整合的类似RLAIF的体系,在训练的时候,这个star就是本来由LLM来提供的reward奖励,现在被替换成由一个图搜索算法驱动的一个模型来取代之前的人类和LLM的位子
为什么要这么做?我个人的判断是这样(有不同理解欢迎拍砖),图搜索是远高于LLM准确率的一种反馈机制,通过图搜索所提供出来的reward排序(如果按RLHF的训练方法来理解的话),就是这个真实世界的客观规律!!!
那么基于图搜索形成的反馈机制,能让LLM(大概率是Gobi也就是GPT-5,GPT-4用的就是普通的RLHF)不用去考虑人类的喜好,就相当于把LLM直接放在自然世界里去学习客观的知识,拿帖子里的事件举例,GPT的数学水平本来只是一个juniper school的小孩,但是用了这个方法,瞬间让他可以理解这个世界上几乎所有的数学知识!!!(这在以往的训练方法上是不可能实现的,除非有专业的数学家团队来做RLHF,但是也不见得几乎每个题都能做到,请别拿math GPT这种产品来碰瓷!)
但是请注意,客观世界的知识和自然规律与对人类友好的知识有时候不是一样的,比如战争,死亡,污染地球,贫穷的本质...
我想这就是Ilya对Gobi或者Q-star计划感到害怕的原因吧!
本文完
标签:Qstar,学习,函数,RLAIF,RLHF,OpenAI,LLM,GPT From: https://blog.51cto.com/u_16432251/9186161