从样本利用效率,看强化学习的分类
- on- policy:每次更新策略需要在重新收集数据,更新数据来自于当前策略,行为策略和目标策略是同一个策略
- off-policy:行为策略和目标策略不是同一个策略,更新数据可以来自于更早之前的策略
- batch rl,Offline Reinforcement Learning:不与环境交互,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略
离线强化学习范式
- CQL(conservative Q-learning):从Q-learning 发展而来,尽在Q function 上增加了一个对Q值的约束,需要调节的参数比较少
- AWAC(Advantage-weighted actor-critic):待权重的克隆离线行为模型,action 来带的Q值越高,权重越大,否则越小
- IQL (implicit Q learning ):和AWAC类似,区别在于 IQL 更新 critic 模型的时候利用expectile regression,而非普通的回归,一般效果会比AWAC好
- 克隆线上模型( M1):先用监督模型训练统一预测模型,学习线上发放策略, 即,用户特征X下 ,对应的发放数值
- 优势 价值函数(V) 和Q 函数(Q) :训练此数值下,对应未来一段时间用户产生的收益 和平均状态收益
- 策略抽取(policy):已线上模型M1 左右策略基线,(Q-V)优势 值 作为权重,优势值越大,放大策略函数输出概率,优势值越小,缩小策略输出概率
离线强化学习的评估
离线强化学习相对于uplift、因果推断模型更难评估,一方面由于和uplift 模型一样缺少groud truth,另一方面,在某些场景下可以理解为多步,动态可变的 treatment 下的uplift 问题。实际操作的话,可以从两方面着手。- 模型离线评估
- 人工评估
线上finetune
利用IQL 模型另外一个好处是,有了线上的样本和反馈后,可以持续优化IQL 模型 流程图
标签:策略,IQL,模型,离线,决策,学习,policy,序列 From: https://www.cnblogs.com/keycai/p/17080799.html