首页 > 其他分享 >离线强化学习在序列决策中的应用

离线强化学习在序列决策中的应用

时间:2023-01-31 21:23:16浏览次数:39  
标签:策略 IQL 模型 离线 决策 学习 policy 序列

从样本利用效率,看强化学习的分类

  • on- policy:每次更新策略需要在重新收集数据,更新数据来自于当前策略,行为策略和目标策略是同一个策略
  • off-policy:行为策略和目标策略不是同一个策略,更新数据可以来自于更早之前的策略
  • batch rl,Offline Reinforcement Learning:不与环境交互,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略
  目前受限于agent 与线上环境实时交互并收集反馈数据的能力, 只能基于离线积累的数据进行学习,利用离线强化算法模型 学习一个智能体来决策每次的金币的发放。 后续上线后可以用online-policy或者offline-policy(DQN 等) 做进一步的改进。  

离线强化学习范式

  • CQL(conservative Q-learning):从Q-learning 发展而来,尽在Q function 上增加了一个对Q值的约束,需要调节的参数比较少
  • AWAC(Advantage-weighted actor-critic):待权重的克隆离线行为模型,action 来带的Q值越高,权重越大,否则越小
  • IQL (implicit Q learning ):和AWAC类似,区别在于 IQL 更新 critic 模型的时候利用expectile regression,而非普通的回归,一般效果会比AWAC好
  由于IQL 效果出色,着重介绍其原理 核心思路分三步:
  1. 克隆线上模型( M1):先用监督模型训练统一预测模型,学习线上发放策略, 即,用户特征X下 ,对应的发放数值
  2. 优势 价值函数(V) 和Q 函数(Q) :训练此数值下,对应未来一段时间用户产生的收益 和平均状态收益
  3. 策略抽取(policy):已线上模型M1 左右策略基线,(Q-V)优势 值 作为权重,优势值越大,放大策略函数输出概率,优势值越小,缩小策略输出概率
 

离线强化学习的评估

离线强化学习相对于uplift、因果推断模型更难评估,一方面由于和uplift 模型一样缺少groud truth,另一方面,在某些场景下可以理解为多步,动态可变的 treatment 下的uplift 问题。实际操作的话,可以从两方面着手。
  • 模型离线评估
1.actor policy 网络loss 是否在持续下 2.critic 网络 loss (Q loss,V loss)是否在持续下降
  • 人工评估
人工抽取一些case ,看看离线RL 模型预测出来的序列是否靠谱   更好的做法是,模型上线之后及时收集线上反馈,效果最为真实  

线上finetune

利用IQL 模型另外一个好处是,有了线上的样本和反馈后,可以持续优化IQL 模型 流程图  

 

 

标签:策略,IQL,模型,离线,决策,学习,policy,序列
From: https://www.cnblogs.com/keycai/p/17080799.html

相关文章