离线强化学习在序列决策中的应用

时间：2023-01-31 21:23:16浏览次数：43

从样本利用效率，看强化学习的分类

on- policy：每次更新策略需要在重新收集数据，更新数据来自于当前策略，行为策略和目标策略是同一个策略
off-policy：行为策略和目标策略不是同一个策略，更新数据可以来自于更早之前的策略
batch rl，Offline Reinforcement Learning：不与环境交互，仅从已经收集好的确定的数据集中，通过强化学习算法得到比较好的策略

目前受限于agent 与线上环境实时交互并收集反馈数据的能力，只能基于离线积累的数据进行学习，利用离线强化算法模型学习一个智能体来决策每次的金币的发放。后续上线后可以用online-policy或者offline-policy（DQN 等）做进一步的改进。

离线强化学习范式

CQL（conservative Q-learning）：从Q-learning 发展而来，尽在Q function 上增加了一个对Q值的约束，需要调节的参数比较少
AWAC（Advantage-weighted actor-critic）：待权重的克隆离线行为模型，action 来带的Q值越高，权重越大，否则越小
IQL (implicit Q learning )：和AWAC类似，区别在于 IQL 更新 critic 模型的时候利用expectile regression，而非普通的回归，一般效果会比AWAC好

由于IQL 效果出色，着重介绍其原理核心思路分三步：

克隆线上模型（ M1）：先用监督模型训练统一预测模型，学习线上发放策略，即，用户特征X下，对应的发放数值
优势价值函数（V）和Q 函数（Q）：训练此数值下，对应未来一段时间用户产生的收益和平均状态收益
策略抽取（policy）：已线上模型M1 左右策略基线，（Q-V）优势值作为权重，优势值越大，放大策略函数输出概率，优势值越小，缩小策略输出概率

离线强化学习的评估

离线强化学习相对于uplift、因果推断模型更难评估，一方面由于和uplift 模型一样缺少groud truth，另一方面，在某些场景下可以理解为多步，动态可变的 treatment 下的uplift 问题。实际操作的话，可以从两方面着手。

模型离线评估

1.actor policy 网络loss 是否在持续下 2.critic 网络 loss （Q loss，V loss）是否在持续下降

人工评估

人工抽取一些case ，看看离线RL 模型预测出来的序列是否靠谱更好的做法是，模型上线之后及时收集线上反馈，效果最为真实

线上finetune

利用IQL 模型另外一个好处是，有了线上的样本和反馈后，可以持续优化IQL 模型流程图

标签：策略,IQL,模型,离线,决策,学习,policy,序列
From： https://www.cnblogs.com/keycai/p/17080799.html

restful规范、序列化与反序列化与drf下载及使用
1.restful规范1.数据的安全保障：url链接一般都采用https协议进行传输---》为了保证数据安全使用https协议传输-https是什么：http+ssl/tsl2.接口中带aoi关键字比如：-https:......
BZOJ 1852 [MexicoOI06] 最长不下降序列
https://darkbzoj.cc/problem/1852首先解决初始排序的问题：先把\(i,j\)对应的两组数\((a_i,b_i),(a_j,b_j)\)分为“必要”，“非必要”两类。“必要”，指\(i\)必须......
restful规范-序列化和反序列化-基于django原生编写5个接口-drf介绍和快速使用-cbv源码
目录restful规范-序列化和反序列化-基于django原生编写5个接口-drf介绍和快速使用-cbv源码分析今日内容概要今日内容详细1restful规范2序列化和反序列化3基于django原生......
drf入门规范——restful规范，序列化反序列化，django原生接口与drf接口案例
restful规范（重要）概念REST全称是RepresentationalStateTransfer，中文意思是表述（编者注：通常译为表征性状态转移）。它首次出现在2000年RoyFielding的博士论文中。RESTful......
restful规范序列化反序列化基于Django原生编写5个接口 drf介绍及快速使用 cbv源码分
目录restful规范概念10个规范序列化和反序列化序列化：把我们识别的数据转换成指定的格式提供给别人read反序列化：把别人提供的数据转换成/还原成我们需要的格式write基于Dj......
django框架之drf：2、restful规范，序列、反序列化，drf安装及使用（django原生接口及drf接口
Django之drf一、restful规范1、概念 REST全称是RepresentationalStateTransfer，中文意思是表述：表征性状态转移，它首次出现在2000年RoyFielding的博士论文中。 R......
drf基础：restful规范、序列化反序列化、基于django原生编写5个接口、drf介绍和快速使用
目录1restful规范（重要，不难）2序列化反序列化3基于django原生编写5个接口4drf介绍和快速使用5cbv源码分析1restful规范（重要，不难）概念：REST全称是RepresentationalStat......
百度离线地图地点搜索离线地图poi搜索
1.场景和需求：在局域网开发的web项目,不能连接公网1需要使用离线地图展示设备点位；2需要实现地图的城市范围内的离线搜索，可以检索到百度地图上的点位，类似与百度地图首......
【转载】 JSON序列化和反序列化
目录1、JSON的概念2、JSON字符串、JSON对象和数组3、JSON.parse()和JSON.stringify()的使⽤4、JSON对象的操作1、JSON的概念JSON是JavaScriptObjectNo......
restful API 规范、序列化与反序列化、基于django原生编写5个接口、drf介绍和快速使用
目录1.restfulAPI规范1.1数据的安全性1.2接口中带有API标识1.3多数据版本共存1.4数据即是资源，均使用名词（可复数）1.5资源操作由请求方式决定（method）1.6过滤，通过在url上传参......

离线强化学习在序列决策中的应用

从样本利用效率，看强化学习的分类

离线强化学习范式

离线强化学习的评估

线上finetune

相关文章

赞助商

阅读排行