首页 > 其他分享 >Off-Policy Deep Reinforcement Learning without Exploration

Off-Policy Deep Reinforcement Learning without Exploration

时间:2023-05-21 12:35:13浏览次数:39  
标签:Off 模型 Reinforcement 生成 action without learning policy data

发表时间:2019(ICML 2019)
文章要点:这篇文章想说在offline RL的setting下,由于外推误差(extrapolation errors)的原因,标准的off-policy算法比如DQN,DDPG之类的,如果数据的分布和当前policy的分布差距很大的话,那就很难从data里学到好的policy。然后文章提出了batch-constrained reinforcement learning来约束当前的policy和收集data的policy的距离,从而更有效的学习。
extrapolation error指的是对于没有见过的状态动作对,估计值不准确。导致这个问题的原因在于the mismatch between the dataset and true state-action visitation of the current policy.这个问题可能有以下几个原因:
(1) Absent Data.大概意思就是如果没见过某个state-action pair,那这个地方的估计就可能任意的差。

(2) Model Bias.大概意思就是说如果data不够多的时候,因为在算bellman估计的时候,都是用采样去做的,但是采样得到的transition dynamic和真实的MDP的dynamic是有偏差的。

(3) Training Mismatch. 即使data足够多,但是当前policy和data对应的分布差距很大,那么采样得到的样本和当前的policy还是有很大的mismatch。这个更新也会有问题。

作者提出Batch-Constrained deep Q-learning (BCQ)来解决这个问题,大概思路就是用state-conditioned generative model to produce only previously seen actions。具体需要满足如下目标

作者定义了网络,一个生成模型G,一个扰动模型\(\xi\),再加两个Q网络。生成模型用来生成data里出现过的动作,扰动模型用来给生成的动作加一个小的扰动,用来增加多样性,然后两个Q就是用来做Double Q-learning的。训练的大概思路就是先用生成模型和扰动模型生成很多个action,然后从这些action里面找最大的Q来做更新用的target Q。然后用Double Q-learning来更新Q网络。
算法伪代码如下图:

总结:感觉这个思路的话,就是我的policy可能不会很好,因为我限制了训练的transition和buffer里的差得不会太远。同时这个policy也不会很差,因为extrapolation error的问题会被缓解。
疑问:这个用VAE来训练生成模型,这个地方会不会依然生成buffer里没有的动作?这个地方的原理不是很懂。
给动作加扰动那里,连续动作DDPG倒是好加,DQN咋加的?

标签:Off,模型,Reinforcement,生成,action,without,learning,policy,data
From: https://www.cnblogs.com/initial-h/p/17418437.html

相关文章

  • office与WPS的区别
    声明本篇主要是为了科普下WPSoffice与MSoffice。博主使用的WPS后续也将使用其讲解。如有不妥,欢迎评论。概要大众使用的办公软件目前大致是MSoffice和WPSoffice。学哪一个我感觉都差不多,毕竟它们两者基础功能都差不多(不考虑金钱的话嘿嘿)。MSoffice全称为MicrosoftOf......
  • 对于office突然报错登录不上且修复不了的问题
    我可能是在清理启动项的时候把服务的启动项关闭了:具体操作如下:win+r输入services.msc打开服务列表接着找到将属性改为自动即可. ......
  • MAY 2022-Composite Experience Replay-Based Deep Reinforcement Learning With Appl
    摘要:本文提出了一种基于深度强化学习(RL)的控制方法,以提高学习效率和效果来解决风电场控制问题。具体地,设计了一种新的复合体验重放(CER)策略,并将其嵌入到深度确定性策略梯度(DDPG)算法中。CER提供了一种新的采样方案,通过在奖励和时间差异(TD)误差之间进行权衡,可以深入挖掘存储变......
  • 剑指 Offer 44. 数字序列中某一位的数字
    题目描述:数字以0123456789101112131415…的格式序列化到一个字符序列中。在这个序列中,第5位(从下标0开始计数)是5,第13位是1,第19位是4,等等。请写一个函数,求任意第n位对应的数字。 限制:0<=n< 2^31    结论: 所求数位①在某个 digit 位数中;②为从数字 ......
  • 转载:pageoffice在线打开word文件加盖电子印章
    一、加盖印章的js方法js方法二、常见使用场景1、常规盖章。弹出用户名、密码输入框,选择对应印章。点击盖章按钮弹出用户名密码登录框,登录以后显示选择电子印章。document.getElementById("PageOfficeCtrl1").ZoomSeal.AddSeal();12、无需输入用户名、密码盖章。......
  • 剑指 Offer 12. 矩阵中的路径
    请设计一个函数,用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径。路径可以从矩阵中的任意一格开始,每一步可以在矩阵中向左、右、上、下移动一格。如果一条路径经过了矩阵的某一格,那么该路径不能再次进入该格子。例如,在下面的3×4的矩阵中包含一条字符串“bfce”的路径......
  • 剑指 Offer 35. 复杂链表的复制
    题目描述:请实现copyRandomList函数,复制一个复杂链表。在复杂链表中,每个节点除了有一个next指针指向下一个节点,还有一个random指针指向链表中的任意节点或者null。    提示:-10000<=Node.val<=10000Node.random 为空(null)或指向链表中的节点。节点数目......
  • 自定义全局监听事件( $on $emit $off )
    app.jsApp({handlerGather:{},onLaunch:function(){const_that=thiswx.$on=function(event,fn){if(Array.isArray(event)){event.forEach(item=>{wx.$on(item,fn)})}else{(_that.......
  • Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss
    1Introduction本文建议根据样本的可学习性进行抽样,而不是从经验回放中随机抽样。如果有可能减少代理对该样本的损失,则认为该样本是可学习的。我们将可以减少样本损失的数量称为其可减少损失(ReLo)。这与Schaul等人[2016]的vanilla优先级不同,后者只是对具有高损失的样本给予高优......
  • PageOffice在线打开 word 文件,并且禁止复制
    在线打开word禁用拷贝的三种方式:1使用AllowCopy属性,效果:所有的word进程都不能进行拷贝操作2禁止word选择功能,效果:因为无法选择,所以无法拷贝3使用DisableCopyOnly属性,效果:禁止拷贝文档内容到外部,但内部是可以拷贝的,也可以从外部拷贝到word文档内部具体实现过......