首页 > 其他分享 >Regret Minimization Experience Replay in Off-Policy Reinforcement Learning

Regret Minimization Experience Replay in Off-Policy Reinforcement Learning

时间:2023-07-10 13:24:23浏览次数:42  
标签:Off target Minimization value error policy TD Regret

发表时间:2021 (NeurIPS 2021)
文章要点:理论表明,更高的hindsight TD error,更加on policy,以及更准的target Q value的样本应该有更高的采样权重(The theory suggests that data with higher hindsight TD error, better on-policiness and more accurate target Q value should be assigned with higher weights during sampling.)。之前的方法只部分考虑了这些strategy,并且之前的这些目标并没有直接和RL的目标函数一致,minimize policy regret,所以他们在某些情况下可能和RL的目标是mismatch的。这篇文章从regret minimization的角度来设计experience replay,直接和RL的目标一致,提出了ReMERN和ReMERT算法。ReMERN学习了一个error network来度量Q value的误差,ReMERT利用了状态的时序关系,越接近终止状态的value误差越小。
作者先给了个例子来说明,更低的TD error或者更准的target Q value不能保证更好的效果,因为他们的目标和RL最大化return的目标不一定匹配。如下图所示

这个例子里最大return的policy应该是先一直左走,最后一步往右走。假设Q value初始化为0,那么对PER(prioritizes state-action pairs with high TD error)来说往左走的TD error比往右走大,导致刚开始就学错了。对于DisCor(perform Bellman update on state-action pairs that have more accurate Bellman targets)来说,直接一步到terminal state肯定有最准的target Q,所以DisCor一上来也会学错。
作者先定义regret minimization的优化目标

然后拆开推出来最小化这个目标就相当于最小化这些项

最后总结下来就是Higher hindsight Bellman error,More on-policiness,Closer value estimation to oracle,Smaller action likelihood。
作者借鉴DisCor的思路,

然后自身的采样权重可以写为

剩下的是就是估计\(\Delta_{k-1}\)了,作者用神经网络,基于公式(6)用bootstrapped target的方式来更新,这就是ReMERN (Regret Minimization Experience Replay using Neural Network)。
接着作者提出了一个不需要用网络来估计的改进算法ReMERT (Regret Minimization Experience Replay using Temporal Structure),基于离terminal state越近,Q value越准,作者先定义到终止状态的距离

然后推导了Q的误差可以大概率被这个距离控制住

然后基于这个来设计采样权重

最后贴几个结果,个人感觉效果不是很明显


总结:主要还是在做理论推导吧感觉,最后落到实际算法,主要就是一个度量on policy的ratio以及一个target Q的误差估计。效果上来看的话,不是很明显。
疑问:里面这个Smaller action likelihood指的是什么,没看懂

ReMERN里面用网络估计误差的时候还需要一个最优贝尔曼算子,这个地方直接近似了吗?

给了个github链接,但是还没代码,开源了可以试试效果。

标签:Off,target,Minimization,value,error,policy,TD,Regret
From: https://www.cnblogs.com/initial-h/p/17540786.html

相关文章

  • 金三银四喜提offer!秋招蚂蚁金服Java研发岗四面
     面试流程  先说下面试流程,一般大公司都有3-4轮技术面,1轮的HR面。就蚂蚁金服而言,我共经历了4轮技术面,前两轮主要是问基础和项目实现,第3轮是交叉面,两个面试官,主要是问项目实现和拓展。第4轮是部门老大面,主要就问一些架构、技术和业务的理解、个人发展比较抽象的东西了,现在基......
  • Docker 中安装 OnlyOffice
    本文以第三方社区编译版本为例,官方镜像的操作方法请参考其官网介绍第三方社区编译版本地址:https://hub.docker.com/r/sanglr/onlyoffice1.下载镜像dockerpullsanglr/onlyoffice:7.1.1.242.启动dockerrun-i-t-d-p8081:80--restart=always--nameonlyofficesanglr/......
  • 转载:用pageOffice控件实现 office word文档 编辑Word加水印的功能
    OA办公中,业务需要多人编辑word文档,需要加文字水印的功能。怎么实现word文档的编辑加文字水印呢?2实现方法通过pageOffice实现简单的在线打开编辑word时,通过设置doc.getWaterMark().setText("PageOffice开发平台");属性,给Word文档添加文字水印。就可以实现编辑word中增加水......
  • 上月成功拿到字节跳动offer,全靠我啃烂了这份最新面试题
    前言不论是校招还是社招都避免不了各种面试、笔试,如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的,我这个“有章可循”说的意思只是说应对技术面试是可以提前准备,所谓不打无准备的仗就是这个道理,以下为大家,描述了从面试准备到最后的拿到offer提供了非常详细的......
  • 上月成功拿到字节跳动offer,全靠我啃烂了这份最新面试题
    前言不论是校招还是社招都避免不了各种面试、笔试,如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的,我这个“有章可循”说的意思只是说应对技术面试是可以提前准备,所谓不打无准备的仗就是这个道理,以下为大家,描述了从面试准备到最后的拿到offer提供了非常......
  • 成功拿下Offer!Salesforce顾问岗位高频面试问题(含答案)
    前不久自由侠部落为某顶级高科技公司成功招聘了一名资深SalesforceBA,年薪颇丰。企业获得了合适的人才,候选人也拿到了满意的薪资,以及更优质的发展平台。此次招聘,印证了市场对资深业务分析师的需求。从收集需求和流程图,到确保项目交付,完成足够的测试,并对用户进行培训,业务分析师......
  • WPS Office 2023 Beta 内测版本全新体验。
    此次要给大家安利的是WPSOffice2023年最新测试版,2023夏季更新,样式大变样,有在使用WPS的网友可用更新体验一波。  内测版本下载地址 WPSOffice2023Beta全新视觉全新的版本中设计目标是为用户创造一个沉浸式的良好办公体验,让用户能够在WPS中便捷与轻松实现自己......
  • php 使用phpoffice/phpword导出word
    安装composerrequirephpoffice/phpword/***//设置常用文本样式*'size'=>12,//文字大小*'name'=>'宋体',//字体名称*'bold'=>true,//加粗*'italic'=>tr......
  • OnlyOffice文件回调接口net core 版本
    publicclassOfficeFilesController:BaseController//Controller{///<summary>///保存OnlyOffice文件///</summary>[HttpPost]publicvoidSaveOnlyOfficeFile(){varfileDataJson=string.Em......
  • Office教程
    Excel伙伴天下的Excel教程包括Excel2003教程、Excel2007教程、Excel2010教程,内容涵盖了Excel函数、Excel公式、Excel表格、Excel图表、ExcelVBA以及Excel的高级应用、协作共享等。  www.youku.com/playlist_show/id_2304582.html ============================================......