Prioritized Experience Replay

时间：2024-02-14 09:11:57浏览次数：21

标签：采样 replayed Prioritized Experience Replay rank error TD 2016

发表时间：2016（ICLR 2016）
文章要点：这篇文章提出了很经典的experience replay的方法PER，通过temporal-difference (TD) error来给采样赋权重（Sequences associated with rewards appear to be replayed more frequently, Experiences with high magnitude TD error also appear to be replayed more often）。TD error可以看做是surprising或者unexpected的度量。
根据TD error定义的priority p计算采样的概率

有了这个之后，作者提出了两个变种，一个是proportional prioritization
直接根据概率采样得到，其中有

\(\epsilon\)是一个很小的正值来保证概率不为0.
另一个变种是rank-based prioritization，其中

这里rank(i)是根据TD error的绝对值的排序。实现的时候为了加快采样速度，用了sum-tree作为buffer的数据结构。
另外，作者用了importance sampling来修正权重

然后这个权重会逐渐衰减，通过控制\(\beta\)从初始值增加到1实现。
整个算法伪代码如下

在Atari上表现如下

总结：无。
疑问：无。

标签：采样,replayed,Prioritized,Experience,Replay,rank,error,TD,2016
From： https://www.cnblogs.com/initial-h/p/18015027

初中英语优秀范文100篇-081An unforgettable experience-一次难忘的经历
PDF格式公众号回复关键字:SHCZFW081记忆树1Howtimeflies!翻译时间过得真快啊简化记忆时间句子结构"How"在这里作为感叹词，用来引导感叹句，表达强烈的情感或惊讶主语"time"它代表时间的概念谓语"flies"是动词"fly"的第三人称单数形式，用于与单数主语"time"......
LibreOJ 3857 「eJOI2017」Experience
考虑到这一条链肯定是单调递增或者单调递减更优。因为若不是单调的可以考虑把这个链拆成多个单调的链。因为若最大最小值不在链的两端，明显把两端不需要的可以拆出去；否则例如链的顶比底大，则肯定存在\(x>x'<y'>y\)，\(x,y\)为链的两端，那么\(x-x'+y-y'\)的收益明显......
[转帖]Oracle replay工具用法
一、简介Oracle11g推出的神器，可以抓取生产环境真实负载（sql语句），在目标环境重演，进行对比。在核心生产环境迁移等重大变更前，尽量确定变更带来的影响。核心步骤包括：准备工作、捕获负载、预处理负载、重演负载、对比分析，每步又包含多个子步骤，下面通过测试案例来看。二、准备......
netty源码：（40）ReplayingDecoder
ReplayingDecoder是ByteToMessageDecoder的子类，我们继承这个类时，也要实现decode方法，示例如下：packagecn.edu.tju;importio.netty.buffer.ByteBuf;importio.netty.channel.ChannelHandlerContext;importio.netty.handler.codec.ReplayingDecoder;importjava.nio.charset.C......
Experiences(B2.2)
Lucy'sexperience:Thisyearhasbeenverydifficultforme.IlostmyjobatthestartoftheyearandI'vebeenfeelingveryfrustrated.LuckilyIlivewithmypartner,whohasbeenverysupportive.She'shelpingmetomakeaplanandIh......
初中英语优秀范文100篇-015An Unusual Experience-一次不同寻常的经历
PDF格式公众号回复关键字:SHCZFW015记忆树1ItwasFiriday.翻译那天是星期五简化记忆星期五句子结构在句子“ItwasFriday”中，有以下成分：“It”是主语，作为一个不定代词，用来指代或代表前文提到的特定时间或事件。这里指代的是具体的某个时间或事件。“was”是......
初中英语优秀范文100篇-012 My Experience of Being a Volunteer - 我的一次志愿者经
PDF格式公众号回复关键字:SHCZFW012记忆树1Lastyear,Ipaidavisittothehomefortheagedwithmyclassmatesasvolunteers.翻译去年，我和我的同学作为志愿者去老年人之家探望了老人们。简化记忆探望老人句子结构这个句子可以分为四个主要部分：1状语短语：“La......
[Mac软件]Adobe XD(Experience Design) v57.1.12.2一个功能强大的原型设计软件
AdobeXD是一个直观、强大的UI/UX开发工具，旨在设计、原型设计、用户之间共享材料，以及通过数字技术设计交互。AdobeXD为您提供开发网站、应用程序、语音界面、游戏界面、电子邮件模板等所需的一切。无限制地创建设计各种互动，创建看起来和感觉真实的互动原型。感谢你的时间使用基于......
Experience Replay with Likelihood-free Importance Weights
发表时间：2020文章要点：这篇文章提出LFIW算法用likelihood作为experience的采样权重（likelihood-freedensityratioestimator），reweightexperiencesbasedontheirlikelihoodunderthestationarydistributionofthecurrentpolicy，这种方式鼓励让经常访问的状态有更小的误差......
Improved deep reinforcement learning for robotics through distribution-based exp
发表时间：2016（IROS2016）文章要点：这篇文章提出了experiencereplay方法的改进，让experience的分布介于当前policy和均匀分布之间，作者做实验发现这个时候的效果是最好的（theidealdistributionislikelytobesomewherebetweenthedistributionthatresultsfromsimplyfollow......

Prioritized Experience Replay

相关文章

赞助商

阅读排行