Remember and Forget for Experience Replay

时间：2023-07-02 12:23:11浏览次数：50

标签：Remember experience near Replay Experience policy 更新

发表时间：2019（ICML 2019）
文章要点：这篇文章想说如果replay的经验和当前的policy差别很大的话，对更新是有害的。然后提出了Remember and Forget Experience Replay (ReF-ER)算法，（1）跳过那些和当前policy差别很大的experience的更新（2）用trust region来约束更新步长。
作者把experience分为“near-policy" or “far-policy"，然后更新基于near-policy experience。区分的表征是计算当前policy和之前policy的ratio，然后设置一个阈值，落在范围内的就是near-policy experience

其中\(c_{max}>1\)。
更新的准则就是只有near-policy的experience提供梯度

接着就是控制更新步长，让更新的policy离上一个policy不要差太远

然后作者就把这个方法用到各个算法上，DDPG,NAF,V-RACER,处理的问题都是连续动作空间。

总结：思路就是用最新的样本更新，然后控制更新幅度不要太大。感觉就是往on-policy的算法上靠。
疑问：无。

标签：Remember,experience,near,Replay,Experience,policy,更新
From： https://www.cnblogs.com/initial-h/p/17520632.html

LEARNING TO SAMPLE WITH LOCAL AND GLOBAL CONTEXTS FROM EXPERIENCE REPLAY BUFFERS
发表时间：2021（ICLR2021）文章要点：这篇文章想说，之前的experiencereplay的priority比如PER，都是单个transition独立设置的，并没有考虑transition之间的关系。这篇文章提出了一个叫NeuralExperienceReplaySampler(NERS)的learning-basedsamplingmethod。这个方法用强化的方式来......
Windows OOBE（Out-of-Box Experience）是指在首次启动 Windows 操作系统时，用户会遇到的设
WindowsOOBE（Out-of-BoxExperience）是指在首次启动Windows操作系统时，用户会遇到的设置和配置过程。每个Windows版本的OOBE提供了不同的功能和更新，以下是各个版本的一些主要特点和改进：Windows7：用户可以选择地区、输入法和键盘布局等设置。提供了简化的用户账户创建和密码......
Prioritized Sequence Experience Replay
发表时间：2020文章要点：这篇文章提出了PrioritizedSequenceExperienceReplay(PSER)，一个新的经验回放机制来提升训练速度和效果。主要的出发点就是不仅要给重要的transition高的priority，对于到达这个重要的transition的之前的那些transitions,也要增加它们的priority（alsoincre......
Compose 状态保存：rememberSaveable 原理分析
前言我曾经在一篇介绍ComposeNavigation的文章中提到了Navigation的状态保存实际是由rememberSaveable实现的，有同学反馈希望单独介绍一下rememberSaveable的功能及实现原理。我们都知道remember可以保存数据、避免状态因重组而丢失，但它依然无法避免在ConfigurationCha......
Adobe Experience Design 2022v45.0.62【XD原型设计软件】中文直装版安装教程
AdobeXD45是一款功能强大的原型开发工具，它具有非常专业和丰富的功能，可以帮助用户方便地进行内容分享和布局，样机设计软件提供的功能可以有效地提高用户的工作效率，减少用户工作时间软件支持云中的文件管理，使用者可以把文件上载到软件的云内存中，从而使用户无论在任何设备上登陆该软件......
UVA1401 Remember the Word
思路首先有一个比较朴素的DP就是记\(f_i\)为\(s\)的从第\(i\)个字符开始到字符串结尾的划分方案数，记模板串的集合为\(T\)，\(s\)从第\(i\)个字符开始到字符串结尾的子串为\(s(i)\)，那么不难写出方程：\[f_i=\sumf_{i+\operatorname{len}(t)}[t\inT\landt是s(......
Revisiting Fundamentals of Experience Replay
发表时间：2020（ICML2020）文章要点：这篇文章研究了experiencereplayinQ-learning，主要考虑了两个方面：replaycapacity（buffer的大小，thetotalnumberoftransitionsstoredinthebuffer）和ratiooflearningupdates(replayratio，样本收集和更新的比例,thenumberofgradientup......
Experience Six
Task1:basicgraphtask1_1.pyfromturtleimport*defmove(x,y):penup()goto(x,y)pendown()defdraw(n,size=100):foriinrange(n):fd(size)left(360/n)defmain():pensize(2)pencolor('red')mo......
初识云平台-3DEXPERIENCE在线课程硕迪科技
3DEXPERIENCE平台可以理解为人与人协作、数据与数据关联、人与数据互动的企业运营支撑平台。本期课程为大家介绍第一次进入3DEXPERIENCE所需要做的一些基础准备工作。内容分为两大部分，一部分是作为平台管理员在平台所需做的基础设置；另一部则是作为平台基本用户可以做的自定义设......
Revisiting Prioritized Experience Replay: A Value Perspective
发表时间：2021文章要点：这篇文章想说Prioritizedexperiencereplay这类方法通过surprise(themagnitudeofthetemporal-differenceerror)来采样，但是surprise只能量化unexpectedness，experience的重要性还是不清楚(importance)。作者定义experience的重要度在于可以给更新带来......

Remember and Forget for Experience Replay

相关文章

赞助商

阅读排行