首页 > 其他分享 >Remember and Forget for Experience Replay

Remember and Forget for Experience Replay

时间:2023-07-02 12:23:11浏览次数:50  
标签:Remember experience near Replay Experience policy 更新

发表时间:2019(ICML 2019)
文章要点:这篇文章想说如果replay的经验和当前的policy差别很大的话,对更新是有害的。然后提出了Remember and Forget Experience Replay (ReF-ER)算法,(1)跳过那些和当前policy差别很大的experience的更新(2)用trust region来约束更新步长。
作者把experience分为“near-policy" or “far-policy",然后更新基于near-policy experience。区分的表征是计算当前policy和之前policy的ratio,然后设置一个阈值,落在范围内的就是near-policy experience

其中\(c_{max}>1\)。
更新的准则就是只有near-policy的experience提供梯度

接着就是控制更新步长,让更新的policy离上一个policy不要差太远

然后作者就把这个方法用到各个算法上,DDPG,NAF,V-RACER,处理的问题都是连续动作空间。

总结:思路就是用最新的样本更新,然后控制更新幅度不要太大。感觉就是往on-policy的算法上靠。
疑问:无。

标签:Remember,experience,near,Replay,Experience,policy,更新
From: https://www.cnblogs.com/initial-h/p/17520632.html

相关文章

  • LEARNING TO SAMPLE WITH LOCAL AND GLOBAL CONTEXTS FROM EXPERIENCE REPLAY BUFFERS
    发表时间:2021(ICLR2021)文章要点:这篇文章想说,之前的experiencereplay的priority比如PER,都是单个transition独立设置的,并没有考虑transition之间的关系。这篇文章提出了一个叫NeuralExperienceReplaySampler(NERS)的learning-basedsamplingmethod。这个方法用强化的方式来......
  • Windows OOBE(Out-of-Box Experience)是指在首次启动 Windows 操作系统时,用户会遇到的设
    WindowsOOBE(Out-of-BoxExperience)是指在首次启动Windows操作系统时,用户会遇到的设置和配置过程。每个Windows版本的OOBE提供了不同的功能和更新,以下是各个版本的一些主要特点和改进:Windows7:用户可以选择地区、输入法和键盘布局等设置。提供了简化的用户账户创建和密码......
  • Prioritized Sequence Experience Replay
    发表时间:2020文章要点:这篇文章提出了PrioritizedSequenceExperienceReplay(PSER),一个新的经验回放机制来提升训练速度和效果。主要的出发点就是不仅要给重要的transition高的priority,对于到达这个重要的transition的之前的那些transitions,也要增加它们的priority(alsoincre......
  • Compose 状态保存:rememberSaveable 原理分析
    前言我曾经在一篇介绍ComposeNavigation的文章中提到了Navigation的状态保存实际是由rememberSaveable实现的,有同学反馈希望单独介绍一下rememberSaveable的功能及实现原理。我们都知道remember可以保存数据、避免状态因重组而丢失,但它依然无法避免在ConfigurationCha......
  • Adobe Experience Design 2022v45.0.62【XD原型设计软件】中文直装版安装教程
    AdobeXD45是一款功能强大的原型开发工具,它具有非常专业和丰富的功能,可以帮助用户方便地进行内容分享和布局,样机设计软件提供的功能可以有效地提高用户的工作效率,减少用户工作时间软件支持云中的文件管理,使用者可以把文件上载到软件的云内存中,从而使用户无论在任何设备上登陆该软件......
  • UVA1401 Remember the Word
    思路首先有一个比较朴素的DP就是记\(f_i\)为\(s\)的从第\(i\)个字符开始到字符串结尾的划分方案数,记模板串的集合为\(T\),\(s\)从第\(i\)个字符开始到字符串结尾的子串为\(s(i)\),那么不难写出方程:\[f_i=\sumf_{i+\operatorname{len}(t)}[t\inT\landt是s(......
  • Revisiting Fundamentals of Experience Replay
    发表时间:2020(ICML2020)文章要点:这篇文章研究了experiencereplayinQ-learning,主要考虑了两个方面:replaycapacity(buffer的大小,thetotalnumberoftransitionsstoredinthebuffer)和ratiooflearningupdates(replayratio,样本收集和更新的比例,thenumberofgradientup......
  • Experience Six
    Task1:basicgraphtask1_1.pyfromturtleimport*defmove(x,y):penup()goto(x,y)pendown()defdraw(n,size=100):foriinrange(n):fd(size)left(360/n)defmain():pensize(2)pencolor('red')mo......
  • 初识云平台-3DEXPERIENCE在线课程 硕迪科技
     3DEXPERIENCE平台可以理解为人与人协作、数据与数据关联、人与数据互动的企业运营支撑平台。本期课程为大家介绍第一次进入3DEXPERIENCE所需要做的一些基础准备工作。内容分为两大部分,一部分是作为平台管理员在平台所需做的基础设置;另一部则是作为平台基本用户可以做的自定义设......
  • Revisiting Prioritized Experience Replay: A Value Perspective
    发表时间:2021文章要点:这篇文章想说Prioritizedexperiencereplay这类方法通过surprise(themagnitudeofthetemporal-differenceerror)来采样,但是surprise只能量化unexpectedness,experience的重要性还是不清楚(importance)。作者定义experience的重要度在于可以给更新带来......