首页 > 其他分享 >TOPOLOGICAL EXPERIENCE REPLAY

TOPOLOGICAL EXPERIENCE REPLAY

时间:2023-07-13 23:45:26浏览次数:34  
标签:采样 状态 eta EXPERIENCE 更新 terminal REPLAY TOPOLOGICAL 存成


发表时间:2022(ICLR 2022)
文章要点:这篇文章指出根据TD error来采样是低效的,因为估计TD error的target Q就不准(since a state's correct Q-value preconditions on the accurate successor states' Q-value.)。为了解决这个问题,文章提出Topological Experience Replay (TER),将experience存成一个图结构,然后用breadth-first search从terminal state开始更新(reverse sweep)。为了打破数据之间的相关性,抽取的batch混合了reverse sweep和随机采样。最终在goal-reaching tasks上取得了不错的效果。
具体的,作者用hash table来构建图,先用random projection将状态编码,存成图里的顶点,然后动作为边。然后图是动态更新的,每个step都会把新来的transition构建到图里。
有了图之后就,剩下的就是怎么采样更新。首先有一个terminal states的集合,先从这个集合里采一个子集出来\(v^\prime\),然后再找对应的前一个状态以及动作\(v,a\),凑成一步的transition。然后等这些transition被训练过后,下一次就从\(v\)开始,去找再上一步的状态和动作,凑成一个新的batch,就这样从后往前全部更新一遍。等一轮走完之后,再重复这个过程。另外,因为有的状态可能不能到达terminal state,所以再随机采样一些样本,混合到一起训练(BATCH MIXING),作者用的是TER结合PER,作者是\(\eta\)的PER混合\(1-\eta\)的TER,其中\(\eta\)取0.1,02的时候表现最好。

伪代码如下

总结:也是想说更新顺序非常重要,不过存成图结构感觉有点人工干预过多了,主要的实验环境都是迷宫类型的,可能graph建起来比较简单,因为总的状态数不多,添到图里的时候都会重复,如果是Atari那种,估计完全一样的状态会少很多。
疑问:文章说BATCH MIXING的作用是ensuring those transitions disconnected from terminal states to be updated,会有这样的状态存在吗?更重要的作用会不会是打乱数据的相关性,不然更新会不会出问题?
这里建图的主要目的就是为了合并状态,回溯更新Q。有没有类似的方法,直接在buffer里实现这个更新,不用建图?
文章用了一个random projection的方式来做hash,这么做的好处是啥,为什么不用现成的MD5之类的方式?

标签:采样,状态,eta,EXPERIENCE,更新,terminal,REPLAY,TOPOLOGICAL,存成
From: https://www.cnblogs.com/initial-h/p/17552500.html

相关文章

  • Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
    发表时间:2021(NeurIPS2021)文章要点:理论表明,更高的hindsightTDerror,更加onpolicy,以及更准的targetQvalue的样本应该有更高的采样权重(ThetheorysuggeststhatdatawithhigherhindsightTDerror,betteron-policinessandmoreaccuratetargetQvalueshouldbea......
  • Remember and Forget for Experience Replay
    发表时间:2019(ICML2019)文章要点:这篇文章想说如果replay的经验和当前的policy差别很大的话,对更新是有害的。然后提出了RememberandForgetExperienceReplay(ReF-ER)算法,(1)跳过那些和当前policy差别很大的experience的更新(2)用trustregion来约束更新步长。作者把experience分为......
  • LEARNING TO SAMPLE WITH LOCAL AND GLOBAL CONTEXTS FROM EXPERIENCE REPLAY BUFFERS
    发表时间:2021(ICLR2021)文章要点:这篇文章想说,之前的experiencereplay的priority比如PER,都是单个transition独立设置的,并没有考虑transition之间的关系。这篇文章提出了一个叫NeuralExperienceReplaySampler(NERS)的learning-basedsamplingmethod。这个方法用强化的方式来......
  • Windows OOBE(Out-of-Box Experience)是指在首次启动 Windows 操作系统时,用户会遇到的设
    WindowsOOBE(Out-of-BoxExperience)是指在首次启动Windows操作系统时,用户会遇到的设置和配置过程。每个Windows版本的OOBE提供了不同的功能和更新,以下是各个版本的一些主要特点和改进:Windows7:用户可以选择地区、输入法和键盘布局等设置。提供了简化的用户账户创建和密码......
  • Prioritized Sequence Experience Replay
    发表时间:2020文章要点:这篇文章提出了PrioritizedSequenceExperienceReplay(PSER),一个新的经验回放机制来提升训练速度和效果。主要的出发点就是不仅要给重要的transition高的priority,对于到达这个重要的transition的之前的那些transitions,也要增加它们的priority(alsoincre......
  • Adobe Experience Design 2022v45.0.62【XD原型设计软件】中文直装版安装教程
    AdobeXD45是一款功能强大的原型开发工具,它具有非常专业和丰富的功能,可以帮助用户方便地进行内容分享和布局,样机设计软件提供的功能可以有效地提高用户的工作效率,减少用户工作时间软件支持云中的文件管理,使用者可以把文件上载到软件的云内存中,从而使用户无论在任何设备上登陆该软件......
  • Revisiting Fundamentals of Experience Replay
    发表时间:2020(ICML2020)文章要点:这篇文章研究了experiencereplayinQ-learning,主要考虑了两个方面:replaycapacity(buffer的大小,thetotalnumberoftransitionsstoredinthebuffer)和ratiooflearningupdates(replayratio,样本收集和更新的比例,thenumberofgradientup......
  • Experience Six
    Task1:basicgraphtask1_1.pyfromturtleimport*defmove(x,y):penup()goto(x,y)pendown()defdraw(n,size=100):foriinrange(n):fd(size)left(360/n)defmain():pensize(2)pencolor('red')mo......
  • 初识云平台-3DEXPERIENCE在线课程 硕迪科技
     3DEXPERIENCE平台可以理解为人与人协作、数据与数据关联、人与数据互动的企业运营支撑平台。本期课程为大家介绍第一次进入3DEXPERIENCE所需要做的一些基础准备工作。内容分为两大部分,一部分是作为平台管理员在平台所需做的基础设置;另一部则是作为平台基本用户可以做的自定义设......
  • Revisiting Prioritized Experience Replay: A Value Perspective
    发表时间:2021文章要点:这篇文章想说Prioritizedexperiencereplay这类方法通过surprise(themagnitudeofthetemporal-differenceerror)来采样,但是surprise只能量化unexpectedness,experience的重要性还是不清楚(importance)。作者定义experience的重要度在于可以给更新带来......