TOPOLOGICAL EXPERIENCE REPLAY

时间：2023-07-13 23:45:26浏览次数：34

标签：采样状态 eta EXPERIENCE 更新 terminal REPLAY TOPOLOGICAL 存成

发表时间：2022（ICLR 2022）
文章要点：这篇文章指出根据TD error来采样是低效的，因为估计TD error的target Q就不准（since a state's correct Q-value preconditions on the accurate successor states' Q-value.）。为了解决这个问题，文章提出Topological Experience Replay (TER)，将experience存成一个图结构，然后用breadth-first search从terminal state开始更新（reverse sweep）。为了打破数据之间的相关性，抽取的batch混合了reverse sweep和随机采样。最终在goal-reaching tasks上取得了不错的效果。
具体的，作者用hash table来构建图，先用random projection将状态编码，存成图里的顶点，然后动作为边。然后图是动态更新的，每个step都会把新来的transition构建到图里。
有了图之后就，剩下的就是怎么采样更新。首先有一个terminal states的集合，先从这个集合里采一个子集出来\(v^\prime\)，然后再找对应的前一个状态以及动作\(v,a\)，凑成一步的transition。然后等这些transition被训练过后，下一次就从\(v\)开始，去找再上一步的状态和动作，凑成一个新的batch，就这样从后往前全部更新一遍。等一轮走完之后，再重复这个过程。另外，因为有的状态可能不能到达terminal state，所以再随机采样一些样本，混合到一起训练（BATCH MIXING），作者用的是TER结合PER，作者是\(\eta\)的PER混合\(1-\eta\)的TER，其中\(\eta\)取0.1,02的时候表现最好。

伪代码如下

总结：也是想说更新顺序非常重要，不过存成图结构感觉有点人工干预过多了，主要的实验环境都是迷宫类型的，可能graph建起来比较简单，因为总的状态数不多，添到图里的时候都会重复，如果是Atari那种，估计完全一样的状态会少很多。
疑问：文章说BATCH MIXING的作用是ensuring those transitions disconnected from terminal states to be updated，会有这样的状态存在吗？更重要的作用会不会是打乱数据的相关性，不然更新会不会出问题？
这里建图的主要目的就是为了合并状态，回溯更新Q。有没有类似的方法，直接在buffer里实现这个更新，不用建图？
文章用了一个random projection的方式来做hash，这么做的好处是啥，为什么不用现成的MD5之类的方式？

标签：采样,状态,eta,EXPERIENCE,更新,terminal,REPLAY,TOPOLOGICAL,存成
From： https://www.cnblogs.com/initial-h/p/17552500.html

Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
发表时间：2021(NeurIPS2021)文章要点：理论表明，更高的hindsightTDerror，更加onpolicy,以及更准的targetQvalue的样本应该有更高的采样权重（ThetheorysuggeststhatdatawithhigherhindsightTDerror,betteron-policinessandmoreaccuratetargetQvalueshouldbea......
Remember and Forget for Experience Replay
发表时间：2019（ICML2019）文章要点：这篇文章想说如果replay的经验和当前的policy差别很大的话，对更新是有害的。然后提出了RememberandForgetExperienceReplay(ReF-ER)算法，（1）跳过那些和当前policy差别很大的experience的更新（2）用trustregion来约束更新步长。作者把experience分为......
LEARNING TO SAMPLE WITH LOCAL AND GLOBAL CONTEXTS FROM EXPERIENCE REPLAY BUFFERS
发表时间：2021（ICLR2021）文章要点：这篇文章想说，之前的experiencereplay的priority比如PER，都是单个transition独立设置的，并没有考虑transition之间的关系。这篇文章提出了一个叫NeuralExperienceReplaySampler(NERS)的learning-basedsamplingmethod。这个方法用强化的方式来......
Windows OOBE（Out-of-Box Experience）是指在首次启动 Windows 操作系统时，用户会遇到的设
WindowsOOBE（Out-of-BoxExperience）是指在首次启动Windows操作系统时，用户会遇到的设置和配置过程。每个Windows版本的OOBE提供了不同的功能和更新，以下是各个版本的一些主要特点和改进：Windows7：用户可以选择地区、输入法和键盘布局等设置。提供了简化的用户账户创建和密码......
Prioritized Sequence Experience Replay
发表时间：2020文章要点：这篇文章提出了PrioritizedSequenceExperienceReplay(PSER)，一个新的经验回放机制来提升训练速度和效果。主要的出发点就是不仅要给重要的transition高的priority，对于到达这个重要的transition的之前的那些transitions,也要增加它们的priority（alsoincre......
Adobe Experience Design 2022v45.0.62【XD原型设计软件】中文直装版安装教程
AdobeXD45是一款功能强大的原型开发工具，它具有非常专业和丰富的功能，可以帮助用户方便地进行内容分享和布局，样机设计软件提供的功能可以有效地提高用户的工作效率，减少用户工作时间软件支持云中的文件管理，使用者可以把文件上载到软件的云内存中，从而使用户无论在任何设备上登陆该软件......
Revisiting Fundamentals of Experience Replay
发表时间：2020（ICML2020）文章要点：这篇文章研究了experiencereplayinQ-learning，主要考虑了两个方面：replaycapacity（buffer的大小，thetotalnumberoftransitionsstoredinthebuffer）和ratiooflearningupdates(replayratio，样本收集和更新的比例,thenumberofgradientup......
Experience Six
Task1:basicgraphtask1_1.pyfromturtleimport*defmove(x,y):penup()goto(x,y)pendown()defdraw(n,size=100):foriinrange(n):fd(size)left(360/n)defmain():pensize(2)pencolor('red')mo......
初识云平台-3DEXPERIENCE在线课程硕迪科技
3DEXPERIENCE平台可以理解为人与人协作、数据与数据关联、人与数据互动的企业运营支撑平台。本期课程为大家介绍第一次进入3DEXPERIENCE所需要做的一些基础准备工作。内容分为两大部分，一部分是作为平台管理员在平台所需做的基础设置；另一部则是作为平台基本用户可以做的自定义设......
Revisiting Prioritized Experience Replay: A Value Perspective
发表时间：2021文章要点：这篇文章想说Prioritizedexperiencereplay这类方法通过surprise(themagnitudeofthetemporal-differenceerror)来采样，但是surprise只能量化unexpectedness，experience的重要性还是不清楚(importance)。作者定义experience的重要度在于可以给更新带来......

TOPOLOGICAL EXPERIENCE REPLAY

相关文章

赞助商

阅读排行