发表时间:2017
文章要点:这篇文章想说,之前的文章去做planning的时候,都会去设计一个planning的方法。这篇文章提出了一个端到端的方法,Imagination-based Planner,不去设计planning的方式,做到全部的端对端训练,agent会决定什么时候去planning(imagine),什么时候去真实环境里面做动作(act)。模型主要包括这几个模块:manager用来决定是imagine还是act,controller用来执行动作,imagination是一个model用来预测状态转移,memory就相当于buffer。然后planning的时候就相当于policy rollout,只是rollout的结构有区别,“1-step”,“n-step”,and“tree”。要么一个状态planning多次,要么planning一条长轨迹,要么二者的折中
训练的目标函数就是最大化外部reward,以及最小化planning的计算量。训练方式就是REINFORCE和stochastic value gradients (SVG),然后就没了。
总结:感觉很不靠谱啊。。。
疑问:无。