发表时间:2017(Deep Reinforcement Learning Symposium, NIPS 2017)
文章要点:这篇文章主要研究了replay buffer大小对Q-learning的影响,得出的结论是大的buffer会损害performance,因为采样的样本会更加stale。基于此,文章提出了一个简单的改进combined experience replay (CER),就是每次采样更新都把最新产生的样本放到batch里训练。
文章比较了三个简单的算法,Q-Learning with online transitions,Q-Learning with experience replay以及Q-Learning with CER。
总结:感觉还是有一定道理的,不过测试的环境都还很简单,而且结论也不是完全一致的,可能还是跟具体任务有关。比如在gird world上,Combined-Q缓解了buffer大小的影响,
但是在Lunar Lander上和Pong上,好像并没有啥用
疑问:无。