发表时间:2020 (NeurIPS 2020)
文章要点:这篇文章想说,对于监督学习来说就算刚开始训的不准,后面的新数据也会给你正确的feedback,这样的话随着训练进行,总会修正之前的错误。但是对于像Q-learning这样的强化学习任务来说,不存在这样的feedback,因为更新是通过bootstrapping的方式更新的,而bootstrapping来自于自身不准确的网络,这个方式会使得误差累积,然后越来越差。作者提出了一个新的experience replay的算法DisCor,通过估计target value的准确性来reweight采样,然后更新Q。
文章写了很多用来近似估计value误差的分析,最后加权的公式为
其中
\(\tau\)是常数。整个流程如下
可以看到,这里面还有一个error model用来迭代计算预测误差。最终效果还是有一定提升的
总结:感觉写了很多有的没的理论,也不知道在写啥。出发点是make sense的,就是不知道各种估计最后到底还有没有用。
疑问:这个误差这么算真的准吗,不太看得懂。感觉还要再看看才行。