首页 > 编程语言 >强化学习中Q-learning,DQN等off-policy算法不需要重要性采样的原因

强化学习中Q-learning,DQN等off-policy算法不需要重要性采样的原因

时间:2022-12-03 15:57:18浏览次数:42  
标签:采样 问题 off 学习 learning policy DQN 强化

在整理自己的学习笔记的时候突然看到了这个问题,这个问题是我多年前刚接触强化学习时候想到的问题,之后由于忙其他的事情就没有把这个问题终结,这里也就正好把这个问题重新的规整一下。

 

其实,这个DQN算法作为off-policy的强化学习算法为啥不需要重要性采样这个问题,真的是个神奇的问题,对于新入手强化学习的人来说这个问题就是个死活也搞不清、弄不懂的问题,但是对于强化学习的老手来说这个问题又显得十分的弱智、可笑,那我就用我当年从一个老家伙那得到的回到来作为这个post的答案:

DQN的收敛性不需要重要性采样来保证。

 

标签:采样,问题,off,学习,learning,policy,DQN,强化
From: https://www.cnblogs.com/devilmaycry812839668/p/16948169.html

相关文章