强化学习中Q-learning,DQN等off-policy算法不需要重要性采样的原因

时间：2022-12-03 15:57:18浏览次数：43

标签：采样问题 off 学习 learning policy DQN 强化

在整理自己的学习笔记的时候突然看到了这个问题，这个问题是我多年前刚接触强化学习时候想到的问题，之后由于忙其他的事情就没有把这个问题终结，这里也就正好把这个问题重新的规整一下。

其实，这个DQN算法作为off-policy的强化学习算法为啥不需要重要性采样这个问题，真的是个神奇的问题，对于新入手强化学习的人来说这个问题就是个死活也搞不清、弄不懂的问题，但是对于强化学习的老手来说这个问题又显得十分的弱智、可笑，那我就用我当年从一个老家伙那得到的回到来作为这个post的答案：

DQN的收敛性不需要重要性采样来保证。

标签：采样,问题,off,学习,learning,policy,DQN,强化
From： https://www.cnblogs.com/devilmaycry812839668/p/16948169.html

吴恩达Coursera, 机器学习专项课程, Machine Learning：Unsupervised Learning, Recomme
Practicequiz:Reinforcementlearningintroduction第1个问题：Youareusingreinforcementlearningtocontrolafourleggedrobot.Thepositionoftherobotwo......
吴恩达Coursera, 机器学习专项课程, Machine Learning：Unsupervised Learning, Recomme
Practicequiz:CollaborativeFiltering第1个问题：Youhavethefollowingtableofmovieratings:Refertothetableaboveforquestion1and2；Assumenumberings......
吴恩达Coursera, 机器学习专项课程, Machine Learning：Unsupervised Learning, Recomme
Practicequiz:Clustering第1个问题：Whichofthesebestdescribesunsupervisedlearning?【正确】Aformofmachinelearningthatfindspatternsusingunlabel......
用pageOffice控件实现 office word文档在线编辑表格中写数据的方法
PageOffice对Word文档中Table的操作，包括给单元格赋值和动态添加行的效果。 1应用场景OA办公中，经常要在文档的指定位置表格，填充后端指定数据。如word文档中，表格数据 ......
剑指offer:反转链表
题目描述输入一个链表，反转链表后，输出链表的所有元素。1.非递归/*structListNode{intval;structListNode*next;ListNode(intx):val(x),......
剑指offer：栈的压入、弹出序列
输入两个整数序列，第一个序列表示栈的压入顺序，请判断第二个序列是否为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如序列1,2,3,4,5是某栈的压入顺序，序列4，5,3,2,1是该......
剑指offer:二叉搜索树与双向链表
题目描述输入一棵二叉搜索树，将该二叉搜索树转换成一个排序的双向链表。要求不能创建任何新的结点，只能调整树中结点指针的指向。1.递归/*structTreeNode{intval;s......
剑指offer:二叉树中和为某一值的路径
题目描述输入一颗二叉树和一个整数，打印出二叉树中结点值的和为输入整数的所有路径。路径定义为从树的根结点开始往下一直到叶结点所经过的结点形成一条路径。/***Definiti......
剑指offer:数组中出现次数超过一半的数字
题目描述数组中有一个数字出现的次数超过数组长度的一半，请找出这个数字。例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}。由于数字2在数组中出现了5次，超过数组长度的一半，因......
剑指offer:复杂链表的复制
题目描述输入一个复杂链表（每个节点中有节点值，以及两个指针，一个指向下一个节点，另一个特殊指针指向任意一个节点）。/*structRandomListNode{intlabel;structRandom......

强化学习中Q-learning,DQN等off-policy算法不需要重要性采样的原因

相关文章

赞助商

阅读排行