Learning Off-Policy with Online Planning

时间：2023-04-23 13:13:26浏览次数：41

标签：planning Off Actor Planning Online Policy model

发表时间：2021（CoRL 2021）
文章要点：这篇文章提出Off-Policy with Online Planning (LOOP)算法，将H-step lookahead with a learned model和terminal value function learned by a model-free off-policy结合起来，做online planning。然后提出一个Actor Regularized Control (ARC)方法来解决Actor Divergence问题。
具体的，就是去学一个model，然后选动作的时候就基于model选使得累积回报最大的动作

最后的这个value是在训强化的时候得到的。这里有个问题就是，做online planning的策略和训练value的策略不是同一个策略，会导致online planning得到的动作不一定是最好的，这个作者就叫做Actor Divergence，作者提的方法就是在最大化回报的同时控制这两个策略的距离

然后就结束了。
总结：不知道点在哪，感觉就没有创新。
疑问：感觉这文章没啥新东西啊，也不知道怎么就能发了。

标签：planning,Off,Actor,Planning,Online,Policy,model
From： https://www.cnblogs.com/initial-h/p/17346243.html

剑指 Offer 33. 二叉搜索树的后序遍历序列（java解题）
(剑指Offer33.二叉搜索树的后序遍历序列（java解题）)1.题目输入一个整数数组，判断该数组是不是某二叉搜索树的后序遍历结果。如果是则返回 true，否则返回 false。假设输入的数组的任意两个数字都互不相同。参考以下这颗二叉搜索树：5/\26/\13示......
剑指 Offer 33. 二叉搜索树的后序遍历序列（java解题）
目录1.题目2.解题思路3.数据类型功能函数总结4.java代码5.踩坑小记递归调用，显示StackOverflowError1.题目输入一个整数数组，判断该数组是不是某二叉搜索树的后序遍历结果。如果是则返回 true，否则返回 false。假设输入的数组的任意两个数字都互不相同。参考以下这颗二叉......
从功能到外企测开，工作1年半拿下年薪30万的测开 offer，未来可期
说一下我的大致情况，女，2018年毕业于末流211计算机本科。后来待业两年，完全没有从事互联网方面的工作。去年来到北京，在小公司做了一年多功能测试。今年11月底跳槽到外企，开始了我钱多事少离家近，每周965的快乐生活，现在年薪30万左右。降大任于斯人也，必先苦其心志2014年，高考没有考好，为......
剑指Offer——59-I.滑动窗口的最大值（c语言）
title:剑指Offer59-I.滑动窗口的最大值（c语言）给定一个数组nums和滑动窗口的大小k，请找出所有滑动窗口里的最大值。示例：输入:nums=[1,3,-1,-3,5,3,6,7],和k=3输出:[3,3,5,5,6,7]解释:滑动窗口的位置最大值-----------------......
剑指Offer——10-I.斐波那契数列（c语言）
title:剑指Offer10-I.斐波那契数列（c语言）写一个函数，输入n，求斐波那契（Fibonacci）数列的第n项。斐波那契数列的定义如下：F(0)=0,F(1)=1F(N)=F(N-1)+F(N-2),其中N>1.斐波那契数列由0和1开始，之后的斐波那契数就是由之前的两数相加而得出。答案需要取......
剑指Offer——57.和为s的两个数字（c语言）
title:剑指Offer57.和为s的两个数字（c语言）输入一个递增排序的数组和一个数字s，在数组中查找两个数，使得它们的和正好是s。如果有多对数字的和等于s，则输出任意一对即可。示例1：输入：nums=[2,7,11,15],target=9输出：[2,7]或者[7,2]示例2：输入：nums=[10,26,30,31,47,60],......
剑指Offer——03.数组中重复的数字（c语言）
title:剑指Offer03.数组中重复的数字（c语言）找出数组中重复的数字。在一个长度为n的数组nums里的所有数字都在0～n-1的范围内。数组中某些数字是重复的，但不知道有几个数字重复了，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例1：输入：[2,3,1,0,2,......
剑指Offer——05.替换空格（c语言）
title:剑指Offer05.替换空格（c语言）请实现一个函数，把字符串s中的每个空格替换成"%20"。示例1：输入：s="Wearehappy."输出："We%20are%20happy."限制：$$0\leqslants的长度\leqslant10000$$代码如下：char*replaceSpace(char*s){if(NULL==s){return......
剑指Offer——53-II. 0~n-1中缺失的数字（c语言）
title:剑指Offer53-II.0~n-1中缺失的数字（c语言）一个长度为n-1的递增排序数组中的所有数字都是唯一的，并且每个数字都在范围0～n-1之内。在范围0～n-1内的n个数字中有且只有一个数字不在该数组中，请找出这个数字。示例1：输入:[0,1,3]输出:2示例2：输入:[0,1,2,3,4,5,6,7,9]输......
剑指Offer——10-II.青蛙跳台阶问题（c语言）
title:剑指Offer10-II.青蛙跳台阶问题（c语言）一只青蛙一次可以跳上1级台阶，也可以跳上2级台阶。求该青蛙跳上一个n级的台阶总共有多少种跳法。答案需要取模1e9+7（1000000007），如计算初始结果为：1000000008，请返回1。示例1：输入：n=2输出：2示例2：输入：n=7输出：21示例3：输入：n......

Learning Off-Policy with Online Planning

相关文章

赞助商

阅读排行