强化学习On-policy vs Off-policy

时间：2023-06-09 14:32:23浏览次数：45

标签：function off value action vs 更新 policy Off

强化学习On-policy vs Off-policy

这里我们讲讲强化学习中on-policy和off-policy的区别。
实际上这个区别非常简单，就是说如果算法在更新它的policy的时候，它是依赖于前面的Q value function的话，那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控，那么它就是一个off policy的。

具体来说就是由于在算法更新我们value fcuntion 的时候，实际上我们就是基于这个现有的policy去更新这个value的function，实际上就是你一直依赖于之前的那个policy。所以这叫 on-policy。

然后 off-policy 就是说我们不依赖于之前学习的policy 来进行一些决策，使得这些生成的数据，和基于这个policy 生成的数据不同。所以这就叫 off-policy.
举个例子就是那 Monte Carlo methods 为例。再这个例子里，我们看到这里面的更新用到了 $强化学习On-policy vs Off-policy_强化学习$ -greedy policy 去随机的引入一些操作。这而这些随机的一些data就是off-policy的。为什么呢，因为算法再更新 policy function 的时候，会一直贪心地以 action value function 中值最大的action 为选择，这样就会让一些action 可能没有机会被访问到，说白了就是被explore 的机会就少了。

参考： http://incompleteideas.net/book/first/ebook/node54.html

标签：function,off,value,action,vs,更新,policy,Off
From： https://blog.51cto.com/u_11384719/6447754

3、Kafka图形工具-Offset Explorer (Kafka Tool)
Kafka图形工具-OffsetExplorer(KafkaTool)在Zookeeper里面只能看到kafka的元数据，看不到kafka的数据本身，利用图形工具OffsetExplorer(KafkaTool)可查看OffsetExplorer,旧称KafkaTool,工具是一个GUI应用程序,用于管理和使用ApacheKafka群集.它提供了一个直观的UI,允......
win10 vs2022 搭建 cocos2d-x 3.17 开发环境
引擎下载地址https://cocos2d-x.org/download/也可以在github下载https://github.com/cocos2d/cocos2d-x/tags手册地址https://docs.cocos2d-x.org/cocos2d-x/v3/zh/api文档地址https://docs.cocos2d-x.org/api-ref/cplusplus/v3x/index.htmlhelloworld安装注意事项......
四个offer，选择去外包？
大家好，我是田哥。一位朋友最近在面试，收到一些offer，不过有点点遗憾，拿到的全是外包公司的offer。很多人也许在心里在想，外包？这辈子是不可能进的。这里有一句名言来形容，可能不是很恰当：未经他人苦,莫劝他人善，差不多这个意思。不是每个人都能进大厂的，我也见过很多人在外包公司干了七八年1......
graalvm nodejs + spire office 实现office 处理
实际上是一个比较简单的处理，主要是利用了graalvm的nodejs可以方便的使用外部jar，我们就可以使用其他nodejsweb框架，结合spireoffice实现专业可靠的office转换处理预备主要是安装graalvm以及nodejsgraalvm已经不支持包含nodejs了，需要独立安装参考对于grralvm安装......
LeetCode 剑指 Offer 65. 不用加减乘除做加法
/***写一个函数，求两个整数之和，要求在函数体内不得使用“+”、“-”、“*”、“/”四则运算符号。*<p>*示例:*输入:a=1,b=1*输出:2*<p>*提示：*a,b均可能是负数或0*结果不会溢出32位整数**00000001*00000101**进位和0......
文心一言 VS 讯飞星火 VS chatgpt （35）-- 算法导论5.3 5题
五、证明:在过程PERMUTE-BY-SORTING的数组P中，所有元素都唯一的概率至少是1-1/n。文心一言：证明：在过程PERMUTE-BY-SORTING中，对于输入数组P中的每个元素，其出现次数为1，因此对于每个元素，在排序后的数组中，它出现的位置是唯一的。假设在排序后的数组中，有两个元素a和b，它们在原始数组......
聊聊读研究生应该怎么权衡offer的选择（适合选择恐惧症，哈哈）
关注微信公众号“AI学习经历分享”，回复对应关键词，获取机器学习，深度学习，Python，Java的技术干货！今天突然有时间聊聊这个读研究生offer的选择，一方面是因为当初都答应了一位朋友，但是因为种种原因和因素，鸽了这个约定，并且最近一段时间比较忙，但是我从来没有忘记，答应别人的事情一定要做到。......
vscode对比不同路径下的两个文件
一、模拟环境 test目录下有两个文件夹，a和b 里面分别放着aa.txt 和bb.txt绝对路径：~/test/a/aa.txt~/test/b/bb.txt 二、命令行启动vscode对比$code--diffa/aa.txtb/bb.txt 三、使用vscode命令面板1.先用命令打开一个文件（模拟已经在查看的文件......
VS编译 error C2001: 常量中有换行符中文无法通过编译
VS编译errorC2001:常量中有换行符中文无法通过编译只有部分中文会提示，并且有时报错又时不错。2种解决方案：不用中文程序中添加system("chcp65001");使用UTF-8字符编码，且在高级保存选项中选择unicode（utf-8带签名）......
Target DVS EDI项目开源介绍
近期为了帮助广大用户更好地使用EDI系统，我们根据以往的项目实施经验，将成熟的EDI项目进行开源。用户安装好知行之桥EDI系统之后，只需要下载我们整理好的示例代码，并放置在知行之桥指定的工作区中，即可开始使用。今天的文章主要为大家介绍TargetDVSEDI项目，了解如何获取开源的......

强化学习On-policy vs Off-policy

强化学习On-policy vs Off-policy

相关文章

赞助商

阅读排行