首页 > 其他分享 >强化学习On-policy vs Off-policy

强化学习On-policy vs Off-policy

时间:2023-06-09 14:32:23浏览次数:45  
标签:function off value action vs 更新 policy Off


强化学习On-policy vs Off-policy

这里我们讲讲强化学习中on-policy和off-policy的区别。
实际上这个区别非常简单,就是说如果算法在更新它的policy的时候,它是依赖于前面的Q value function的话,那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控,那么它就是一个off policy的。

具体来说就是由于在算法更新我们value fcuntion 的时候,实际上我们就是基于这个现有的policy去更新这个value的function,实际上就是你一直依赖于之前的那个policy。 所以这叫 on-policy。

然后 off-policy 就是说我们不依赖于之前学习的policy 来进行一些决策,使得这些生成的数据,和基于这个policy 生成的数据不同。所以这就叫 off-policy.
举个例子就是那 Monte Carlo methods 为例。再这个例子里,我们看到这里面的更新用到了强化学习On-policy vs Off-policy_强化学习-greedy policy 去随机的引入一些操作。这而这些随机的一些data就是off-policy的。 为什么呢,因为算法再更新 policy function 的时候, 会一直贪心地以 action value function 中值最大的action 为选择,这样就会让一些action 可能没有机会被访问到,说白了就是 被explore 的机会就少了。

参考: http://incompleteideas.net/book/first/ebook/node54.html


标签:function,off,value,action,vs,更新,policy,Off
From: https://blog.51cto.com/u_11384719/6447754

相关文章

  • 3、Kafka图形工具-Offset Explorer (Kafka Tool)
    Kafka图形工具-OffsetExplorer(KafkaTool)在Zookeeper里面只能看到kafka的元数据,看不到kafka的数据本身,利用图形工具OffsetExplorer(KafkaTool)可查看OffsetExplorer,旧称KafkaTool,工具是一个GUI应用程序,用于管理和使用ApacheKafka群集.它提供了一个直观的UI,允......
  • win10 vs2022 搭建 cocos2d-x 3.17 开发环境
    引擎下载地址https://cocos2d-x.org/download/也可以在github下载https://github.com/cocos2d/cocos2d-x/tags手册地址https://docs.cocos2d-x.org/cocos2d-x/v3/zh/api文档地址https://docs.cocos2d-x.org/api-ref/cplusplus/v3x/index.htmlhelloworld安装注意事项......
  • 四个offer,选择去外包?
    大家好,我是田哥。一位朋友最近在面试,收到一些offer,不过有点点遗憾,拿到的全是外包公司的offer。很多人也许在心里在想,外包?这辈子是不可能进的。这里有一句名言来形容,可能不是很恰当:未经他人苦,莫劝他人善,差不多这个意思。不是每个人都能进大厂的,我也见过很多人在外包公司干了七八年1......
  • graalvm nodejs + spire office 实现office 处理
    实际上是一个比较简单的处理,主要是利用了graalvm的nodejs可以方便的使用外部jar,我们就可以使用其他nodejsweb框架,结合spireoffice实现专业可靠的office转换处理预备主要是安装graalvm以及nodejsgraalvm已经不支持包含nodejs了,需要独立安装参考对于grralvm安装......
  • LeetCode 剑指 Offer 65. 不用加减乘除做加法
    /***写一个函数,求两个整数之和,要求在函数体内不得使用“+”、“-”、“*”、“/”四则运算符号。*<p>*示例:*输入:a=1,b=1*输出:2*<p>*提示:*a,b均可能是负数或0*结果不会溢出32位整数**00000001*00000101**进位和0......
  • 文心一言 VS 讯飞星火 VS chatgpt (35)-- 算法导论5.3 5题
    五、证明:在过程PERMUTE-BY-SORTING的数组P中,所有元素都唯一的概率至少是1-1/n。文心一言:证明:在过程PERMUTE-BY-SORTING中,对于输入数组P中的每个元素,其出现次数为1,因此对于每个元素,在排序后的数组中,它出现的位置是唯一的。假设在排序后的数组中,有两个元素a和b,它们在原始数组......
  • 聊聊读研究生应该怎么权衡offer的选择(适合选择恐惧症,哈哈)
    关注微信公众号“AI学习经历分享”,回复对应关键词,获取机器学习,深度学习,Python,Java的技术干货!今天突然有时间聊聊这个读研究生offer的选择,一方面是因为当初都答应了一位朋友,但是因为种种原因和因素,鸽了这个约定,并且最近一段时间比较忙,但是我从来没有忘记,答应别人的事情一定要做到。......
  • vscode对比不同路径下的两个文件
    一、模拟环境 test目录下有两个文件夹,a和b 里面分别放着aa.txt 和bb.txt绝对路径:~/test/a/aa.txt~/test/b/bb.txt 二、命令行启动vscode对比$code--diffa/aa.txtb/bb.txt 三、使用vscode命令面板1.先用命令打开一个文件(模拟已经在查看的文件......
  • VS编译 error C2001: 常量中有换行符 中文无法通过编译
    VS编译errorC2001:常量中有换行符中文无法通过编译只有部分中文会提示,并且有时报错又时不错。2种解决方案:不用中文程序中添加system("chcp65001");使用UTF-8字符编码,且在高级保存选项中选择unicode(utf-8带签名)......
  • Target DVS EDI项目开源介绍
    近期为了帮助广大用户更好地使用EDI系统,我们根据以往的项目实施经验,将成熟的EDI项目进行开源。用户安装好知行之桥EDI系统之后,只需要下载我们整理好的示例代码,并放置在知行之桥指定的工作区中,即可开始使用。今天的文章主要为大家介绍TargetDVSEDI项目,了解如何获取开源的......