首页 > 其他分享 >Muesli: Combining Improvements in Policy Optimization

Muesli: Combining Improvements in Policy Optimization

时间:2023-06-02 22:57:51浏览次数:30  
标签:search Optimization optimization policy Improvements Policy Muesli model


发表时间:2021(ICML 2021)
文章要点:这篇文章提出一个更新policy的方式,结合regularized policy optimization 以及model learning as an auxiliary loss。最后直接用policy net输出动作,不做搜索,就能有很好的效果。
具体的,作者提出了clipped MPO (CMPO) regularizer的更新方式。Regularizer为KL散度


有了Regularizer之后,更新就是PG

接着就是用model学一个辅助任务,在model里执行k步,然后有一个policy,用来和真实环境里的policy算一个KL的约束

然后差不多就结束了。作者在这前其实还提了一些设计思路和需要考虑的东西,感觉有点废话,不过还是放到这里

总结:感觉主要的地方已经变成policy optimization了,muzero里面的learned model,tree search基本上都被弱化了,就有点不像是search的算法了。
疑问:里面解释了很多有的没的,没有细看。

标签:search,Optimization,optimization,policy,Improvements,Policy,Muesli,model
From: https://www.cnblogs.com/initial-h/p/17453048.html

相关文章

  • 52.同源策略(Same-Origin Policy)限制了跨域请求No 'Access-Control-Allow-Origin' head
    又遇到如下报错了,该如何处理,AccesstoXMLHttpRequestat'http://localhost:3000/users'fromorigin'http://localhost:5173'hasbeenblockedbyCORSpolicy:No'Access-Control-Allow-Origin'headerispresentontherequestedresource.这个错误......
  • POLICY IMPROVEMENT BY PLANNING WITH GUMBEL
    发表时间:2022(ICLR2022)文章要点:AlphaZero在搜索次数很少的时候甚至动作空间都不能完全被访问到,这个时候AlphaZero的效果是不好的。文章提出了GumbelAlphaZero算法,利用policyimprovement的思想不重复的采样动作,来替代原始的MCTS的搜索方式,在模拟次数很少的情况下提高了性能。改......
  • Off-Policy Deep Reinforcement Learning without Exploration
    发表时间:2019(ICML2019)文章要点:这篇文章想说在offlineRL的setting下,由于外推误差(extrapolationerrors)的原因,标准的off-policy算法比如DQN,DDPG之类的,如果数据的分布和当前policy的分布差距很大的话,那就很难从data里学到好的policy。然后文章提出了batch-constrainedreinforceme......
  • Your password does not satisfy the current policy requirements解决办法
    mysql5.7.x安装以后,想修改随机生成的密码为简单容易记忆的密码,如root,123456等,这时候通过修改密码的几种方式都不行,出现密码不符合当前安全策略要求。为了解决这种问题,可以修改几个值,他们是关于密码验证的设置。我们通过随机生成的密码,登录数据库,查看密码验证相关变量:mysql>show......
  • blocked by CORS policy: No 'Access-Control-Allow-Origin' header is present on th
    现在的浏览器出于安全策略的限制,都是不允许跨域的,但是开发的时候经常需要一些别的域的接口,特别是一些接口不是自己能控制的时候,往往会造成开发困难。今天无意中知道了,chrome浏览器可以通过设置为可跨域,解决跨域问题,从而在本地进行开发工作下面我就介绍谷歌浏览器新老版本各自的......
  • K8S API资源对象NetworkPolicy
    NetworkPolicy用来控制Pod与Pod之间的网络通信,它也支持针对Namespace进行限制。基于白名单模式,符合规则的对象通过,不符合的拒绝。应用场景举例:PodA不能访问PodB;开发环境所有Pod不能访问测试命名空间;提供对外访问时,限制外部IP;官方NetworkPolicyYAML示例:apiVersion:netwo......
  • golang map key struct hash policy
     Theeasiestandmostflexiblewayistousea struct asthekeytype,includingallthedatayouwanttobepartofthekey,soinyourcase:typeKeystruct{X,Yint}Andthat'sall.Usingit:m:=map[Key]int{}m[Key{2,2}]=4m[Key{2......
  • Policy-based-route
    策略路由-接口方式配置ACL<R1>system-viewEntersystemview,returnuserviewwithCtrl+Z.[R1]acl3001[R1-acl-adv-3001]displaythis[V200R003C00]#aclnumber3001#return[R1-acl-adv-3001]rulepermitipsource1.1.1.20[R1-acl-adv-3001]quit[R1]acl300......
  • Policy-based-route
    本地策略路由仅对本地触发的流量生效配置方法-全局模式下配置ACLaclnumber3000rule5permitipdestination7.7.7.00.0.0.255配置方法-全局模式下配置本地路由策略policy-based-routeaapermitnode10if-matchacl3009applyip-addressnext-hop13.1.1.2配置方......
  • syspolicy_purge_history sql job failed
    错误信息如下:'FileC:\ProgramFiles(x86)\MicrosoftSQLServer\130\Tools\PowerShell\Modules\SQLPS\Sqlps.ps1cannotbeloadedbecauserunningscriptsisdisabledonthissystem根据错误信息提示检查发现服务器注册表里缺少内容-Microsoft.SqlServer.Management.Power......