Muesli: Combining Improvements in Policy Optimization

时间：2023-06-02 22:57:51浏览次数：30

标签：search Optimization optimization policy Improvements Policy Muesli model

发表时间：2021（ICML 2021）
文章要点：这篇文章提出一个更新policy的方式，结合regularized policy optimization 以及model learning as an auxiliary loss。最后直接用policy net输出动作，不做搜索，就能有很好的效果。
具体的，作者提出了clipped MPO (CMPO) regularizer的更新方式。Regularizer为KL散度

有了Regularizer之后，更新就是PG

接着就是用model学一个辅助任务，在model里执行k步，然后有一个policy,用来和真实环境里的policy算一个KL的约束

然后差不多就结束了。作者在这前其实还提了一些设计思路和需要考虑的东西，感觉有点废话，不过还是放到这里

总结：感觉主要的地方已经变成policy optimization了，muzero里面的learned model，tree search基本上都被弱化了，就有点不像是search的算法了。
疑问：里面解释了很多有的没的，没有细看。

标签：search,Optimization,optimization,policy,Improvements,Policy,Muesli,model
From： https://www.cnblogs.com/initial-h/p/17453048.html

52.同源策略（Same-Origin Policy）限制了跨域请求No 'Access-Control-Allow-Origin' head
又遇到如下报错了，该如何处理，AccesstoXMLHttpRequestat'http://localhost:3000/users'fromorigin'http://localhost:5173'hasbeenblockedbyCORSpolicy:No'Access-Control-Allow-Origin'headerispresentontherequestedresource.这个错误......
POLICY IMPROVEMENT BY PLANNING WITH GUMBEL
发表时间：2022（ICLR2022）文章要点：AlphaZero在搜索次数很少的时候甚至动作空间都不能完全被访问到，这个时候AlphaZero的效果是不好的。文章提出了GumbelAlphaZero算法，利用policyimprovement的思想不重复的采样动作，来替代原始的MCTS的搜索方式，在模拟次数很少的情况下提高了性能。改......
Off-Policy Deep Reinforcement Learning without Exploration
发表时间：2019（ICML2019）文章要点：这篇文章想说在offlineRL的setting下，由于外推误差（extrapolationerrors）的原因，标准的off-policy算法比如DQN，DDPG之类的，如果数据的分布和当前policy的分布差距很大的话，那就很难从data里学到好的policy。然后文章提出了batch-constrainedreinforceme......
Your password does not satisfy the current policy requirements解决办法
mysql5.7.x安装以后，想修改随机生成的密码为简单容易记忆的密码，如root,123456等，这时候通过修改密码的几种方式都不行，出现密码不符合当前安全策略要求。为了解决这种问题，可以修改几个值，他们是关于密码验证的设置。我们通过随机生成的密码，登录数据库，查看密码验证相关变量：mysql>show......
blocked by CORS policy: No 'Access-Control-Allow-Origin' header is present on th
现在的浏览器出于安全策略的限制，都是不允许跨域的，但是开发的时候经常需要一些别的域的接口，特别是一些接口不是自己能控制的时候，往往会造成开发困难。今天无意中知道了，chrome浏览器可以通过设置为可跨域，解决跨域问题，从而在本地进行开发工作下面我就介绍谷歌浏览器新老版本各自的......
K8S API资源对象NetworkPolicy
NetworkPolicy用来控制Pod与Pod之间的网络通信，它也支持针对Namespace进行限制。基于白名单模式，符合规则的对象通过，不符合的拒绝。应用场景举例：PodA不能访问PodB；开发环境所有Pod不能访问测试命名空间；提供对外访问时，限制外部IP；官方NetworkPolicyYAML示例：apiVersion:netwo......
golang map key struct hash policy
Theeasiestandmostflexiblewayistousea struct asthekeytype,includingallthedatayouwanttobepartofthekey,soinyourcase:typeKeystruct{X,Yint}Andthat'sall.Usingit:m:=map[Key]int{}m[Key{2,2}]=4m[Key{2......
Policy-based-route
策略路由-接口方式配置ACL<R1>system-viewEntersystemview,returnuserviewwithCtrl+Z.[R1]acl3001[R1-acl-adv-3001]displaythis[V200R003C00]#aclnumber3001#return[R1-acl-adv-3001]rulepermitipsource1.1.1.20[R1-acl-adv-3001]quit[R1]acl300......
Policy-based-route
本地策略路由仅对本地触发的流量生效配置方法-全局模式下配置ACLaclnumber3000rule5permitipdestination7.7.7.00.0.0.255配置方法-全局模式下配置本地路由策略policy-based-routeaapermitnode10if-matchacl3009applyip-addressnext-hop13.1.1.2配置方......
syspolicy_purge_history sql job failed
错误信息如下：'FileC:\ProgramFiles(x86)\MicrosoftSQLServer\130\Tools\PowerShell\Modules\SQLPS\Sqlps.ps1cannotbeloadedbecauserunningscriptsisdisabledonthissystem根据错误信息提示检查发现服务器注册表里缺少内容-Microsoft.SqlServer.Management.Power......

Muesli: Combining Improvements in Policy Optimization

相关文章

赞助商

阅读排行