首页 > 其他分享 >Experience Replay with Likelihood-free Importance Weights

Experience Replay with Likelihood-free Importance Weights

时间:2023-08-13 23:34:34浏览次数:48  
标签:ratio Importance 样本 free buffer Replay policy likelihood


发表时间:2020
文章要点:这篇文章提出LFIW算法用likelihood作为experience的采样权重(likelihood-free density ratio estimator),reweight experiences based on their likelihood under the stationary distribution of the current policy,这种方式鼓励让经常访问的状态有更小的误差估计(encourage small approximation errors on the value function over frequently encountered states)。
大概思路是维护两个buffer

Slow replay buffer存所有样本\(d^D\),fast replay buffer存on-policy的样本\(d^\pi\).然后采样基于ratio \(d^\pi (s,a)/d^D (s,a)\),作者如下估计ratio

最后更新为

效果上看,在一些环境上是有效果的

总结:思路就是尽量采on-policy的样本,给他们赋予更高的权重。
疑问:其实不是很明白为啥这个ratio会好。
图里看有的效果不如SAC,为啥在table里又是这个方法在所有环境上都好了,统计方法不一样?

标签:ratio,Importance,样本,free,buffer,Replay,policy,likelihood
From: https://www.cnblogs.com/initial-h/p/17627519.html

相关文章

  • 【Freertos基础入门】深入浅出freertos互斥量
    @TOC前言FreeRTOS是一款开源的实时操作系统,提供了许多基本的内核对象,其中包括互斥锁(Mutex)。互斥锁是一种常用的同步机制,用于确保在同一时间内只有一个任务可以访问共享资源,防止竞态条件等并发问题。本文将介绍FreeRTOS中的互斥锁的使用方法和注意事项。一、互斥量是什么?当多个任务......
  • Ubuntu20.04 下编译和运行 FreeSWITCH的问题汇总
    1.Ubuntu20.04下编译和运行FreeSWITCH的问题汇总1.1.环境Ubuntu20.04.2LTS(Linux5.4.0-152-genericx86_64GNU/Linux)FreeSWITCH-1.10.9-release1.2.结论根据配置和编译过程中的错误提示,基本上就是一些依赖库的缺失问题,根据提示给出的依赖库及其版本要求,只要能在a......
  • Freemarker生成电子协议并转png图片
    目录依赖包配置模板文件目录Java代码html转png图片需要用到wkhtmltopdfFreemarker是一种流行的模板引擎,它可以使用Java、C#、PHP等语言编写模板,并从模板中生成HTML、XML、文本等各种文件格式。Freemarker模板由一个或多个包含变量和指令的文本文件组成,这些变量和指令可以在......
  • freemarker 通过 URL 获取模板文件导出
    通过远程模板文件导出word或其他格式文件。示例是SpringBoot整合freemarker。添加freemarker依赖<dependency><groupId>org.freemarker</groupId><artifactId>freemarker</artifactId><version>2.3.28</version></dependency>......
  • 成功搞定H7-TOO的FreeRTOS Trace图形化链表方式展示任务管理
    之前推出了H7-TOOL的RTOSTrace功能,已经支持RTX5,ThreadX,uCOS-III,uCOS-II和FreeRTOS,特色是不需要目标板额外做任何代码,实时检测RTOS任务执行情况,支持在线和脱机玩法,效果是下面这样的:  这样的展示还不够直观,这几天开始研究图形化链表方式展示任务管理,从源码的角度来看,OS内核......
  • Freezing with Style
    CF150EFreezingwithStyle题意给定一颗带边权的树,求一条边数在\([L,R]\)之间的路径,并使得路径上边权的中位数最大。输出一条可行路径的两个端点。注:此处\(1,2,3,4\)的中位数为\(3\),而非\(2\)或者\(2.5\)。题解首先用中位数惯用套路二分,将小于\(mid\)的设为\(......
  • Freemium及其他常见商业模式介绍
    目录Freemium模式基于广告模式订阅制模式小结Freemium模式Freemium是一种常见的商业模式,其基本思路是提供部分服务或产品免费,而更高级或完整的服务需要付费。Freemium的具体运作模式通常如下:提供基础版本产品或服务免费,这是产品或服务的主要核心功能和价值所在。免费版让用......
  • FreeSWITCH添加自定义endpoint之媒体交互
    操作系统:CentOS7.6_x64FreeSWITCH版本:1.10.9 之前写过FreeSWITCH添加自定义endpoint的文章:https://www.cnblogs.com/MikeZhang/p/fsAddEndpoint20230528.html今天记录下endpoint媒体交互的过程并提供示例代码及相关资源下载,本文涉及示例代码和资源可从如下渠道获取:关......
  • FreeRTOS 基于 ARMv8-M 对 MPU 的应用
    一、前言ARMv8-M支持MPU,FreeRTOS也添加了对这些MPU的应用代码。这里用来记录FreeRTOS对MPU应用方式的探究结果。二、ArmV8-MMPU介绍ARMv8-MMPU支持每个安全状态(non-secure和secure)0-8个区域的配置。MPU的主要特性如下:区域最小大小为32字节,最大为4GB,但必......
  • java导出word加水印,使用aspose.words加freemaker实现
    先通过freemaker模板得到word文档通过aspose.words中的Document读取文档,使用aspose.wordsShape添加水印publicstaticvoidexportWordWaterMark(StringtemplateName,Map<String,Object>data,StringdocName,HttpServletResponseresponse,StringwatermarkText,Stringfo......