首页 > 其他分享 >RILIR 复现 & 一些 idea

RILIR 复现 & 一些 idea

时间:2024-04-19 21:23:37浏览次数:15  
标签:trajectory idea actor critic 复现 demo RILIR reward

伪代码:
image

在 if done 的时候,在环境中已经跑了一个 trajectory 了,利用当前的 trajectory 和专家的 demo 求一下 reward(文章中用的是 optimal transport 的几种方法)
否则,就继续在 observation 的基础上利用 actor 学到的策略 sample 出 action,并用 list 记录下当前的 \((o_t, a_t, r_t)\) 作为 trajectory 的一部分。

整体来看:
首先整体的强化学习框架是 actor-critic,其中 actor 输出 action(的分布),更新使用 critic,而 critic 作为 actor 的评估函数,更新使用时序残差的 MSE,即image
这一项。actor 如何更新的 (待填)。

IL 中的重要问题,如何根据专家数据和 actor 生成之间的差距来获取 reward?在 RILIR 中,采用的是 trajectory 级别的模仿学习,即将当前的 trajectory 和 expert demo trajectory 拿出来做一个 OT(理解成相似程度),得到 reward

标签:trajectory,idea,actor,critic,复现,demo,RILIR,reward
From: https://www.cnblogs.com/SkyRainWind/p/18146795

相关文章

  • mac intellij idea卡顿排查解决
    最近我的idea异常卡顿,一顿谷歌查找后,解决。如下1.调整idea的JVM内存 Help->EditcustomVMOptions-Xms2048m-Xmx2048m-XX:ReservedCodeCacheSize=512m-XX:+IgnoreUnrecognizedVMOptions-XX:+UseG1GC-XX:SoftRefLRUPolicyMSPerMB=50-XX:+UseStringDeduplication-XX:AutoBoxC......
  • IDEA中创建一个Servlet项目的详细步骤
    以下是通过IDEA创建一个简单的JavaServlet示例,支持通过HTTP在浏览器中访问的详细步骤。1.创建项目打开IDEA,点击NEW创建一个新项目生成如下的目录结构设置Maven的路径,File—>settings—>输入mvn。 2.引入依赖我们所使用的Servlet是Tomcat的api,不是JDK,也就是说Servlet......
  • jdk 21降为 1.8 报错(idea中)
    1、检测环境变量配置win+r =>cmd 检测jdk版本 java-version查看环境变量中jdk路径  echo%JAVA_HOME%2、打开IDEA的设置或首选项对话框File→Settings→ Build,Execution,Deployment”→“Compiler”,在“JavaCompiler”部分,将“Targetby......
  • IDEA如何同时运行两个Modules
    首先File->ProjectStructure里面添加module点击run旁边的Run/Debug设置,新增一个Application,填写jdk、module名、主类、工作目录按住Shift点击Run即可在下方的Service里面看到同时运行两个modules注意:相同类型的module可能会端口号冲突,需要提前修改成不同的端口,比如在nacos......
  • Idea报错 【cannot access com.xxx】的【解决办法】
    正常操作代码,一个类突然标红,提示 cannotaccesscom.xxx 。执行下面操作,执行完后项目变为正常 但是如果是你代码存在异常,可不是清缓存就能解决了,就要靠自己了哈哈 第一步File知道吧! 第二步点我箭头的位置知道吧 第三步点中间的ok?意思就是清缓存并重启idea的意......
  • IDEA2023版本创建Spring项目只能勾选17和21却无法使用Java8的完美解决方案
    参考:https://www.jb51.net/program/308256k4b.htm方案一:替换创建项目的源我们只知道IDEA页面创建Spring项目,其实是访问springinitializr去创建项目。故我们可以通过阿里云国服去间接创建Spring项目。将https://start.spring.io/或者http://start.springboot.io/替换为https://......
  • VBS定时执行idea程序的Testng文件的方法
    <p>背景:</p>Windows环境cmd命令行执行TestNG文件,会报一些jar包路径问题,所以改用vbs打开idea程序的通过点击快捷键执行testng.xml文件。vbs代码如下:'第一部分:定义变量DimRunTimeDimWshShellSetWshShell=WScript.CreateObject("WScript.Shell......
  • fastjson 1.2.24 反序列化导致任意命令执行漏洞复现
    前置知识今天复现了常见的fastjson反序列化漏洞,了解该漏洞需要一些前置的知识,这里总结一下:Fastjsonfastjson是一个Java的库,可以将Java对象转换为Json字符串,也可以将Json字符串转换为Java对象,Fastjson也可以操作一些Java中的对象。JNDIJNDI(JavaNamingandDirectoryInterf......
  • IDEA 中 Popup(弹出窗口)的设置说明
    IDEA中Popup(弹出窗口)的设置说明.Balloon:弹出窗在屏幕上显示一小段时间,然后自动消失。通知也会显示在状态栏中,并添加到通知列表中。Stickyballoon:若不手动关闭,弹出窗会在屏幕上一直显示。Nopopup:不显示该弹出窗。参考IDEA启用/禁用RunDashboard.......
  • IntelliJ IDEA2021.3.1 使用 MybatisCodeHelperPro插件
    摘自:https://blog.csdn.net/weixin_44321065/article/details/132576008一、下载下载破解后的MybatisCodeHelperPro的V3.2.2版本V3.2.2-CSDN或者V3.2.2-Gitee二、应用将下载下来的Zip文件放到电脑上的某个位置(最好放在Idea管理插件的plugins下)然后自行搜索Idea......