首页 > 其他分享 >IL 相关读论文记录

IL 相关读论文记录

时间:2024-04-16 20:56:02浏览次数:25  
标签:phi expert 记录 论文 维度 IL action pdf reward

读读读

RILIR

链接:https://arxiv.org/pdf/2310.14274.pdf

本文主要是对 IRL 的改进。

首先,设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。
接着,再设计了一个网络 \(f_\theta(\phi(o_t),\phi(o_{t+1}))\) 来预测相邻两个状态之间所进行的 action。这样,在计算 loss 值进行反向传播的时候,除了 DQN 中基本的一项(实际的 \(Q(\phi(o_t),a_t)\) 值和通过 TD 得到的预测值之间的 MSE)之外,还加上了由于当前 状态下 learning action 和 expert action 不同所造成的 loss。

最后,考虑了 reward 该如何产生。经典的做法和 GAN 类似设计了一个 discriminator 来分辨是 expert 数据还是自己产生的,拿相似程度当做 reward。本文中同时从整体的 trajectory 维度和局部 action 维度来制定 reward。trajectory 维度利用 Wasserstein 距离求出 \(R_1\),而 action 维度通过训练 discriminator,利用和 GAIL 相似的方法求出 \(R_2\)。合起来就可以用来作为 reward 训练 Q-network 了。

标签:phi,expert,记录,论文,维度,IL,action,pdf,reward
From: https://www.cnblogs.com/SkyRainWind/p/18139165

相关文章

  • Cuckoo Filters 及其变体的整理
    BasicCuckooFilterCuckooFilter是一种CuckooHash的变体,使用\(fingerprint\)来派生出元素在表中的另一个备选位置。在正确的配置下,CuckooFilter的错误率约为0.19%。CuckooFilter相对于BloomFilter的优势支持元素的动态删除比BloomFilter更高的查找效率实......
  • 淘宝旺旺聊天 新界面 聊天记录
    历史聊天记录可以漫游我最早漫游到2022年4月 获取是通过wss://wss-cntaobao.dingtalk.com/  body.userMessageModels 此外 networkwebsocket 无法搜索中文,只能搜索英文https://issues.chromium.org/issues?q=status:open%20componentid:1456921&s=created_tim......
  • R中遇到dplyr::filter等函数冲突--优先设置某个包
    用conflicted包解决参考:https://blog.csdn.net/qazplm12_3/article/details/119621588#1安装软件包install.packages("conflicted")#2显示冲突的包library(conflicted)conflict_scout()#3设置优先使用的包的函数(例如上述的`filter()`:dplyrandstats冲突)#优先使......
  • DELPHI cxgrid 统计主从表中,从表的记录数量
    效果如图所示:核心代码:procedureTForm1.Button1Click(Sender:TObject);varAIndex,I,ATotalSelectedCount,ASelectedRecordsCount:integer;AMasterView:TcxGridDBTableView;ADetailDataController:TcxCustomDataController;beginATotalSelectedCount:=......
  • allfiles.vbs 显示子目录下的所有文件的修改时间、大小、文件名、扩展名等
    <p>&#65279;有的时候将子目录下的所有文件的修改时间、大小、全限定名等信息导出到Excel表格中。</p>尝试过命令行,但不太好用——1.对于“dir/s>1.txt”,当前目录与文件列表是分开显示的,合并起来太麻烦,而且没有文件的全限定名。2.对于“dir/b/s>1......
  • 如何使用vb 监控电脑活动记录
    <divid="navCategory"><h5class="catalogue">目录</h5><ulclass="first_class_ul"><li><ahref="#_label0">主要函数</a></li><li><ahref="#_......
  • CF154C Double Profiles 题解
    CF154CDoubleProfiles题解思路解析题目说的很明白,求有多少个无序点对\((i,j)\),使得与\(i\)直接相连的点集与直接与\(j\)相连的点集完全相等。我们想到如果直接判断每个\(i,j\)肯定会超时,所以我们想把每一个与任意一点直接相连的点集进行压缩,可以想到使用字符串哈希的......
  • bilibili视频下载
    bilibili视频下载:  you-get-download.py #!/usr/bin/python-8#-*-coding:utf-8-*-#CreatedbyiFantasticon2020/8/7#用于视频下载(B站等)importsys,os#fromyou_getimportcommonasyou_get#导入you-getp库importyou_get#导入you-getp库path="shanggui......
  • MIT6.S081 - Lab1: Xv6 and Unix utilities
    Part1:sleep实验要求与提示可以参考user/echo.c,user/grep.c和user/rm.c文件如果用户忘记传递参数,sleep应该打印一条错误消息命令行参数传递时为字符串,可以使用atoi函数将字符串转为数字使用系统调用sleep,有关实现sleep系统调用的内核代码参考kernel/sysproc.c(......
  • echarts常用属性记录
    title:标题相关show:true, //true(显示)|false(隐藏)text:'主标题',subtext:'副标题',x:'center'//水平位置'center'|'left'|'right'|{number}(x坐标,单位px)y:'top',//垂直位置'top'|......