IL 相关读论文记录

时间：2024-04-16 20:56:02浏览次数：33

标签：phi expert 记录论文维度 IL action pdf reward

读读读

RILIR

链接：https://arxiv.org/pdf/2310.14274.pdf

本文主要是对 IRL 的改进。

首先，设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。
接着，再设计了一个网络 \(f_\theta(\phi(o_t),\phi(o_{t+1}))\) 来预测相邻两个状态之间所进行的 action。这样，在计算 loss 值进行反向传播的时候，除了 DQN 中基本的一项（实际的 \(Q(\phi(o_t),a_t)\) 值和通过 TD 得到的预测值之间的 MSE）之外，还加上了由于当前状态下 learning action 和 expert action 不同所造成的 loss。

最后，考虑了 reward 该如何产生。经典的做法和 GAN 类似设计了一个 discriminator 来分辨是 expert 数据还是自己产生的，拿相似程度当做 reward。本文中同时从整体的 trajectory 维度和局部 action 维度来制定 reward。trajectory 维度利用 Wasserstein 距离求出 \(R_1\)，而 action 维度通过训练 discriminator，利用和 GAIL 相似的方法求出 \(R_2\)。合起来就可以用来作为 reward 训练 Q-network 了。

标签：phi,expert,记录,论文,维度,IL,action,pdf,reward
From： https://www.cnblogs.com/SkyRainWind/p/18139165

Cuckoo Filters 及其变体的整理
BasicCuckooFilterCuckooFilter是一种CuckooHash的变体，使用\(fingerprint\)来派生出元素在表中的另一个备选位置。在正确的配置下，CuckooFilter的错误率约为0.19%。CuckooFilter相对于BloomFilter的优势支持元素的动态删除比BloomFilter更高的查找效率实......
淘宝旺旺聊天新界面聊天记录
历史聊天记录可以漫游我最早漫游到2022年4月获取是通过wss://wss-cntaobao.dingtalk.com/ body.userMessageModels 此外 networkwebsocket 无法搜索中文，只能搜索英文https://issues.chromium.org/issues?q=status:open%20componentid:1456921&s=created_tim......
R中遇到dplyr::filter等函数冲突--优先设置某个包
用conflicted包解决参考：https://blog.csdn.net/qazplm12_3/article/details/119621588#1安装软件包install.packages("conflicted")#2显示冲突的包library(conflicted)conflict_scout()#3设置优先使用的包的函数（例如上述的`filter()`:dplyrandstats冲突）#优先使......
DELPHI cxgrid 统计主从表中,从表的记录数量
效果如图所示:核心代码:procedureTForm1.Button1Click(Sender:TObject);varAIndex,I,ATotalSelectedCount,ASelectedRecordsCount:integer;AMasterView:TcxGridDBTableView;ADetailDataController:TcxCustomDataController;beginATotalSelectedCount:=......
allfiles.vbs 显示子目录下的所有文件的修改时间、大小、文件名、扩展名等
<p>有的时候将子目录下的所有文件的修改时间、大小、全限定名等信息导出到Excel表格中。</p>尝试过命令行，但不太好用——1.对于“dir/s>1.txt”，当前目录与文件列表是分开显示的，合并起来太麻烦，而且没有文件的全限定名。2.对于“dir/b/s>1......
如何使用vb 监控电脑活动记录
<divid="navCategory"><h5class="catalogue">目录</h5><ulclass="first_class_ul"><li><ahref="#_label0">主要函数</a></li><li><ahref="#_......
CF154C Double Profiles 题解
CF154CDoubleProfiles题解思路解析题目说的很明白，求有多少个无序点对\((i,j)\)，使得与\(i\)直接相连的点集与直接与\(j\)相连的点集完全相等。我们想到如果直接判断每个\(i,j\)肯定会超时，所以我们想把每一个与任意一点直接相连的点集进行压缩，可以想到使用字符串哈希的......
bilibili视频下载
bilibili视频下载： you-get-download.py #!/usr/bin/python-8#-*-coding:utf-8-*-#CreatedbyiFantasticon2020/8/7#用于视频下载（B站等）importsys,os#fromyou_getimportcommonasyou_get#导入you-getp库importyou_get#导入you-getp库path="shanggui......
MIT6.S081 - Lab1: Xv6 and Unix utilities
Part1：sleep实验要求与提示可以参考user/echo.c,user/grep.c和user/rm.c文件如果用户忘记传递参数，sleep应该打印一条错误消息命令行参数传递时为字符串，可以使用atoi函数将字符串转为数字使用系统调用sleep，有关实现sleep系统调用的内核代码参考kernel/sysproc.c(......
echarts常用属性记录
title：标题相关show:true, //true（显示）|false（隐藏）text:'主标题',subtext:'副标题',x:'center'//水平位置'center'|'left'|'right'|{number}（x坐标，单位px）y:'top',//垂直位置'top'|......

IL 相关读论文记录

RILIR

相关文章

赞助商

阅读排行