读读读
RILIR
链接:https://arxiv.org/pdf/2310.14274.pdf
本文主要是对 IRL 的改进。
首先,设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。
接着,再设计了一个网络 \(f_\theta(\phi(o_t),\phi(o_{t+1}))\) 来预测相邻两个状态之间所进行的 action。这样,在计算 loss 值进行反向传播的时候,除了 DQN 中基本的一项(实际的 \(Q(\phi(o_t),a_t)\) 值和通过 TD 得到的预测值之间的 MSE)之外,还加上了由于当前 状态下 learning action 和 expert action 不同所造成的 loss。
最后,考虑了 reward 该如何产生。经典的做法和 GAN 类似设计了一个 discriminator 来分辨是 expert 数据还是自己产生的,拿相似程度当做 reward。本文中同时从整体的 trajectory 维度和局部 action 维度来制定 reward。trajectory 维度利用 Wasserstein 距离求出 \(R_1\),而 action 维度通过训练 discriminator,利用和 GAIL 相似的方法求出 \(R_2\)。合起来就可以用来作为 reward 训练 Q-network 了。
标签:phi,expert,记录,论文,维度,IL,action,pdf,reward From: https://www.cnblogs.com/SkyRainWind/p/18139165