这段内容主要讨论了Grounded Action Transformation (GAT) 框架的逻辑和目标。GAT 是一种用于强化学习中 仿真环境 和 真实环境 动力学(transition dynamics)对齐的方法。以下是详细解读:
整体背景与问题
- 挑战:仿真环境 $ E_{sim} $ 和真实环境 $ E_{real} $ 的动力学 $ P $ 存在差异,导致在仿真环境中学到的策略 $ \pi_\theta $ 在真实环境中表现不佳,出现性能差距。
- 目标:找到一种方法使仿真环境 $ E_{sim} $ 的动力学 $ P_\phi $ 尽可能接近真实环境 $ E_{real} $ 的动力学 $ P^* $,从而减少性能差距。
关键概念
- 动力学差异最小化:
- 目标是通过参数 $ \phi $ 来最小化仿真动力学 $ P_\phi $ 和真实动力学 $ P^* $ 之间的差异。
- 目标函数:
\( \phi^* = \arg \min_\phi \sum_{\tau^i \in D_{real}} \sum_{t=0}^{T-1} d(P^*(s_{t+1}^i | s_t^i, a_t^i), P_\phi(s_{t+1}^i | s_t^i, a_t^i)) \)- $ d(\cdot) $:衡量两个动力学之间差异的度量函数。
- $ P^* $:真实环境的动力学。
- $ P_\phi $:仿真环境通过参数 $ \phi $ 改造后的动力学。
GAT 框架的核心逻辑
GAT 框架的核心思想是通过一个 动作变换函数 $ g_\phi $(Grounded Action Transformation)将仿真环境中的状态-动作对调整,使其更接近真实环境的动力学 $ P^* $。
具体步骤如下:
-
动作变换函数:
- GAT 使用一个动作变换函数 $ \hat{a}t = g\phi(s_t, a_t) $,参数化为两个模型:
- 前向模型 $ f_\phi^+ $:预测下一状态 $ \hat{s}_{t+1} $。
- 逆向模型 $ h_\phi^- $:基于预测的下一状态 $ \hat{s}_{t+1} $ 生成一个新的动作 $ \hat{a}_t $。
- GAT 使用一个动作变换函数 $ \hat{a}t = g\phi(s_t, a_t) $,参数化为两个模型:
-
前向模型 $ f_\phi^+ $:
- 作用:基于当前状态 $ s_t $ 和动作 $ a_t $,预测下一状态 $ \hat{s}_{t+1} $。
- 训练数据:来自真实环境 $ E_{real} $。
- 公式:
\( \hat{s}_{t+1} = f_\phi^+(s_t, a_t) \)
-
逆向模型 $ h_\phi^- $:
- 作用:基于预测的下一状态 $ \hat{s}_{t+1} $ 和当前状态 $ s_t $,预测一个 grounded 动作 $ \hat{a}_t $。
- 训练数据:来自仿真环境 $ E_{sim} $。
- 公式:
\( \hat{a}_t = h_\phi^-(\hat{s}_{t+1}, s_t) \)
-
动态校正:
- $ \hat{a}_t $ 是经过 GAT 校正后的动作。
- 仿真环境会根据校正后的动作 $ \hat{a}t $ 更新状态,使得仿真环境的下一状态 $ s $ 更接近真实环境中的 $ s_{t+1}^* $。
目标与优势
通过以上步骤,GAT 框架能够:
-
缩小仿真与真实环境的动力学差异:
- 通过学习参数 $ \phi $,使得仿真环境的动力学 $ P_\phi $ 更接近真实动力学 $ P^* $。
-
减少策略迁移的性能差距:
- 在仿真环境 $ E_{sim} $ 中学到的策略 $ \pi_\theta $ 会在真实环境 $ E_{real} $ 中表现更好,因为仿真动力学已经与真实动力学对齐。
总结逻辑
- 仿真环境和真实环境存在动力学差异。
- GAT 框架通过参数化的动作变换函数 $ g_\phi $ 调整动作 $ a_t $,使仿真环境的下一状态 $ s_{t+1} $ 更接近真实环境的下一状态 $ s_{t+1}^* $。
- GAT 使用 前向模型 和 逆向模型 结合训练,以最小化仿真和真实动力学的差异。
- 最终,使在仿真环境中学到的策略 $ \pi_\theta $ 更容易迁移到真实环境,性能差距更小。
关键结果
\(
\text{GAT 学到的仿真动力学 } P_\phi \approx \text{真实动力学 } P^*
\)
从而提高了策略在真实环境中的表现。