郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Proceedings of the 36 th International Conference on Machine Learning, Long Beach, California, PMLR 97, 2019
Abstract
许多强化学习(RL)任务为智能体提供高维观察,这些观察可以简化为低维连续状态。为了将这个过程形式化,我们引入了DeepMDP的概念,这是一个参数化的潜在空间模型,通过最小化两个可控制的潜在空间损失来训练:奖励预测和下一个潜在状态的分布预测。我们表明,这些目标的优化保证了(1)作为状态空间表征的嵌入函数的质量和(2)作为环境模型的DeepMDP的质量。我们的理论发现得到了实验结果的证实,即经过训练的DeepMDP恢复了合成环境中高维观测的潜在结构。最后,我们表明,在Atari 2600域中,学习DeepMDP作为辅助任务,与无模型RL相比,可以大大提高性能。
1. Introduction
在强化学习(RL)中,通常将环境建模为马尔可夫决策过程(MDP)。然而,对于许多实际任务,这些MDP的状态表征包括大量冗余信息和与任务无关的噪声。例如,来自街机学习环境的图像观察(Bellemare等人,2013a)由33600个维度的像素阵列组成,但直觉上很清楚,所有游戏都存在较低维度的近似表示。考虑PONG;只观察画面中三个物体的位置和速度就已足够。在学习策略之前将每个帧转换成这样的简化状态,减少呈现给智能体的冗余和无关信息,将有助于学习过程。强化学习的表征学习技术正是通过这样做来提高现有RL算法的学习效率:学习从状态到简化状态的映射。
互模拟度量(Bisimulation metrics)(Ferns等人,2004;2011)定义了两个行为相似的状态,如果它们(1)产生了接近的即时奖励,(2)它们转变为行为相似的状态。互模拟度量已经被用于通过聚合状态(表征学习的一种形式)来降低状态空间的维数,但由于其高计算成本而没有受到太多关注。此外,状态聚合技术,无论是基于互模拟还是其他方法(Abel等人,2017;Li等人,2006;Singh等人,1995;Givan等人,2003;Jiang等人,2015;Ruan等人,2015),与函数近似方法的兼容性较差。相反,为了支持基于随机梯度下降的训练过程,我们探索了连续潜在表征的使用。具体而言,对于任何MDP,我们建议利用其对应的DeepMDP的潜在空间。
DeepMDP是MDP的一个潜在空间模型,它已被训练为最小化两个可控制的损失:预测奖励和预测下一个潜在状态的分布。DeepMDP可以被视为最近使用神经网络学习环境潜在空间模型的工作的形式化(Ha & Schmidhuber,2018;Oh等人,2017;Hafner等人,2018)。DeepMDP的状态可以解释为原始MDP状态的表征,这样做揭示了与互模拟的深刻理论联系。我们表明,DeepMDP损失的最小化保证了两个非相似状态永远不会崩溃为一个表征。此外,这保证了DeepMDP中的价值函数是原始任务MDP中价值函数的良好近似。这些结果不仅为表征学习提供了一种有理论基础的方法,而且代表着朝着基于潜在空间模型的RL算法迈出了有希望的第一步。
在合成环境中,我们表明DeepMDP学习恢复高维观测的低维潜在结构。然后,我们证明,与基准无模型方法相比,学习DeepMDP作为Atari 2600环境中无模型RL的辅助任务(Bellemare等人,2013b)可显著提高性能。
2. Background
标签:DeepMDP,状态,Latent,学习,Learning,RL,MDP,表征 From: https://www.cnblogs.com/lucifer1997/p/17130404.html