主要内容:
对比游戏和机器人领域,关键的区别在于探索的难度,这取决于奖励函数的选择和复杂的环境动态性。在博弈中,奖励函数通常是给定的,可以直接进行优化,最新的研究表明,使用稀疏奖励学习可以得到执行期望目标的策略,而不是陷入局部最优。但是奖励稀疏的环境中进行探索是困难的,智能体很少看到奖励信号。本文的方法建立在深度确定性策略(Deep Deterministic Policy Gradients)和后见经验回放(Hindsight Experience Replay) 的基础之上,并且只做了一点额外的假设,我们可以收集少量的演示数据,可以用来在奖励稀疏的环境中进行探索。实验解决了从一个随机的初始状态开始,在给定的位置堆叠多个块。
我们在演示中引入了一个简单的辅助目标,一种在学习到的策略优于演示时消除演示效果的方法,以及一种从演示状态重置的方法,可以显着改进和加速训练策略。
- 演示的辅助目标定义为 RL 智能体采取的动作与演示数据中演示者采取的动作之间的相似性,这鼓励 RL 智能体采取与演示者所采取的动作相似的动作,这可以帮助 RL 智能体从演示中更有效地学习。
- 消除演示效果的方法是一种随着 RL 智能体学习逐渐降低演示重要性的方法,这是通过随着时间的推移减少演示的辅助目标的权重来完成的。随着 RL agent 性能的提高,辅助目标的权重降低,允许 RL agent 更自由地探索和学习自己的经验。
- 从演示状态重置的方法是一种通过将环境重置为演示数据中的初始状态来改进 RL 智能体训练的方法。这允许 RL 代理从与演示者相似的状态开始,这可以帮助 RL 代理更有效地学习并避免陷入次优状态。
本文使用的方法:
Reinforcement Learning、DDPG、Multi-Goal RL、Hindsight Experience Replay (HER)
HER的关键见解是,即使在没有获得奖励的失败的推出中,代理人也可以通过假设在推出中看到的状态是实际的目标,将其转化为成功的目标。对于代理所经历的每个情节,我们将其存储在回放缓冲区中两次:一次与情节中追求的原始目标,一次与情节中达到的最终状态对应的目标,好像代理从一开始就打算达到这个状态。
本文中的方法通过多种方式将DDPG和演示相结合,以最大限度地利用演示来提高学习。
- 演示缓冲区
维护第二个回放缓冲区,在这里存放我们的演示数据。 - 行为克隆损失
本文引入了一个新的损失计算仅在演示数据上用来训练Actor。 - Q-Filter
文中将行为克隆损失仅应用于Critic来判定演示者的行动优于Actor的行动。 - 重置到演示状态
为了克服超长视域任务中奖励稀疏的问题,我们利用演示片段中的状态和目标重置了一些训练片段。这里我们做了一个额外的假设,即我们可以从给定的状态重新启动训练。
提供演示可能是向学习系统提供先验信息的一种有用方式,因为它允许系统通过观察知识渊博的教师的行为来学习,而不是仅仅依赖于系统本身编码的专家知识。这可以帮助系统更有效地学习,也可以让学习过程对用户来说更直观。此外,提供演示允许学习系统从现实世界的示例中学习,这可以使其获得的知识更适用于它正在接受培训以执行的任务。
文章信息
原文:Overcoming Exploration in Reinforcement Learning with Demonstrations
源码:无
申明:版权归原文作者及出版单位所有,如有侵权请联系删除