• 2024-05-27Stanford斯坦福 CS 224R: 深度强化学习 (7)
    多任务和目标条件强化学习第一章引言1.1多任务学习的动机在之前的课程中,我们学习了强化学习的基本概念和算法,如模仿学习、策略梯度、Q学习等。然而,这些方法在实际应用中往往面临着样本效率低下的挑战。收集大量高质量的互动数据是昂贵且耗时的,特别是对于复杂的决策
  • 2024-05-27Stanford斯坦福 CS 224R: 深度强化学习 (6)
    CS224R离线强化学习:第二部分课程介绍请看第一节内容课程回顾离线强化学习、数据约束和保守性离线强化学习旨在利用离线数据,重复使用离线数据是有益的。其关键挑战是由于πβ