发表时间:2021 (NeurIPS 2021)
文章要点:这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-loop decision making。另外这个advice不单单是reward的大小,可能具有更加实际的意义,比如告诉agent做什么动作。
作者提出了一个Coaching Augmented Markov Decision Processes (CAMDPs)框架,在这个框架下,算法包括两个步骤,advice grounding and advice distillation。grounding phase,就是去学会理解teacher-provided advice和high-value actions之间的联系,也就是学会理解advice。Distillation phase就是根据advice去学策略。
具体的,先去学一个surrogate policy
这里c是advice,\(\tau\)是具体的任务,s是状态。然后就用强化的方式,提供关于这个task的真实的reward来训。这个过程和标准的multi-task RL一样,只是多了一个advice作为输出入。有了这个之后,新任务来了就用这个surrogate policy根据新的advice来生成轨迹,然后用监督学习的方式学成一个不依赖于advice的policy
总结:感觉这个paper的点就在于如何学会理解advice,这样来了新的任务之后,可以直接根据teacher给的advice来产生policy适应新的任务。但是感觉这个理解还是主要局限在非常相似的任务上,不是很好泛化。
而且并不是真的zero-shot transfer,还是需要和环境再交互才能再用监督学一个policy,就感觉有点鸡肋了。
疑问:里面这个先学一个advice conditioned的policy,再在新任务上采样,再监督成一个不依赖advice的policy,是不是有点多此一举了啊。是不是还不如直接重新在新任务上训练啊,就先搞个meta learning的pretrained model,然后直接对新任务finetune就好了。