首页 > 其他分享 >Teachable Reinforcement Learning via Advice Distillation

Teachable Reinforcement Learning via Advice Distillation

时间:2023-05-02 23:55:23浏览次数:40  
标签:via Teachable Advice Distillation teacher 任务 这个 policy advice


发表时间:2021 (NeurIPS 2021)
文章要点:这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-loop decision making。另外这个advice不单单是reward的大小,可能具有更加实际的意义,比如告诉agent做什么动作。
作者提出了一个Coaching Augmented Markov Decision Processes (CAMDPs)框架,在这个框架下,算法包括两个步骤,advice grounding and advice distillation。grounding phase,就是去学会理解teacher-provided advice和high-value actions之间的联系,也就是学会理解advice。Distillation phase就是根据advice去学策略。
具体的,先去学一个surrogate policy

这里c是advice,\(\tau\)是具体的任务,s是状态。然后就用强化的方式,提供关于这个task的真实的reward来训。这个过程和标准的multi-task RL一样,只是多了一个advice作为输出入。有了这个之后,新任务来了就用这个surrogate policy根据新的advice来生成轨迹,然后用监督学习的方式学成一个不依赖于advice的policy

总结:感觉这个paper的点就在于如何学会理解advice,这样来了新的任务之后,可以直接根据teacher给的advice来产生policy适应新的任务。但是感觉这个理解还是主要局限在非常相似的任务上,不是很好泛化。
而且并不是真的zero-shot transfer,还是需要和环境再交互才能再用监督学一个policy,就感觉有点鸡肋了。
疑问:里面这个先学一个advice conditioned的policy,再在新任务上采样,再监督成一个不依赖advice的policy,是不是有点多此一举了啊。是不是还不如直接重新在新任务上训练啊,就先搞个meta learning的pretrained model,然后直接对新任务finetune就好了。

标签:via,Teachable,Advice,Distillation,teacher,任务,这个,policy,advice
From: https://www.cnblogs.com/initial-h/p/17368532.html

相关文章

  • cpp multi thread sync via std::atomic<bool>
    #include<atomic>#include<chrono>#include<cmath>#include<condition_variable>#include<ctime>#include<fstream>#include<functional>#include<future>#include<iomanip>#include<iostream&g......
  • 10 Abbreviations You Should Know
    10AbbreviationsYouShouldKnowASAPassoonaspossibleRSVPpleaseresponselaterRIPrestinpeacee.g.takinganexamplei.e.inotherwordshttps://www.bilibili.com/video/BV1uW41187D4/......
  • User installations are disabled via policy on the machine. 安装python
    Userinstallationsaredisabledviapolicyonthemachine. 解决办法1、在运行里输入gpedit.msc;(grouppolicy)组策略2、计算机配置管理>>管理模板>>windows组件>>windowsInstaller>>禁止用户安装;3、打开它禁用此项就可以了。    ......
  • rempe-2023-Trace and Pace: Controllable Pedestrian Animation via Guided Trajecto
    #TraceandPace:ControllablePedestrianAnimationviaGuidedTrajectoryDiffusion#paper1.paper-info1.1MetadataAuthor::[[DavisRempe]],[[ZhengyiLuo]],[[XueBinPeng]],[[YeYuan]],[[KrisKitani]],[[KarstenKreis]],[[SanjaFidler]],[[OrLi......
  • HTTP协议中Via的用法
    现在,在将Web请求从客户端传送到服务器的路径上,经过两个或多个代理是很常见的。比如,出于安全和节省费用的考虑,很多公司都会用缓存代理服务器来访问因特网,而且很多大型ISP都会使用代理缓存来提高性能并实现各种特性。现在,有相当比例的Web请求都是通过代理转发的。同时,出于性能原因,把......
  • FastGCN Fast Learning with Graph Convolutional Networks via Importance Sampling
    目录概符号说明MotivationFastGCN方差分析代码ChenJ.,MaT.andXiaoC.FastGCN:fastlearningwithgraphconvolutionalnetworksviaimportancesampling.ICLR,2018.概一般的GCN每层通常需要经过所有的结点的propagation,但是这是费时的.像普通的深度学习方法一......
  • @RestControllerAdvice注解 @ExceptionHandler注解
    RestControllerAdvice+ExceptionHandler这两个注解的组合,被用作项目的全局异常处理。一旦项目中发生了异常,就会进入使用了RestControllerAdvice注解类中使用了ExceptionHandler注解的方法。下面是一些项目全局异常的处理@ControllerAdvice(annotations={RestController.class,......
  • nfs via ssh tunnel(通过ssh隧道跨网络挂载nfs)
    这篇代码段帮了大忙:https://gist.github.com/proudlygeek/5721498下面给出我的设置:我要在机器97上访问机器231上的硬盘,需要把231上的/data1/ubuntu挂载到97上1.共享nfs文件夹在231上编辑:/etc/exports(需要root)ubuntu@lthpc:~$cat/etc/exports/data1/ubuntulocalhost(ins......
  • MULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
    指令调优是一种新的学习范式,它可以根据指令指定的任务对预先训练好的语言模型进行微调,在各种自然语言处理任务中显示出良好的零目标性能。然而,对于视觉和多模态任务,它仍然没有被探索。在这项工作中,我们介绍了multiinstruction,这是第一个多模态指令调优基准数据集,由47个不同的多模......
  • Sequential Recommendation via Stochastic Self-Attention
    目录概符号说明MotivationSTOSA代码FanZ.,LiuZ.,WangA.,NazariZ.,ZhengL.,PengH.andYuP.S.Sequentialrecommendationviastochasticself-attention.InternationalWorldWideWebConference(WWW),2022.概Stochasticembeddings和Wassersteinattent......