首页 > 其他分享 >Heuristic-Guided Reinforcement Learning

Heuristic-Guided Reinforcement Learning

时间:2023-05-06 23:33:07浏览次数:37  
标签:Heuristic Learning heuristic Guided Reinforcement horizon reward


发表时间:2021 (NeurIPS 2021)
文章要点:这篇文章提出了一个Heuristic-Guided Reinforcement Learning (HuRL)的框架,用domain knowledge或者offline data构建heuristic,将问题变成一个shorter-horizon的子问题,从而更容易解决。
具体的,就是将原始的MDP变换成一个新的reward和gamma的MDP,其中reward由原始reward和heuristic组成,然后gamma就可以变小了

所以就相当于缩短了horizon。这个方式相当于在reward和heuristic之间做trade off,HuRL effectively introduces horizon-based regularization that determines whether long-term value information should come from collected experiences or the heuristic.
然后作者举了个例子,就想说,如果heuristic很好,可以产生很好的policy,如果heuristic不够好,那么对训练是有害的,

接下来就是几个证明,没看明白。
总结:感觉什么都没说错,但是也什么都没说。可能就是提出了horizon-based regularization for RL这么一个观念吧。
疑问:有的时候真的不能理解,到底什么样的文章能中。

标签:Heuristic,Learning,heuristic,Guided,Reinforcement,horizon,reward
From: https://www.cnblogs.com/initial-h/p/17378718.html

相关文章

  • Medicine River ————-Learning journals 9
    Deardairy.                                20206MayHey,Harlan,longtimenosee.Howhaveyoubeenlately?I'vebeenquitebusylately.Ihopeyoudon'tblamemefornotcomingtoseeyo......
  • Robust Deep Reinforcement Learning against Adversarial Perturbations on State Ob
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!NeurIPS2020 ......
  • Learning A Single Network for Scale-Arbitrary Super-Resolution
    LearningASingleNetworkforScale-ArbitrarySuper-Resolutionabstract现有的singleimageSR网络是为具有特定整数比例因子(例如,×2/3/4)的图像开发的,无法处理非整数和非对称SR。在本文中,作者建议从特定比例的网络中学习任意比例的图像SR网络。introduction由于上采样......
  • 从代码上解析Meta-learning
    文章目录1.背景2.Meta-learning理解2.1Meta-learning到底做什么2.2MAML算法2.3MAML算法步骤2.4MAML代码分析和实现3.参考文章1.背景meta-learning区别于pretraining,它主要通过多个task来学习不同任务之间的内在联系,通俗点说,也即是通过多个任务来学习共同的参数。举个例子,人类在......
  • iOS MachineLearning 系列(10)—— 自然语言分析之文本拆解
    iOSMachineLearning系列(10)——自然语言分析之文本拆解本系列的前几篇文章介绍了iOS中有关图像和视频处理的API,视觉处理主要有Vision框架负责,本篇起,将介绍在iOS中MachineLearning领域相关的自然语言处理框架:NaturalLanguage。1-简介NaturalLanguage是iOS种提供的一种处理自......
  • Teachable Reinforcement Learning via Advice Distillation
    发表时间:2021(NeurIPS2021)文章要点:这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-loopdecisionmaking。另外这个advice不单单是reward的大小,可能具有......
  • 论文阅读-sparse gpu kernels for deep learning
    论文地址:https://ieeexplore.ieee.org/document/9355309源码地址:https://github.com/google-research/sputnik背景深度神经网络由大量的矩阵乘法运算和卷积运算组成,这些运算中使用的矩阵可以转化成稀疏矩阵,同时不损失模型的精度。这样就可以在准确率不变的情况下提升浮点运算效......
  • Deep Dynamics Models for Learning Dexterous Manipulation
    发表时间:2019(CoRL2019)文章要点:文章提出了一个onlineplanningwithdeepdynamicsmodels(PDDM)的算法来学习Dexterousmulti-fingeredhands,大概意思就是学习拟人的灵活的手指操控技巧。大概思路就是结合uncertainty-awareneuralnetworkmodels和gradient-freetrajecto......
  • iOS MachineLearning 系列(4)—— 静态图像分析之物体识别与分类
    iOSMachineLearning系列(4)——静态图像分析之物体识别与分类本系列的前几篇文件,详细了介绍了Vision框架中关于静态图片区域识别的内容。本篇文章,我们将着重介绍静态图片中物体的识别与分类。物体识别和分类也是MachineLearning领域重要的应用。通过大量的图片数据进行训练后,模型......
  • 论文阅读笔记《Grounded Action Transformation for Robot Learning in Simulation》
    GroundedActionTransformationforRobotLearninginSimulation发表于AAAI2017仿真机器人学习中的接地动作变换HannaJ,StoneP.Groundedactiontransformationforrobotlearninginsimulation[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence......