Heuristic-Guided Reinforcement Learning

时间：2023-05-06 23:33:07浏览次数：37

标签：Heuristic Learning heuristic Guided Reinforcement horizon reward

发表时间：2021 (NeurIPS 2021)
文章要点：这篇文章提出了一个Heuristic-Guided Reinforcement Learning (HuRL)的框架，用domain knowledge或者offline data构建heuristic，将问题变成一个shorter-horizon的子问题，从而更容易解决。
具体的，就是将原始的MDP变换成一个新的reward和gamma的MDP，其中reward由原始reward和heuristic组成，然后gamma就可以变小了

所以就相当于缩短了horizon。这个方式相当于在reward和heuristic之间做trade off，HuRL effectively introduces horizon-based regularization that determines whether long-term value information should come from collected experiences or the heuristic.
然后作者举了个例子，就想说，如果heuristic很好，可以产生很好的policy，如果heuristic不够好，那么对训练是有害的，

接下来就是几个证明，没看明白。
总结：感觉什么都没说错，但是也什么都没说。可能就是提出了horizon-based regularization for RL这么一个观念吧。
疑问：有的时候真的不能理解，到底什么样的文章能中。

标签：Heuristic,Learning,heuristic,Guided,Reinforcement,horizon,reward
From： https://www.cnblogs.com/initial-h/p/17378718.html

Medicine River ————-Learning journals 9
Deardairy. 20206MayHey,Harlan,longtimenosee.Howhaveyoubeenlately?I'vebeenquitebusylately.Ihopeyoudon'tblamemefornotcomingtoseeyo......
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Ob
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！NeurIPS2020 ......
Learning A Single Network for Scale-Arbitrary Super-Resolution
LearningASingleNetworkforScale-ArbitrarySuper-Resolutionabstract现有的singleimageSR网络是为具有特定整数比例因子（例如，×2/3/4）的图像开发的，无法处理非整数和非对称SR。在本文中，作者建议从特定比例的网络中学习任意比例的图像SR网络。introduction由于上采样......
从代码上解析Meta-learning
文章目录1.背景2.Meta-learning理解2.1Meta-learning到底做什么2.2MAML算法2.3MAML算法步骤2.4MAML代码分析和实现3.参考文章1.背景meta-learning区别于pretraining，它主要通过多个task来学习不同任务之间的内在联系，通俗点说，也即是通过多个任务来学习共同的参数。举个例子，人类在......
iOS MachineLearning 系列（10）—— 自然语言分析之文本拆解
iOSMachineLearning系列（10）——自然语言分析之文本拆解本系列的前几篇文章介绍了iOS中有关图像和视频处理的API，视觉处理主要有Vision框架负责，本篇起，将介绍在iOS中MachineLearning领域相关的自然语言处理框架：NaturalLanguage。1-简介NaturalLanguage是iOS种提供的一种处理自......
Teachable Reinforcement Learning via Advice Distillation
发表时间：2021(NeurIPS2021)文章要点：这篇文章提出了一种学习policy的监督范式，大概思路就是先结构化advice，然后先学习解释advice，再从advice中学policy。这个advice来自于外部的teacher，相当于一种human-in-the-loopdecisionmaking。另外这个advice不单单是reward的大小，可能具有......
论文阅读-sparse gpu kernels for deep learning
论文地址：https://ieeexplore.ieee.org/document/9355309源码地址：https://github.com/google-research/sputnik背景深度神经网络由大量的矩阵乘法运算和卷积运算组成，这些运算中使用的矩阵可以转化成稀疏矩阵，同时不损失模型的精度。这样就可以在准确率不变的情况下提升浮点运算效......
Deep Dynamics Models for Learning Dexterous Manipulation
发表时间：2019(CoRL2019)文章要点：文章提出了一个onlineplanningwithdeepdynamicsmodels(PDDM)的算法来学习Dexterousmulti-fingeredhands，大概意思就是学习拟人的灵活的手指操控技巧。大概思路就是结合uncertainty-awareneuralnetworkmodels和gradient-freetrajecto......
iOS MachineLearning 系列（4）—— 静态图像分析之物体识别与分类
iOSMachineLearning系列（4）——静态图像分析之物体识别与分类本系列的前几篇文件，详细了介绍了Vision框架中关于静态图片区域识别的内容。本篇文章，我们将着重介绍静态图片中物体的识别与分类。物体识别和分类也是MachineLearning领域重要的应用。通过大量的图片数据进行训练后，模型......
论文阅读笔记《Grounded Action Transformation for Robot Learning in Simulation》
GroundedActionTransformationforRobotLearninginSimulation发表于AAAI2017仿真机器人学习中的接地动作变换HannaJ,StoneP.Groundedactiontransformationforrobotlearninginsimulation[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence......

Heuristic-Guided Reinforcement Learning

相关文章

赞助商

阅读排行