首页 > 其他分享 >Improved deep reinforcement learning for robotics through distribution-based experience retention

Improved deep reinforcement learning for robotics through distribution-based experience retention

时间:2023-07-29 09:13:40浏览次数:45  
标签:Improved buffer robotics 均匀分布 experience reinforcement policy based distribution


发表时间:2016(IROS 2016)
文章要点:这篇文章提出了experience replay方法的改进,让experience的分布介于当前policy和均匀分布之间,作者做实验发现这个时候的效果是最好的(the ideal distribution is likely to be somewhere between the distribution that results from simply following the most recent policy with some exploration and a uniform distribution over the state-action space.)。
具体的,作者保留了两个buffer,一个是标准的replay buffer \(D_\pi\)。另一个buffer \(D_U\)用同样的样本通过overwritten的方式来近似状态动作空间的均匀分布,相当于避免了在环境中探索就得到了一个均匀分布。然后训练的时候从两个buffer里一起采样。因为训练过程中,探索下降的很快(during the training the amount of exploration is reduced too far, the performance of the controller policy will decrease.),这样既可以保证样本多样性,避免overfitting(RL with deep neural network function approximators can fail when the experiences that are used to train the neural networks are not diverse enough. most minibatch optimization algorithms are based on the assumption of independent and identically distributed data),而且可以减少高的探索带来的危害(Maintaining high levels of exploration might place infeasible demands on physical systems such as robots.)。
而这个用来近似均匀分布的buffer \(D_U\),通过overwritten来实现,具体就是等buffer满了之后,新来的experience会覆盖掉当前buffer里和其他experience最相似的样本。作者通过计算平均相似度得到

然后采样的时候从\(D_U\)里采\(\alpha\)的比例,从\(D_\pi\)里采\(1-\alpha\)的比例,作者直接取的0.5。作者说,这其实也是generalization和task performance的一种trade-off。作者在一个物理问题上做的实验,效果还可以

最后画了一下状态的分布情况

总结:可能有一定的道理,不过文章的符号有点混乱,有的图也没有解释清楚。
疑问:里面比较了TDE算法,但是没介绍。

标签:Improved,buffer,robotics,均匀分布,experience,reinforcement,policy,based,distribution
From: https://www.cnblogs.com/initial-h/p/17589272.html

相关文章

  • The importance of experience replay database composition in deep reinforcement l
    发表时间:2015(DeepReinforcementLearningWorkshop,NIPS2015)文章要点:这篇文章基于DDPG探索了buffer里面experience的组成对性能的影响。一个重要的观点是,次优的经验也是有利于训练的,少了这些experience会很大程度影响性能(theimportanceofnegativeexperiencesthatareno......
  • 概述增强式学习(Reinforcement Learning)
    概述增强式学习(ReinforcementLearning)SupervisedLearning(自监督学习):告诉机器输入和输出,用有标注的训练资料训练出的NetworkReinforcementLearning(增强式学习):给机器一个输入,我们不知道最佳输出是什么(适用于标注困难或者人也不知道答案是什么)(机器需要知道什么是好,什么是......
  • Unified Conversational Recommendation Policy Learning via Graph-based Reinforcem
    图的作用:图结构捕捉不同类型节点(即用户、项目和属性)之间丰富的关联信息,使我们能够发现协作用户对属性和项目的偏好。因此,我们可以利用图结构将推荐和对话组件有机地整合在一起,其中对话会话可以被视为在图中维护的节点序列,以动态地利用对话历史来预测下一轮的行动。由四个主要组......
  • 粗读Multi-Task Recommendations with Reinforcement Learning
    论文:Multi-TaskRecommendationswithReinforcementLearning地址:https://arxiv.org/abs/2302.03328摘要Inrecentyears,Multi-taskLearning(MTL)hasyieldedimmensesuccessinRecommenderSystem(RS)applications[41].However,currentMTL-basedrecommendati......
  • Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
    发表时间:2021(NeurIPS2021)文章要点:理论表明,更高的hindsightTDerror,更加onpolicy,以及更准的targetQvalue的样本应该有更高的采样权重(ThetheorysuggeststhatdatawithhigherhindsightTDerror,betteron-policinessandmoreaccuratetargetQvalueshouldbea......
  • Effective Diversity in Population-Based Reinforcement Learning
    发表时间:2020(NeurIPS2020)文章要点:这篇文章提出了DiversityviaDeterminants(DvD)算法来提升种群里的多样性。之前的方法通常都考虑的两两之间的距离,然后设计一些指标或者加权来增加种群多样性,这种方式容易出现cycling,也就是类似石头剪刀布的循环克制的关系,造成训练不上去,......
  • Spectrum Random Masking for Generalization in Image-based Reinforcement Learning
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ......
  • Faster sorting algorithms discovered using deep reinforcement learning
    摘要:AlphaDev模型优化排序算法,将排序算法提速70%。通过强化学习,AlphaDev发现了更加有效的算法,直接超越了科学家和工程师们几十年来的精心打磨。现在,新的算法已经成为两个标准C++编码库的一部分,每天都会被全球的程序员使用数万亿次。介绍优化目标为排序算法的CPU延迟时间......
  • Reinforcement learning
    如图1所示,强化学习中,state是环境的状态,就是observation。 图1强化学习 一、Policybasedapproach---learninganactorThepolicybasedapproachistolearnanactor(agentorpolicy).图2exampleof policybasedapproach       所谓on-p......
  • Reward Modelling(RM)and Reinforcement Learning from Human Feedback(RLHF)for Large la
    一、RLHF技术的背景OpenAI推出的ChatGPT对话模型掀起了新的AI热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型(LargeLanguageModel,LLM)生成领域的新训练范式:RLHF(ReinforcementLearningfromHumanFeedback),即以强化......