首页 > 其他分享 >The importance of experience replay database composition in deep reinforcement learning

The importance of experience replay database composition in deep reinforcement learning

时间:2023-07-27 11:23:16浏览次数:38  
标签:最开 database importance 样本 experience reinforcement policy DDPG


发表时间:2015(Deep Reinforcement Learning Workshop, NIPS 2015)
文章要点:这篇文章基于DDPG探索了buffer里面experience的组成对性能的影响。一个重要的观点是,次优的经验也是有利于训练的,少了这些experience会很大程度影响性能(the importance of negative experiences that are not close to an optimal policy.
training with samples that are insufficiently spread over the state-action space can cause the method to fail.
when the neural network training data are not varied enough, the network is likely to over fit)。
作者分别直接训DDPG,用随机收集的样本训DDPG,以及用最好的policy收集的样本训DDPG,发现只用最好的policy收集的样本训练的效果是最差的

作者又做了另一个实验来说明多样性的问题,如下图

只保留两条最后的轨迹作为训练样本,或者保留一条最开始的和一条最后的。发现存了最开的trial的效果更好,也就是说还是要多样化的样本更好,这样能避免网络overfit。
总结:简单的实验,取了两个极端的变量来做测试,结论至少在简单的实验上是有道理的。扩展到更复杂的任务可能会有点问题,就像之前的paper说的,可能最开的样本已经偏离当前policy很多了,用这个更新可能用处不大。既要考虑多样性,也要考虑on policy才行。
最近感觉,coverage不够造成的主要的问题还是外推误差(extrapolation error),只要用in distribution的更新方式去学value,应该就不会有前面的问题了。
疑问:无。

标签:最开,database,importance,样本,experience,reinforcement,policy,DDPG
From: https://www.cnblogs.com/initial-h/p/17584452.html

相关文章

  • The Rising Importance of Automotive Diagnostic Tools in the Repair Industry
    TheRisingImportanceofAutomotiveDiagnosticToolsintheRepairIndustryIntheever-evolvingautomotiveworld,continuousadvancementsintechnologyhavebroughtmajorchangestothewayvehiclesarediagnosedandrepaired.Automotivediagnostictools......
  • ERROR: database "server" is being accessed by other users DETAIL: There is 1 o
    根据错误消息,删除数据库"server"失败,原因是有其他用户的会话正在使用该数据库。在PostgreSQL中,如果有其他会话正在访问或连接到数据库,那么将无法删除该数据库。为了成功删除数据库,需要确保没有其他会话正在使用该数据库。以下是可能的解决方法:断开所有连接:在尝试删除数据......
  • kettle连接数据库报错:Error connecting to database: (using class org.gjt.mm.mysql.
    kettle连接MySQL报错但已经把相应的包放到kettle的lib目录下时,仍然报连接不上的错误,那可能是MySQL时区的问题。解决如下:登入MySQL修改为东八区的命令:方法一:mysql>setglobalmax_allowed_packet=1024*1024;mysql>setglobaltime_zone='+8:00';方法二:修改my.ini文件,在[mysql......
  • 概述增强式学习(Reinforcement Learning)
    概述增强式学习(ReinforcementLearning)SupervisedLearning(自监督学习):告诉机器输入和输出,用有标注的训练资料训练出的NetworkReinforcementLearning(增强式学习):给机器一个输入,我们不知道最佳输出是什么(适用于标注困难或者人也不知道答案是什么)(机器需要知道什么是好,什么是......
  • Could not get list of tables from database. Probably a JDBC driver problem.
     在用myeclipse8.5M1反向生成代码时报错: Aninternalerroroccurredduring:"GeneratingArtifacts".Couldnotgetlistoftablesfromdatabase.ProbablyaJDBCdriverproblem.  =============================  尝试了更换工作空间、重装myeclipse、更换oracle驱动......
  • idea database连接hive很慢
    优化Hive数据库连接速度的步骤和代码示例概述在实际开发中,我们经常需要使用Hive作为数据库进行数据分析和处理。但有时候,我们可能会遇到连接Hive数据库很慢的情况,这会严重影响我们的开发效率和用户体验。为了解决这个问题,我们可以采取一些优化措施来提高Hive数据库连接的速度。......
  • 错误连接数据库 [mysql] : org.pentaho.di.core.exception.KettleDatabaseExcepti
    错误连接数据库[mysql]:org.pentaho.di.core.exception.KettleDatabaseException是一种常见的错误,通常在使用PentahoDataIntegration(PDI)工具连接到MySQL数据库时出现。本文将介绍这个错误的原因,以及如何解决它。在使用PDI工具连接到MySQL数据库时,经常会遇到数据库连接失败的......
  • QSqlDatabasePrivate::removeDatabase: connection ‘myConnection’ is still in use
    1.解决QSqlDatabasePrivate::removeDatabase:connection‘myConnection’isstillinuse,allquerieswillceasetowork的问题该问题主要是因为没有关闭之前的数据库连接,然后又需要创建新的数据库连接导致。解决方案:必须释放该连接的所有查询,即删除所有与该连接有关的quer......
  • .net 事务(_dbContext、Database)
     //开启事务vartran=_dbContext.Database.BeginTransaction();try{ _dbContext.SaveChanges();//提交事务tran.Commit();}catch(Exceptionex){......
  • Unified Conversational Recommendation Policy Learning via Graph-based Reinforcem
    图的作用:图结构捕捉不同类型节点(即用户、项目和属性)之间丰富的关联信息,使我们能够发现协作用户对属性和项目的偏好。因此,我们可以利用图结构将推荐和对话组件有机地整合在一起,其中对话会话可以被视为在图中维护的节点序列,以动态地利用对话历史来预测下一轮的行动。由四个主要组......