- 经验回放:这是训练过程中经常用到的一个概念。
- 是强化学习中一个重要的技巧,可以大幅度提升强化学习的表现。具体操作:把智能体 与环境交互的记录(经验)储存在一个数组里,事后反复 利用这些经验训练智能体,这个数组也叫做经验回放数组(replay buffer)。
- 在算法中的应用
博客学习:https://blog.csdn.net/qq_41903673/article/details/123794671
sunmmary:
1.经验回放有一个专门的py文件;
2.对于 四元组数据(t时刻动作,状态,汇报和 t+1 时刻的状态),把它放在一个队列里面,队列的大小为n,即可存放n条四元组数据。该队列称为replay buffer。如果队列存满了,那么就从中删除最老的一条四元组,n的大小作为一组超参数,有很多实验表明,n的大小对实验结果有影响。n通常都设置的很大,但具体的大小要看具体的应用;
3.从队列中随机抽取一个四元组,然后逐步计算梯度,这里简化了,只抽取一条四元组,但是可以随机抽取多个四元组,然后算出的梯度求平均。
4.好处:打破四元组之间的相关性,又可以重复利用过去的经验。
5.(未学习,看王树森的RL经验回放课程)经验回放的改进:特点是用非均匀抽样代替均匀抽样
标签:经验,回放,队列,学习,四元组,抽取,强化,基本概念 From: https://www.cnblogs.com/bokeyuanjj/p/16836932.html