强化学习的一些基本概念

时间：2022-10-28 18:01:40浏览次数：67

经验回放：这是训练过程中经常用到的一个概念。
- 　　　　是强化学习中一个重要的技巧，可以大幅度提升强化学习的表现。具体操作：把智能体与环境交互的记录（经验）储存在一个数组里，事后反复利用这些经验训练智能体，这个数组也叫做经验回放数组（replay buffer)。　
- 在算法中的应用

　　　　　　　博客学习：https://blog.csdn.net/qq_41903673/article/details/123794671

sunmmary:

1.经验回放有一个专门的py文件；

2.对于四元组数据（t时刻动作，状态，汇报和 t+1 时刻的状态），把它放在一个队列里面，队列的大小为n，即可存放n条四元组数据。该队列称为replay buffer。如果队列存满了，那么就从中删除最老的一条四元组，n的大小作为一组超参数，有很多实验表明，n的大小对实验结果有影响。n通常都设置的很大，但具体的大小要看具体的应用；

3.从队列中随机抽取一个四元组，然后逐步计算梯度，这里简化了，只抽取一条四元组，但是可以随机抽取多个四元组，然后算出的梯度求平均。

4.好处：打破四元组之间的相关性，又可以重复利用过去的经验。

5.（未学习，看王树森的RL经验回放课程）经验回放的改进：特点是用非均匀抽样代替均匀抽样

标签：经验,回放,队列,学习,四元组,抽取,强化,基本概念
From： https://www.cnblogs.com/bokeyuanjj/p/16836932.html

【算法学习笔记】斯坦纳树
【算法学习笔记】斯坦纳树因为离散的论文打算写这个，所以开始学。今天先写了模板题，存一下代码，等写论文的时候再来补充原理模板#include<bits/stdc++.h>usingnamespa......
Netty学习记录-入门篇
你如果，缓缓把手举起来，举到顶，再突然张开五指，那恭喜你，你刚刚给自己放了个烟花。模块介绍netty-bio:阻塞型网络通信demo。netty-nio:引入channel(通道)、buffer(缓......
第九周学习笔记
第六章信号和信号处理一、主要内容1.信号和中断信号：发给进程的请求，将进程从正常执行转移到中断处理。中断：是从I/O设备或协处理器发送到CPU的外部请求，它将CPU从正常......
学习：语言学习之背单词
语言学习之背单词单词（词语），是语言的重要组成部分。背单词，理解单词，就是在“单词”和“真实世界的对象”之间建立等价关系或者近似等价的关系。 ......
【笔记04】Javascript - 基本概念 - （函数）
【笔记04】Javascript-基本概念-（函数）Javascript 是底层基础，决定上层建筑，这个学不好，后面就学不明白了。函数的诞生先看一段代码：if(1>0){document.write("a");......
numpy和 pandas学习
这是我自己的学习笔记，就不要看了。##技术篇###numpy基础-numpy生成随机数据np.random.normal(0,10,1024)标准正态分布平均数0，标准差10，1024个数据,正态分布也......
2022-2023-1 20221307 《计算机基础和程序设计》第九周学习总结
作业信息这个作业属于那个班级 https://edu.cnblogs.com/campus/besti/2022-2023-1-CFAP作业要求 https://www.cnblogs.com/rocedu/p/9577842.html#WEEK09作业目标学习......
ESLint学习
1.脚手架和插件区别ESLint有两个工具，一个是模块包，一个是VScode的扩展工具脚手架里面的ESLint主要是在编译的时候提示，vscode的插件主要是在编写的时候提示2.为什么用ESLi......
MySQL学习
MySQL学习1.数据库的分类1.1关系型数据库：MySQL、Oracle等通过表与表、行与列的关系进行存储数据。1.2非关系型数据库：Radis等通过存储对象来存储数据，数据由对......
SpriteKit 学习链接
SpriteKit学习链接：射击游戏，GitHub地址小猫躲雨，GitHub地址"割绳子“游戏，下载地址......

强化学习的一些基本概念

相关文章

赞助商

阅读排行