首页 > 其他分享 >强化学习的一些基本概念

强化学习的一些基本概念

时间:2022-10-28 18:01:40浏览次数:67  
标签:经验 回放 队列 学习 四元组 抽取 强化 基本概念

  • 经验回放:这是训练过程中经常用到的一个概念。
    •     是强化学习中一个重要的技巧,可以大幅度提升强化学习的表现。具体操作:把智能体 与环境交互的记录(经验)储存在一个数组里,事后反复 利用这些经验训练智能体,这个数组也叫做经验回放数组(replay buffer)。 
    • 在算法中的应用

       博客学习:https://blog.csdn.net/qq_41903673/article/details/123794671

sunmmary:

1.经验回放有一个专门的py文件;

2.对于 四元组数据(t时刻动作,状态,汇报和 t+1 时刻的状态),把它放在一个队列里面,队列的大小为n,即可存放n条四元组数据。该队列称为replay buffer。如果队列存满了,那么就从中删除最老的一条四元组,n的大小作为一组超参数,有很多实验表明,n的大小对实验结果有影响。n通常都设置的很大,但具体的大小要看具体的应用;

3.从队列中随机抽取一个四元组,然后逐步计算梯度,这里简化了,只抽取一条四元组,但是可以随机抽取多个四元组,然后算出的梯度求平均。

4.好处:打破四元组之间的相关性,又可以重复利用过去的经验。

5.(未学习,看王树森的RL经验回放课程)经验回放的改进:特点是用非均匀抽样代替均匀抽样

标签:经验,回放,队列,学习,四元组,抽取,强化,基本概念
From: https://www.cnblogs.com/bokeyuanjj/p/16836932.html

相关文章

  • 【算法学习笔记】斯坦纳树
    【算法学习笔记】斯坦纳树因为离散的论文打算写这个,所以开始学。今天先写了模板题,存一下代码,等写论文的时候再来补充原理模板#include<bits/stdc++.h>usingnamespa......
  • Netty学习记录-入门篇
    你如果,缓缓把手举起来,举到顶,再突然张开五指,那恭喜你,你刚刚给自己放了个烟花。模块介绍netty-bio:阻塞型网络通信demo。netty-nio:引入channel(通道)、buffer(缓......
  • 第九周学习笔记
    第六章  信号和信号处理一、主要内容1.信号和中断信号:发给进程的请求,将进程从正常执行转移到中断处理。中断:是从I/O设备或协处理器发送到CPU的外部请求,它将CPU从正常......
  • 学习:语言学习之背单词
    语言学习之背单词    单词(词语),是语言的重要组成部分。背单词,理解单词,就是在“单词”和“真实世界的对象”之间建立等价关系或者近似等价的关系。  ......
  • 【笔记04】Javascript - 基本概念 - (函数)
    【笔记04】Javascript-基本概念-(函数)Javascript 是底层基础,决定上层建筑,这个学不好,后面就学不明白了。函数的诞生先看一段代码:if(1>0){document.write("a");......
  • numpy和 pandas学习
    这是我自己的学习笔记,就不要看了。##技术篇###numpy基础-numpy生成随机数据np.random.normal(0,10,1024)标准正态分布平均数0,标准差10,1024个数据,正态分布也......
  • 2022-2023-1 20221307 《计算机基础和程序设计》第九周学习总结
    作业信息这个作业属于那个班级 https://edu.cnblogs.com/campus/besti/2022-2023-1-CFAP作业要求 https://www.cnblogs.com/rocedu/p/9577842.html#WEEK09作业目标学习......
  • ESLint学习
    1.脚手架和插件区别ESLint有两个工具,一个是模块包,一个是VScode的扩展工具脚手架里面的ESLint主要是在编译的时候提示,vscode的插件主要是在编写的时候提示2.为什么用ESLi......
  • MySQL学习
    MySQL学习1.数据库的分类1.1关系型数据库:MySQL、Oracle等通过表与表、行与列的关系进行存储数据。1.2非关系型数据库:Radis等通过存储对象来存储数据,数据由对......
  • SpriteKit 学习链接
    SpriteKit学习链接:射击游戏,GitHub地址小猫躲雨,GitHub地址"割绳子“游戏,下载地址......