首页 > 编程语言 >关于RL 和DRL中的算法总结

关于RL 和DRL中的算法总结

时间:2023-06-11 16:35:43浏览次数:36  
标签:AC .. 网络 网格 目标值 算法 DRL RL DQN

其中: RL 分为基于价值的学习和基于策略的学习 和 AC 架构的

价值学习

DQN

DQN = Q_learing+网络
使用了价值网络 q(..w)

DQN 训练的过程

基础的DQN 就是 训练Q网络 更新w 参数
代码中梯度下降用的是下面这一张

这里有个问题 下面这张图片 中有不一样的地方 即 Gradient descent
下面的dt 是反向传播得到的

DQN的改进之经验回放


DQN的改进之神经网络

使用到了优势函数A* = Q(s,a) - V(s)

DQN 改进Bootstrapping Double DQN

出现 高估价值问题 V 为啥会产生?
解决方法:
可以采用两种网络 一种 targetnetwork 二种:double DQN (allevate 观测值)
这里 只更新target network


两种网络中的参数更新

比较两种网格中的TD Target yt

double DQN 的优势原因 莫凡中那个使用了两个网络
根据bootstraping 新目标值 = 原目标值 + (原目标值-新评估值)
如果新的评估值和目标值 是在同一个网络下取的。就可以能会出现高估问题
所以:可以通过评估值和目标值锁定在不同的网络中 ,已减缓这个问题

策略学习

使用了策略网络 Π(..theata) = V(..theata)
一个蒙地卡罗+神经网络
PG = 一个蒙地卡罗+神经网络
策略网络图

策略网络中可以用于连续和离散的动作

基于policy 学习的 BaseLine 这里unknown

收敛的更快

AC 架构

基本的AC

网格+SARAS
使用了actor 和critic 这两个网络 = 策略网络 Π(..theata)和 价值网络 q(..w)

  1. AC 的训练总流程

  2. Q网格的训练流程

  3. Π网格的训练流程

标签:AC,..,网络,网格,目标值,算法,DRL,RL,DQN
From: https://www.cnblogs.com/a111l/p/17472931.html

相关文章

  • 算法题总结-分组背包与依赖背包
    原题https://www.nowcoder.com/practice/f9c6f980eeec43ef85be20755ddbeaf4?tpId=37&tqId=21239&rp=1&ru=/exam/oj/ta&qru=/exam/oj/ta&sourceUrl=%2Fexam%2Foj%2Fta%3Fdifficulty%3D1%26page%3D1%26pageSize%3D50%26search%3D%26tpId%3D37%26type%3D37&am......
  • 算法学习day52动态规划part13-674、300、718
    packageLeetCode.DPpart13;/***674.最长连续递增序列*给定一个未经排序的整数数组,找到最长且连续递增的子序列,并返回该序列的长度。*连续递增的子序列可以由两个下标l和r(l<r)确定,*如果对于每个l<=i<r,都有nums[i]<nums[i+1],*那么子序列[nums[......
  • 算法学习day53动态规划part14-1143、53、1035
    packageLeetCode.DPpart14;/***1143.最长公共子序列*给定两个字符串text1和text2,返回这两个字符串的最长公共子序列的长度。*如果不存在公共子序列,返回0。*一个字符串的子序列是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些......
  • 或许是一个新的算法方向?
    动动发财的小手,点个赞吧!今日谷歌DeepMind使用深度强化学习发现更快的排序算法,相关论文成果已经发表在Nature上。据报道:该算法可以提速70%,相比之下,快了3倍之多。摘要排序或散列等基本算法在任何给定的一天都会被使用数万亿次。随着计算需求的增长,让这些算法尽可能高效变得至......
  • 算法——最短路径算法(dijkstra)
    source源端,target目的端1.构造n*n的相邻矩阵,-1表示未相邻intmatrix[n][n]intdist[n]初始化各节点直接到source的距离,dist[source]=0;boolvisited[n]是否访问过dist[source]=0;for(inti=0;i<n-1;i++){//找剩余n-1个节点的距离in......
  • 【三维装箱】基于自适应遗传算法的三维集装箱装载问题研究附matlab代码
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • 一致性哈希算法——算法解决的核心问题是当slot数发生变化时,能够尽量少的移动数据
    一致性哈希算法摘自:http://blog.codinglabs.org/articles/consistent-hashing.html算法简述一致性哈希算法(ConsistentHashing)最早在论文《ConsistentHashingandRandomTrees:DistributedCachingProtocolsforRelievingHotSpotsontheWorldWideWeb》中被提出。简单来......
  • APS规则引擎算法
    要实现APS规则引擎算法,你可以使用C#中的规则引擎库,例如NRules或Drools.NET。以下是一个使用NRules库实现APS规则引擎算法的简单示例:首先,安装NRules库。你可以使用NuGet包管理器控制台运行以下命令来安装NRules:Install-PackageNRules创建规则类和模型类:publicclass......
  • APS排产算法
    APS(AdvancedPlanningandScheduling,高级计划和调度)是一种用于制造业的排产算法,旨在优化生产计划和资源分配,以提高生产效率和交货准时率。APS算法基于现有订单、生产能力、物料需求和约束条件等信息,进行动态规划和优化,以生成最优的生产计划。APS算法通常包括以下几个关键步骤:......
  • HelloWorld
    HelloWorld随便新建一个文件夹,存放代码新建一个Java文件文件后缀为.javaHello.java[注意点]系统可能没有显示文件后缀名,我们需要手动打开编写代码编译javacJava文件,会生成一个class文件运行class文件,javaclass文件可能会遇到的情况每个单词的大小写不能......