首页 > 其他分享 >神经网络求解RL

神经网络求解RL

时间:2022-09-04 20:26:39浏览次数:61  
标签:target 求解 self 网络 神经网络 RL model

神经网络解决连续状态空间(或者状态很多的情况)

经验回放 使得神经网络更拟合 打乱状态之间的关联

固定q 多加一个q预测值的神经网络 一段时间才会改变 以此固定q 让强化学习收敛更平稳

注意的是:因为多了固定q的方法,所以实际上有两个网络,一个model,另外一个target_model网络

model网络算出Q的预测值,target_model网络提供Q的目标值。

并且在运行多轮后才会更新target_model网络(demo里是200轮)。以此延迟更新target_model网络,然后固定住Q目标

if self.global_step % self.update_target_steps == 0: # self.update_target_steps初试为200

self.alg.sync_target()

状态太多了,一个Q表格装不下

   

   

   

   

那怎么办呢?

用值函数近似

   

   

   

   

   

   

神经网络的code

   

   

   

DQN:使用神经网络求解RL问题的经典算法

   

   

   

   

   

   

和监督学习类似

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

标签:target,求解,self,网络,神经网络,RL,model
From: https://www.cnblogs.com/libxing/p/16655924.html

相关文章

  • HelloWorld小程序
    第一步在文件夹里鼠标右键新建文本文档更改文件的后缀为java注意事项:如果你的后缀没有出现,可以进行如下操作第二步编写代码记得写完Ctrl+s保存一下第三步编......
  • Hello World · GitHub 指南
    HelloWorld·GitHub指南简介HelloWorld项目是计算机编程历史中悠久的传统。在我们学习新知识的时候,她也是一个简单的练习。现在,就让我们一起了解GitHub吧!你将学......
  • overlay与underlay通信总结
    一、overlay简介1、VxLAN:VxLAN全称是VirtualeXtensibleLocalAreaNetwork(虚拟扩展本地局域网),主要有Cisco推出,vxlan是一个VLAN的扩展协议,是由IETF定义的NVO3(Netw......
  • Warning message "Partial Early Aggregation/Distinct running with reduced memory"
    Warningmessage"PartialEarlyAggregation/Distinctrunningwithreducedmemory"https://www.ibm.com/support/pages/warning-message-partial-early-a......
  • C++迷宫问题求解(用队列实现)
    C++迷宫问题求解(用队列实现)19、迷宫问题求解(用队列实现)【任务】以一个m*n的长方阵表示迷宫。0和1分别表示迷宫中的通路和障碍。解迷宫通常用的是“穷举求解”方法,即从入......
  • HelloWorld
    HelloWorld新建一个文件夹,存放代码新建一个Java文件文件后缀名为.javaHelloWorld.java编写代码publicclassHelloWorld{ publicstaticvoidmain(String[]......
  • 神经网络的学习与泛化能力
    一、学习能力,指在训练集上精度。二、泛化能力,指在测试集上精度。对于一个大型神经网络在一个大数据集上跑,LOSS持续不降,第一步先减小数据量,比方说只在单张图片上跑,观察每......
  • 神经网络
    普通的神经网络普通神经网络有三个部分,输入层x,隐藏层h,输出层oCNN循环神经网络(RNN)RNN的每一个时序是一个前馈神经网络,但是为了在每一个时刻都包含前边时序的信息,所以RN......
  • python不用库求解根号N
    问题描述我们需要在不使用库的情况下求解\(\sqrt{n}\)。方法一:二分法令\(y=\sqrt{x}\),问题转换为求得y,使得\(y^{2}-x=0,(x>=0)\)。我们令\(f(y)=y^{2}-x\)。注意到:\[......
  • 2022-09-01 网站强制ctrl+f5刷新报错,只按f5刷新不报错,报错内容为443,但真实报错代码为4
    报错内容:NotFoundTherequestedURL/mallwasnotfoundonthisserver.ApacheServeratxxx.yyy.comPort443描述:如题。解决方案:在网站根目录添加一个文件.htacce......