首页 > 其他分享 >Deep Q Network

Deep Q Network

时间:2022-10-13 20:33:35浏览次数:78  
标签:target Deep state replay memory action Network


DQN论文简介

两篇内容大致相同,可直接看第二篇,更详细

DQN 神经网络部分模型结构

整体结构

伪代码

代码解释

  1. 初始化 replay memory D 和它的大小 N
  2. 初始化 Q 函数和Policy Network神经网络参数(权重等)
  3. 初始化target network神经网络参数
  4. for episode 一个回合 1-->M
    预处理数据 得到input S (state
  5. for t (每一步step) 1-->T
    epsilon-greedy 选择action
    执行action 获得reward和 image
    S(t+1)=St,at,X(t+1)
    预处理image获得next state
    将(state,action,reward,next state)存到replay memory
    从replay memory均匀随机抽取一批数据minibatch作为input
    计算loss即target network和policy netword的Q value
    用梯度下降 降低loss
    每走 c 步,将policy的参数赋值给target
    end for
  6. end for

参考文献
https://www.bilibili.com/video/BV1Rq4y1b7ML/?spm_id_from=333.788&vd_source=0f3a9415c74e72ceb8d082a6f619e420

标签:target,Deep,state,replay,memory,action,Network
From: https://www.cnblogs.com/mario24678/p/16789551.html

相关文章