DQN论文简介
两篇内容大致相同,可直接看第二篇,更详细
DQN 神经网络部分模型结构
整体结构
伪代码
代码解释
- 初始化 replay memory D 和它的大小 N
- 初始化 Q 函数和Policy Network神经网络参数(权重等)
- 初始化target network神经网络参数
- for episode 一个回合 1-->M
预处理数据 得到input S (state - for t (每一步step) 1-->T
epsilon-greedy 选择action
执行action 获得reward和 image
S(t+1)=St,at,X(t+1)
预处理image获得next state
将(state,action,reward,next state)存到replay memory
从replay memory均匀随机抽取一批数据minibatch作为input
计算loss即target network和policy netword的Q value
用梯度下降 降低loss
每走 c 步,将policy的参数赋值给target
end for - end for