由于动作和状态是随机的,又ut依赖于状态和动作,故ut也是随机的
最佳动作价值函数能给我们作出动作给予指导
我们利用神经网络来近似最佳动作价值函数
利用DQN进行动作价值函数的计算,例如我们可以将图片通过卷积层转换为特征向量,
再利用全连接层转换为对应的输出向量即为各个动作的打分。通过打分即可选择动作。
此图为用DQN玩游戏的流程。
用梯度下降法调整参数w降低误差,梯度下降法原理如下
若只在dc就停车了,怎么利用nyc到dc的旅程改进模型
我们可以利用时间差分学习TD Learning,利用现在预估的时间以及原来预估的时间做梯度下降,更新参数。
TD Learning 的原理就是尽量使TD error小。
我们可以利用TD Learning 应用于速度强化学习中。
DQN利用神经网络近似最佳动作价值函数,输入为状态,输出为对动作的打分。
TD算法的一个迭代过程:
首先利用初始状态和动作预测动作价值函数,计算出动作价值函数对w的导数
然后执行动作,环境会给出新的状态和奖励。据此利用TD计算出新的动作价值函数
最后利用梯度下降法调整参数优化模型
标签:基于,函数,动作,梯度,利用,深度,TD,价值,强化 From: https://www.cnblogs.com/huzixin666/p/17417107.html