Value Function Approximation主要是使用神经网络来求最优解问题,主要包括Algorithm for state value function、Sarsa和value function approximation的结合、Q-learning和value function approximation的结合、Deep Q-learning。
由于tables的数据不能处理很大的state space或者state space 连续的情况,因此引出函数曲线拟合来泛化state space,使其不用全部访问,访问一些状态即可进行全部改变。
①Algorithm for state value function状态值估计法分为三步:选取目标函数、算法最优化、的选取
(1)Objiective function选取目标函数
使估计值目标函数接近真实,需要寻找最优的w来定义目标函数以及优化目标函数,使最小
可以选择概率分布来求解上式子,如:
①选择uniform distribution 均匀分布:
②选择stationary distribution:
是s的概率且
(2)Optimization algotithm算法最优化
①求解minJ(w)使用gredient-descent算法求解:
②使用stochastic gradient计算:
由于计算不出来,因此使用Monte Carlo方法,使用代替:
③的选取
[1]linear function
,是s的线性函数,
[2]nonliner function
使用神经网络进行选取。
②Sarsa和value function approximation的结合
给定一个策略,从,看,其实就是将Algorithm for state value function的state value换为action value
(1)Value Update
(2)Policy update(使用)
,其他
③Q-learning和value function approximation的结合
给定一个策略,产生,看,其实就是将Sarsa的贝尔曼公式部分换为贝尔曼最优公式
(1)Value Update
(2)Policy update(使用)
,其他
④Deep Q-learning(DNQ)
使用深度神经网络+强化学习:
令
使用 main network:,target network:
令不动,计算w梯度,再使用求得的w更新:
标签:Function,function,函数,Value,value,Approximation,state,Today9,使用 From: https://blog.csdn.net/m0_52094641/article/details/140248220