策略函数,输入为状态,输出动作a对应的概率。
利用神经网络去近似一个概率函数
softmax函数使概率加和等于1且都为正数。
Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。
状态价值函数V,只与当前状态s有关
将策略函数π替换为神经网络
用梯度上升使策略函数提升
策略梯度算法的推导
俩种策略函数的等价形式
分开求每个动作的f,然后加和。
利用蒙特卡洛来近似策略梯度。
策略梯度上升算法步骤
用观测法,玩完整局游戏,用观测到的ut代替价值函数Q。
用神经网络来近似价值函数Q
标签:状态,基于,策略,梯度,近似,神经网络,深度,强化,函数 From: https://www.cnblogs.com/huzixin666/p/17520684.html