不等式视角下的策略梯度算法
作者:Xingzhe.AI
来自: 行者AI
引言
强化学习(Reinforcement Learning,RL),也叫增强学习,是指一类从(与环境)交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。 和深度学习类似,强化学习中的关键问题也是贡献度分配问题[1],每一个动作并不能直接得到监督信息,需要通过整个模型的最终监督信息(奖励)得到,并且有一定的延时性。
本文首先通过简介强化学习基于策略函数的学习方法引出策略梯度,接着通过一般化的公式推论得到策略梯度的最优表达式,最后在排序不等式的视角下解读策略梯度的最优表达式。主要概括为以下两个部分:
(1)策略梯度的最优表达式推导
(2)排序不等式下的策略梯度
1、策略梯度
1.1、策略的简单分类
智能体的策略(Policy)就是智能体如何根据环境状态
标签:tau,视角,partial,策略,不等式,梯度,frac,theta,ldots From: https://www.cnblogs.com/erwin/p/16617378.html