不等式视角下的策略梯度算法

引言

强化学习（Reinforcement Learning，RL），也叫增强学习，是指一类从（与环境）交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标（比如取得最大奖励值）。和深度学习类似，强化学习中的关键问题也是贡献度分配问题[1]，每一个动作并不能直接得到监督信息，需要通过整个模型的最终监督信息（奖励）得到，并且有一定的延时性。
本文首先通过简介强化学习基于策略函数的学习方法引出策略梯度，接着通过一般化的公式推论得到策略梯度的最优表达式，最后在排序不等式的视角下解读策略梯度的最优表达式。主要概括为以下两个部分：
（1）策略梯度的最优表达式推导
（2）排序不等式下的策略梯度

1、策略梯度

1.1、策略的简单分类

智能体的策略（Policy）就是智能体如何根据环境状态

标签：tau,视角,partial,策略,不等式,梯度,frac,theta,ldots
From： https://www.cnblogs.com/erwin/p/16617378.html

从C过渡到C++——换一个视角深入数组[真的存在高效吗？]（2）
从C过渡到C++——换一个视角深入数组[真的存在高效吗？]（2）C风格高效的数组遍历在过渡到C++之前我还是想谈一谈如何书写高效的C的代码，这里的高效指的是C代码的高效，也就是在不......
零点问题与微分不等式
零点问题与微分不等式零点问题关注于”有没有解“，”有几个解“。目录零点问题单调性与存在性罗尔原话多项式方程的根微分不等式函数的形态拉格朗日中值定理或泰勒展开常......
访谈日本光伏市场今后的动向？TAOKE高层视角看全球商业动向
远程监控系统SmartOM剑指更高的挑战问：能否请您透露下SmartPV在中国市场和海外市场的销量？答：到2021年1月为止，在中国国内使用我司SmartOM来进行监控的电站达到5000所，监控的......
最速下降法、牛顿法、共轭梯度法原理及对比
三者都是基于导数的迭代优化方法，用于求解无约束优化问题。代码：https://github.com/321hjd/ImageBed/tree/main/code/NumericalOptimization/derivative-basedOptimizatio......
从C过渡到C++——换一个视角深入数组[初始化]（1）
从C过渡到C++——换一个视角深入数组[初始化]（1）目录从C过渡到C++——换一个视角深入数组[初始化]（1）数组的初始化从C入手作用域代码块作用域文件作用域原型作用域函数作用域......
CSO视角：Sigstore如何保障软件供应链安全？
本文作者ChrisHughes，Aquia的联合创始人及CISO，拥有近20年的网络安全经验。SolarWinds和Log4j等影响广泛的软件供应链攻击事件引起了业界对软件供应链安全的关注。许......

不等式视角下的策略梯度算法

不等式视角下的策略梯度算法

引言

1、策略梯度

1.1、策略的简单分类

相关文章

赞助商

阅读排行