PPO算法
算法是一类典型的 算法,既适用于连续动作空间,也适用于离散动作空间。
算法是一种基于策略梯度的强化学习算法,由 的研究人员 等人在 年提出。 算法的主要思想是通过在策略梯度的优化过程中引入一个重要性权重来限制策略更新的幅度,从而提高算法的稳定性和收敛性。 算法的优点在于简单、易于实现、易于调参,应用十分广泛,正可谓 “遇事不决 ”。
算法的核心思想就是通过重要性采样来优化原来的策略梯度估计,其目标函数表示如式 所示。
这个损失就是置信区间的部分,一般称作 损失。这里旧策略分布 就是重要性权重部分的目标分布 ,目标分布是很难采样的,所以在计算重要性权重的时候这部分通常用上一次与环境交互采样中的概率分布来近似。相应地, 则是提议分布,即通过当前网络输出的 probs
形成的类别分布 分布(离散动作)或者 分布(连续动作)。
这个公式等价于式 。
换句话说,本质上 算法就是在 算法的基础上增加了重要性采样的约束而已,从而确保每次的策略梯度估计都不会过分偏离当前的策略,也就是减少了策略梯度估计的方差,从而提高算法的稳定性和收敛性。
算法每次会采样若干个时步的样本,然后利用这些样本更新策略,而不是存入经验回放中进行采样更新。