1. 决策智能
目的就是搜索最优解,方法主要有两种:从模仿中学习、从试错中学习
从模仿中学习
通过棋谱来学棋
优势:简洁直观
劣势:数据要求高,可迁移性差
从试错中学习
通过对弈来学习
优势:可以不断提升和强化
劣势:过程复杂,效率和稳定性有待提高
深度强化学习——更强大、更通用、更稳定的搜索最优解的方法
2. 强化学习的特点
类比传统搜索方法
强化学习可以建模环境的未知性和不确定性,自主学到更抽象的搜索策略
类比监督学习
强化学习不是从固定的标签中学习,需要从延迟性的间接的奖励中学习
类比离线学习
强化学习需要平衡探索和利用,需要从非独立同分布的数据中学习
3. PPO算法解析
PPO算法全称Proximal Policy Optimization,即近端策略优化算法,该算法是OpenAI在2017提出的一种强化学习算法,被认为是目前强化学习领域的SOTA方法,也是适用性最广的算法之一。
PPO算法的核心思想是减小策略更新引起的方差,从而提高学习效果。具体来说,PPO算法通过引入一个近似目标函数和一个重要性采样来减小方差。近似目标函数通过将旧的策略和目标策略的差值限制在一个范围内,减小了方差。重要性采样通过计算旧策略和目标策略之间的比率,减小了方差。
下文将从传统的策略梯度算法开始,逐渐介绍PPO算法的来龙去脉。
\[P_\theta(\tau)=\rho\left(s_0\right) P_\theta\left(a_0 \mid s_0\right) P\left(s_1 \mid s_0, a_0\right) P_\theta\left(a_1 \mid s_1\right) P\left(s_2 \mid s_1, a_1\right) \cdots \] 标签:right,PPOxFamily,PPO,学习,算法,强化,left From: https://www.cnblogs.com/yutian-blogs/p/17985176