Deep Deterministic Policy Gradient (DDPG) 是“Deterministic”(确定性)的,因为它使用了一个确定性策略网络,而不是像传统的强化学习算法(例如,基于策略梯度的算法)那样使用随机策略网络。
具体来说,DDPG 使用的是一个确定性策略函数,通常表示为
标签:输出,策略,动作,Gradient,Deterministic,PPO,确定性,DDPG From: https://www.cnblogs.com/myleaf/p/18581943
Deep Deterministic Policy Gradient (DDPG) 是“Deterministic”(确定性)的,因为它使用了一个确定性策略网络,而不是像传统的强化学习算法(例如,基于策略梯度的算法)那样使用随机策略网络。
具体来说,DDPG 使用的是一个确定性策略函数,通常表示为
标签:输出,策略,动作,Gradient,Deterministic,PPO,确定性,DDPG From: https://www.cnblogs.com/myleaf/p/18581943