离线学习算法:A3C, PPO, TRPO
在线学习算法:DDPG,训练不稳定,容易陷入局部最优
SAC: 离线策略,随机策略,最大化累积奖励的同时最大化策略的熵(更好地探索环境,熵值越高,策略越随机,目标的奖励越大)
Soft Actor-Critic 算法公式:
α越大,策略的随机性越强
算法流程:
代码练习:
标签:策略,SAC,09,离线,学习,算法 From: https://www.cnblogs.com/demo-deng/p/16908947.html
离线学习算法:A3C, PPO, TRPO
在线学习算法:DDPG,训练不稳定,容易陷入局部最优
SAC: 离线策略,随机策略,最大化累积奖励的同时最大化策略的熵(更好地探索环境,熵值越高,策略越随机,目标的奖励越大)
Soft Actor-Critic 算法公式:
α越大,策略的随机性越强
算法流程:
代码练习:
标签:策略,SAC,09,离线,学习,算法 From: https://www.cnblogs.com/demo-deng/p/16908947.html