• 2024-06-08【Python】DQN处理CartPole-v1
    DQN是强化学习中的一种方法,是对Q-Learning的扩展。通过引入深度神经网络、经验回放和目标网络等技术,使得Q-Learning算法能够在高维、连续的状态空间中应用,解决了传统Q-Learning方法在这些场景下的局限性。Q-Learning可以见之前的文章。算法的几个关键点:1.深度学习估计状态动
  • 2024-05-15PPO-KL散度近端策略优化玩cartpole游戏
     其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能给太大,否则惩罚力度太大,actionmodel和refmodel产生的action其实分布的差距并不太大 importgymimporttorchimp
  • 2024-05-14PPO近端策略优化玩cartpole游戏
     这个难度有些大,有两个policy,一个负责更新策略,另一个负责提供数据,实际这两个policy是一个东西,用policy1跑出一组数据给新的policy2训练,然后policy2跑数据给新的policy3训练,,,,直到policy(N-1)跑数据给新的policyN训练,过程感觉和DQN比较像,但是模型是actorcritic架构,on-policy转换成o
  • 2024-05-13DQN玩cartpole游戏
    importgymimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportrandomimportpygameimportsysfromcollectionsimportdeque#定义DQN模型classDQN(nn.Module):def__init__(self):super(DQN,self).__init__()self.netwo
  • 2024-05-12策略梯度玩 cartpole 游戏,强化学习代替PID算法控制平衡杆
     cartpole游戏,车上顶着一个自由摆动的杆子,实现杆子的平衡,杆子每次倒向一端车就开始移动让杆子保持动态直立的状态,策略函数使用一个两层的简单神经网络,输入状态有4个,车位置,车速度,杆角度,杆速度,输出action为左移动或右移动,输入状态发现至少要给3个才能稳定一会儿,给2个完全学不明白,
  • 2024-04-29【Python】Q-Learning处理CartPole-v1
    上一篇配置成功gym环境后,就可以利用该环境做强化学习仿真了。这里首先用之前学习过的qlearning来处理CartPole-v1模型。CartPole-v1是一个倒立摆模型,目标是通过左右移动滑块保证倒立杆能够尽可能长时间倒立,最长步骤为500步。模型控制量是左0、右1两个。模型状态量为下面四个:
  • 2024-04-03强化学习环境-倒立摆[CartPole]
                    CartPoleV1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。以下是CartPole-有用字段的详细信息:state:车的位置、车的速度、杆的角度、杆尖的速度;action:只能是以下之一,表示向左移动、不移动
  • 2023-06-25深度Q网络:DQN项目实战CartPole-v0
    摘要:相比于Qlearning,DQN本质上是为了适应更为复杂的环境,并且经过不断的改良迭代,到了NatureDQN(即VolodymyrMnih发表的Nature论文)这里才算是基本完善。本文分享自华为云社区《强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0》,作者:汀丶。1、定义算法
  • 2023-01-09深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制
    我将文章发表在了古月居,一起来看看吧!​​戳这里​​
  • 2022-10-06OpenAI Gym 经典控制环境介绍——CartPole(倒立摆)
    摘要:OpenAIGym是一款用于研发和比较强化学习算法的工具包,本文主要介绍Gym仿真环境的功能和工具包的使用方法,并详细介绍其中的经典控制问题中的倒立摆(CartPole-v0/1)问题