CartPole

2024-12-22强化学习：使用自动控制方法PID来解决强化学习问题中的cartpole问题（小车平衡杆问题）
网上找到的一个实现：地址：https://gist.github.com/HenryJia/23db12d61546054aa43f8dc587d9dc2c稍微修改后的代码：importnumpyasnpimportgymdefsigmoid(x):return1.0/(1.0+np.exp(-x))env=gym.make('CartPole-v1')desired_state=np.array([0,0,0,
2024-06-08【Python】DQN处理CartPole-v1
DQN是强化学习中的一种方法，是对Q-Learning的扩展。通过引入深度神经网络、经验回放和目标网络等技术，使得Q-Learning算法能够在高维、连续的状态空间中应用，解决了传统Q-Learning方法在这些场景下的局限性。Q-Learning可以见之前的文章。算法的几个关键点：1.深度学习估计状态动
2024-05-15PPO-KL散度近端策略优化玩cartpole游戏
其实KL散度在这个游戏里的作用不大，游戏的action比较简单，不像LM里的action是一个很大的向量，可以直接用surr1，最大化surr1，实验测试确实是这样，而且KL的系数不能给太大，否则惩罚力度太大，actionmodel和refmodel产生的action其实分布的差距并不太大 importgymimporttorchimp
2024-05-14PPO近端策略优化玩cartpole游戏
这个难度有些大，有两个policy，一个负责更新策略，另一个负责提供数据，实际这两个policy是一个东西，用policy1跑出一组数据给新的policy2训练，然后policy2跑数据给新的policy3训练，，，，直到policy（N-1）跑数据给新的policyN训练，过程感觉和DQN比较像，但是模型是actorcritic架构，on-policy转换成o
2024-05-13DQN玩cartpole游戏
importgymimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportrandomimportpygameimportsysfromcollectionsimportdeque#定义DQN模型classDQN(nn.Module):def__init__(self):super(DQN,self).__init__()self.netwo
2024-05-12策略梯度玩 cartpole 游戏，强化学习代替PID算法控制平衡杆
cartpole游戏，车上顶着一个自由摆动的杆子，实现杆子的平衡，杆子每次倒向一端车就开始移动让杆子保持动态直立的状态，策略函数使用一个两层的简单神经网络，输入状态有4个，车位置，车速度，杆角度，杆速度，输出action为左移动或右移动，输入状态发现至少要给3个才能稳定一会儿，给2个完全学不明白，
2024-04-29【Python】Q-Learning处理CartPole-v1
上一篇配置成功gym环境后，就可以利用该环境做强化学习仿真了。这里首先用之前学习过的qlearning来处理CartPole-v1模型。CartPole-v1是一个倒立摆模型，目标是通过左右移动滑块保证倒立杆能够尽可能长时间倒立，最长步骤为500步。模型控制量是左0、右1两个。模型状态量为下面四个：
2024-04-03强化学习环境-倒立摆[CartPole]
CartPoleV1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。以下是CartPole-有用字段的详细信息：state：车的位置、车的速度、杆的角度、杆尖的速度；action：只能是以下之一，表示向左移动、不移动
2023-06-25深度Q网络：DQN项目实战CartPole-v0
摘要：相比于Qlearning，DQN本质上是为了适应更为复杂的环境，并且经过不断的改良迭代，到了NatureDQN（即VolodymyrMnih发表的Nature论文）这里才算是基本完善。本文分享自华为云社区《强化学习从基础到进阶-案例与实践[4.1]：深度Q网络-DQN项目实战CartPole-v0》，作者：汀丶。1、定义算法
2023-01-09深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制
我将文章发表在了古月居，一起来看看吧！戳这里
2022-10-06OpenAI Gym 经典控制环境介绍——CartPole（倒立摆）
摘要：OpenAIGym是一款用于研发和比较强化学习算法的工具包，本文主要介绍Gym仿真环境的功能和工具包的使用方法，并详细介绍其中的经典控制问题中的倒立摆（CartPole-v0/1）问题