CartPole V1包括一辆载着杆子在轨道上移动的推车。这是一个具有离散动作空间的简单环境。
以下是 CartPole- 有用字段的详细信息:
-
state
:车的位置、车的速度、杆的角度、杆尖的速度; -
action
:只能是以下之一,表示向左移动、不移动和向右移动;[0, 1, 2]
-
reward
:你每持续一个时间步,你就会收到 +1reward
; -
done
:如果 CartPole 超出范围或超时(杆与垂直方向的夹角超过 15 度,或者手推车从中心移动超过 2.4 个单位,或者您持续超过 200 个时间步); -
info
:来自环境模拟的额外信息。
目标是训练一个能够在这种环境下获得最高奖励的良好策略。
CartPole V1 是 V0的增强版本, 在V0中,结束条件相对宽松, 杆子倾斜角度可以超过15°,小车可以超出范围, 但V1会立刻终止, 这使得V1更佳困难, 需要更精确的控制策略来使杆子保持垂直。
标签:杆子,CartPole,V0,V1,超出范围,强化,移动,倒立 From: https://www.cnblogs.com/ai-ldj/p/18113195