BipedalWalker-v3是一个简单的4关节行走机器人环境,用于强化学习任务。这个环境有两个版本:普通版(Normal)和高难度版(Hardcore)。
普通版的地形略为不平,而高难度版包含梯子、树桩和陷阱。在普通版中,要解决问题,需要在1600个时间步内获得300分。在高难度版中,需要在2000个时间步内获得300分。
1.1 环境定义
行动空间:动作是每个关节(两个髋关节和两个膝关节)的电机速度值,范围在[-1,1]之间。
观察空间:状态包括船体(Hull, 蓝色五边形)角速度、角速度、水平速度、垂直速度、关节位置、关节角速度、腿与地面接触情况以及10个激光雷达测距仪的测量结果。
奖励:向前移动会获得奖励,总共可以获得300多分。如果机器人摔倒,会扣除100分。施加电机扭矩会消耗少量分数。更优化的代理程序将获得更高的分数。
起始状态:行走者从地形的左端站立起来,船体水平,双腿处于相同位置,膝盖微弯。
终止条件:如果船体与地面接触,或者行走者超过地形长度的右端,本回合将终止。