强化学习环境gym/gymnasium下的atari环境的v0、v4、v5的说明

时间：2024-10-16 19:23:48浏览次数：8

标签：gym 环境 gymnasium v0 v4 v5 atari

声明：

本文是最新版gym-0.26.2下Atari环境的安装以及环境版本v0，v4，v5的说明的部分更新和汇总，可以看作是更新和延续版本。

由于gym已经由openai公司独立出来，虽然开发团队和投资方都没有变，但是相关的网站和版本已经由变化了，名字也从gym变成gymnasium，因此我们在讨论gym的时候默认都是指最新的gymnasium版本，其相关地址：

https://gymnasium.farama.org/

但是其所含的atari环境也从gymnasium中独立出来，其最新地址为：

https://ale.farama.org/

本文内容主要是对最新版gym-0.26.2下Atari环境的安装以及环境版本v0，v4，v5的说明的延续和更新，关于v0,v4,v5版本的不同请转至该链接地址下。

更新：

space_invaders游戏下v5版本的frameskip=4，而不是3，但是这并不会出现什么太大问题，因为v5版本下repeat_action_probability=0.25，这种随机性可以避免原始DQN论文中指出的可能出现的问题；而当repeat_action_probability=0时要么frameskip=3，要么frameskip =（2,3,4）中的随机数值，由此可以看到在space_invaders的真实交互中只要保证一定的随机性，那么即使v5版本中frameskip=4也不会影响真实的DQN算法训练的。

论文：

Machado et al.
“Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents”
Journal of Artificial Intelligence Research (2018)
URL: https://jair.org/index.php/jair/article/view/11182

中对游戏的模式和难度级别给出的大致情况：

gym给出的具体实现重点模式和难度级别情况：

https://www.gymlibrary.dev/environments/atari/#flavors

使用DQN算法解决atari游戏时的常用超参设置：

PS:

为什么在atari游戏中使用repeat_action_probability很重要呢，因为atari游戏是确定性游戏而不是随机性游戏，也就是说atari游戏是从同一个起始点开始的，如果采用相同的交互动作，那么多次生成的新的episodes将会是完全相同的，而这种不具备随机性的游戏环境是不符合真实强化学习应该解决的问题的要求的，因此需要加入该参数以增加强化学习算法对随机环境的适应能力。

（续） gym atari游戏的环境设置问题：Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别

【转载】 gym atari游戏的环境设置问题：Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别

gym中所有可以用的模拟环境

标签：gym,环境,gymnasium,v0,v4,v5,atari
From： https://www.cnblogs.com/xyz/p/18470592

强化学习：gym下atari游戏环境的官方文档地址
2024年10月16日共建议查看两个历史上的官方地址：https://ale.farama.org/https://www.gymlibrary.dev/最新官方地址：https://ale.farama.org/历史版本的官方地址，适合查看更全面的相关信息：地址：https://www.gymlibrary.dev/......
Issac_GYM对Go2机器人的仿真心得
override覆盖torques扭矩1args()参数信息等cd/home/yyds/桌面/Gym2/legged_robot_competition-master/legged_gym/legged_gym/utils/helpers.py这里对train等参数的调用情况进行了说明比如：pythonplay.py--task=go2--num_envs=64--checkpoint=50--load_run=/ho......
【原创】ns3 + sumo + ns3gym编译冲突解决方案
Copyright(c)2024,China,HenanUnivercityofScienceandTechnology河南科技大学,中国在搞ndnSIM当毕业设计，ns3+ndnsim+sumo+ns3-gym编译存在冲突：from../contrib/ndn4ivc/apps/fgfxf-rsu.cc:25:./ns3/sumo-TraCIConstants.h:328:21:error:exp......
Issac_GYM重要过程记录
1下载相关文件进入github中下载相关的文件https://github.com/leggedrobotics/legged_gym2加载自己绘制的URTL文件这个链接用来下载宇树的Go2模型机器人https://github.com/unitreerobotics/unitree_rl_gym/tree/main下载好了urdf文件，将其中resources/robots/go2文件复制......
C++：自治我的世界2D.V0.0.4.5
更新内容：增加挖掘进度，挖掘需要时间了，但还有BUG操作说明：A,D移动；W跳跃；上，下，右+上，右+下，左+上，左+下撸方块；M开关大地图#include<bits/stdc++.h>#include<windows.h>#defineKEY_DOWN(VK_NONAME)((GetAsyncKeyState(VK_NONAME)&0x8000)?1:0)usingnamespacestd;void......
Gym 100543G Virus synthesis 题解
Solution首先只考虑回文串的答案；我们重点考虑的是偶回文串结论：对于偶回文串\(u\)，从其最长的长度小于等于他的一半的回文后缀，或其父亲转移过来，一定是最优的证明：设\(u\)的一个回文子串为\(v\)（不是父亲），你要让\(v\tou\)的转移最优首先\(v\)不能跨过\(u\)的中点，因为此......
gym103687D / QOJ3998 The Profiteer
题意有\(n\)个物品，和一个背包容量上限\(m\)。每个物品有价值\(v_i\)和体积\(a_i\)。你需要选择一段区间\([l,r]\)，将这个区间内的体积变为\(b_i\)，剩下的不变。然后你对这\(n\)个物品做背包，设背包容量结果为\(f(i)\)，需要求出有多少段区间使得\(\dfrac{\sum_{i=1}^mf(......
Too many / Not enough values in OpenAI Gym Mario Model for Reinforcement Learnin
题意：在OpenAI Gym的马里奥兄弟（Mario）模型中，对于强化学习来说，存在“值太多”或“值不够”的问题问题背景：ReinforcementlearningusingOpenAIGymhastheabilitytomakeareinforcementmodelforplayingSuperMarioBros.ItrieddoingthisfollowingNicholasRe......
[GYM103119K][2020 ICPC Asia Macau] Candy Ads 题解
题意简述有\(n\)个广告，每个广告在一个时间段内占据二维平面的矩形，\(m\)个约束表示两个广告至少有一个要被选择，选择若干广告，满足所有约束且同时刻不能有重叠的广告。Kosaraju算法流程在正图上跑一遍DFS，给每个位置打上时间戳从时间戳大到小枚举点，在反图上跑DFS，这个时候对......
Gymnasium 学习笔记：gymnasium.Env 概述
简要介绍Gymnasium的整体架构和个模块组成。Gymnasium提供了强化学习的环境，下面主要介绍gymnasium.Env和gymnasium.MujocoEnv两个类。1.gymnasium.Envgymnasium.Env(Generic[ObsType,ActType])是环境的基类，其是泛型类，其可以接受ObsType和ActType两个类型，分别对应......

强化学习环境gym/gymnasium下的atari环境的v0、v4、v5的说明

相关文章

赞助商

阅读排行