怎样用AI打飞机 (上)

时间：2023-01-25 12:11:36浏览次数：50

标签：飞机训练 AI 机器人 Agent Environment TF Reward 怎样

怎样用AI打飞机

在用AI打飞机之前, 我们先看一下这个:

打飞机属于无监督学习;

无监督学习

如上所示, 一个Agent(机器人)和一个Enviroment(环境)交互, 通过Obeservation(观察), 执行Action(行动), 获得Reward(奖励);

对比一下人脸识别的过程: 人脸样本打标签, 损失函数训练神经网络, 神经网络将人脸变为高维度上的点, 点的距离得出人脸的相似度;

无监督学习不需要样本和标签;

无监督学习需要Enviroment(环境); 神经网络通过和环境交互来学习;

Environment(环境)

OpenAI的gym是一个开源的库, 里面有很多Environment:

比如:

80年代Atari游戏公司的游戏, 用来训练打游戏:

多关节的机器人, 用来训练直立行走:

TF-Agent

TF-Agent是Google开源的Agent(机器人), 可以和Environment交互, 学习;

实现来自DeepMind的论文: DQN(Deep Q-Learning Network) --- 深度Q-Learning 神经网络;

TF-Agent对DQN做了封装, 训练机器人的时候几乎不需要考虑DQN的实现细节;

本篇本来是想用TF-Agent来训练机器人打飞机, 但是发现3年前的Keras的一个例子, 那个例子里面有DQN的实现细节;

代码

https://keras.io/examples/rl/

Keras的例子是一个打钻块的例子, 我用他来实现打飞机, 稍微改了一下:

加载打飞机的Environment, Atari的Assault-v4;

num_actions(机器人执行的Action)改为7;

Keras的输出, 去掉了繁琐的打印, 减少内存消耗;

加载Environment

这里DeepMind的模块对Atari的Environment做了一层封装, 主要是把彩色图变成灰度图, 缩小, 等等;

对比一下:

原图:

包装之后的图, 缩小成了84x84的灰度图:

这样的好处是可以加快计算速度;

机器人执行的Action放在了action_space, 把它打印出来, 是一个"离散"型的值, 有7个变量:

其中, 0表示无操作, 1表示向上开火, 2表示左移, 等等;

我们执行一个右移的操作, 打印出来:

其中, Reward是获取到的奖励, done表示游戏是否结束, next_state是游戏的下一帧;

创建神经网络

输入是84x84的灰度图, 输出是7(Action);

训练

https://keras.io/examples/rl/deep_q_network_breakout/

训练的部分比较复杂, 放在下期讲;

读者可以直接阅读Keras的例子, 里面的注释十分省心;

同时阅读一下马可夫决策和Q-Learning, 加上DeepMind的论文

DeepMind的论文可以在Google的TF-Agents介绍里面找到:

https://www.tensorflow.org/agents/tutorials/0_intro_rl#the_dqn_agent

结果:

这是我一晚上的训练结果:

从300多的Reward达到了1000多的Reward

后面的Reward上升很慢了, 需要优化一下;

下期见;

标签：飞机,训练,AI,机器人,Agent,Environment,TF,Reward,怎样
From： https://www.cnblogs.com/lijingshanxi/p/17066833.html

网页怎样引入本地硬盘上的JS文档
网页通过<script>标记可以引入在线的js文档，只有把网页保存在本地硬盘才能使用相对路径引入本地js文档，普通浏览器难以实现在线页面上引入本地js文档。怎么解决这个问题......
0315-Java学习-091-【答疑解惑】Failed to configure a DataSource: 'url' attribute
一、问题现象创建了一个springboot项目后，运行项目提示信息如下所示相应的文本信息如下： Description:FailedtoconfigureaDataSource:'url'attributei......
MySQL HA（High Availability）数据库高可用工具Orchestrator安装
目录1.下载安装包2.安装backendMySQLserver3.在MySQL实例上授权4.启动orchestrator服务5.参考本文主要介绍如何在本地安装MySQLHA（HighAvailability）数据库高可用工......
解决 WebSocket connection to '你请求的服务url' failed:
NginxProxyManager配置了反向代理后前端对应改为域名访问刷新发现浏览器报“WebSocketconnectionto'xxxl'failed:”来到配置找到你报错对应的域名代理服务打......
在React中，怎么用tailwind css（就叫顺丰吧 :D 。。。）封装Button组件
我的目的想用tailwindcss来快速封装Button组件，而不是从更大型的UI库导入一个Button组件（那样就太大材小用）。几个工具从这抄的样式在学习怎么形成规范化的组件额，仅......
codeformer AI视频去码、图片修复
目录IntroductiontotheenvironmentinstallpythoninstallcondainstallpytorchinstallOtherpackages(inrequired)HowtoUSEGithubIntroductiontotheenvironm......
关于__name__ == main 说明
if__name__=='__main__'作用test.py: 在当前文件中进行打印print(__name__)#结果就被解析为__mian__show.pyimporttest#导入test脚本执行当前show.......
git clone时出现 Failed connect to github.com:443; Connection refused问题
1.在Windows下，win+R运行cmdpingGitHub得到IP地址，如图： 2.在shell中输入如下命令sudovim/etc/hosts如图，将之前的代理注释掉，将刚刚复制的ip添加到hosts文......
m基于NSGAII优化算法的微网系统的多目标优化规划matlab仿真
1.算法描述NSGA-II是基于的非支配排序的方法,在NSGA上进行改进，也是多目标进化优化领域一个里程碑式的一个算法。NSGA-Ⅱ算法是Srinivas和Deb于2000年在NSGA的基......
m基于NSGAII优化算法的微网系统的多目标优化规划matlab仿真
1.算法描述 NSGA-II是基于的非支配排序的方法,在NSGA上进行改进，也是多目标进化优化领域一个里程碑式的一个算法。 NSGA-Ⅱ算法是Srinivas......