首页 > 其他分享 >强化学习如何解决输入状态维度增加的问题

强化学习如何解决输入状态维度增加的问题

时间:2024-11-05 21:57:37浏览次数:1  
标签:github 训练 机器人 维度 保龄球 强化 输入

相关:

AI Invents New Bowling Techniques

I Tortured this AI Dog in an Escape Chamber for 1000 Simulated Years


强化学习问题很多时候是解决比较复杂的游戏环境的,比如控制机器人打保龄球,在这个游戏中我们需要既能控制机器人保持站立及运行动作的平衡,同时还需要保证机器人可以把保龄球成功打出去并得分;可以看到在这样的问题中可以把RL的训练过程划分为两个阶段,第一个阶段就是训练机器人的站立和行走,以保证机器人的平稳运动状态;第二个阶段则是需要训练机器人可以成功打出保龄球并得分,这时候我们可以适当减少平稳站立时奖励得分并加入保龄球得分的reward,这阶段有时候可能遇到输入状态增加的可能,比如加入保龄球打出的速度、角度等信息,但是这样就会出现一个问题,那就是强化学习算法中输入状态维度增加的问题,在本文给出的相关资料中对此种问题给出了一种解决方法,那就是保持原有神经网络权重和结构不变的情况下增加神经网络的输入层维度,并将增加的输入层节点和隐藏层节点之间的权重设为极小值,然后再次基础上进行继续的训练。


该种方法不需要因为“输入状态维度增加的问题”而重新训练神经网络,可以节省掉大量的重复训练的时间,对于算法开发的探索阶段使用该种方式是极为有意义的,毕竟重新训练的代价是极高的。该种方法最大的问题就是有效性,不过根据本文给出的相关资料中显示该种方式的有效性,也就是说在强化学习问题中在算法的训练阶段如果遇到动态的“输入状态维度增加的问题”,可以直接将增加的维度加入到已有的神经网络中,只不过需要将新加入的输入层节点的权重设置为极小的值,并在此基础上继续训练。



image-20241105183707832

image-20241105183746829

image-20241105183806633



image-20241105183346723

image-20241105183224502

image-20241105172724006



强化学习算法library库:(集成库)

https://github.com/Denys88/rl_games

https://github.com/Domattee/gymTouch

个人github博客地址:
https://devilmaycry812839668.github.io/

标签:github,训练,机器人,维度,保龄球,强化,输入
From: https://www.cnblogs.com/xyz/p/18528976

相关文章

  • HTC Vive SDK:手柄控制与输入技术教程_2024-07-26_09-21-37.Tex
    HTCViveSDK:手柄控制与输入技术教程HTCViveSDK概览SDK下载与安装在开始开发HTCVive虚拟现实应用之前,首先需要下载并安装HTCVive的SDK。以下是详细的步骤:访问官网:打开HTCVive的官方网站,找到开发者中心。下载SDK:在开发者中心页面,找到并下载适用于你操作系统的......
  • 用户输入数据的模块化重构实践
    用户输入数据的模块化重构实践背景介绍在日常开发中,处理用户输入是一个非常常见的需求。一个看似简单的用户名和密码输入功能,如果考虑到代码的可维护性、可读性和可扩展性,其实是有很多优化空间的。本文将通过一个具体的案例,展示如何对用户输入处理代码进行模块化重构。问题描述......
  • 浏览器中输入URL返回页面过程(超级详细)、DNS域名解析服务,TCP三次握手、四次挥手
    文章目录前言浏览器中输入URL返回页面全过程DNS域名解析过程TCP的三次握手、四次挥手一、浏览器中输入域名二、解析域名2.1具体过程2.2知识补充2.2.1域名体系结构2.2.2查询方式——递归查询、迭代查询2.2.3DNS域名解析过程三、浏览器与目标服务器建立T......
  • 电动两轮车上所使用的车充芯片 CSM3820SG,能够支持 100V 以内的电压输入,输出为 5V-2A。
    如今,在美团外卖骑手、跑腿服务以及家用等领域,电动两轮车极为受欢迎。倘若为电动车配备可给手机充电的接口,将会给广大消费者带来极大的便利。然而,电动两轮车的电瓶电压较高,通常为36V-48V,甚至72V电池供电。普通的降压DC-DC无法承受如此高的输入电压。而芯生美研发的CSM382......
  • C++——输入一个字符串,内有数字和非数字字符,如a123x456_ 17960?302tab5876将其中连续
    没注释的源代码#include<iostream>#include<stdio.h>usingnamespacestd;intmain(){  charstr[50],*pstr;  inti,j,k,m,e10,digit,ndigit,a[10],*pa;  cout<<"pleaseinputstring:"<<endl;  gets(str);  pstr=&str[......
  • H5登录界面输入账号密码,在ios苹果微信手机上输入框上下闪烁问题
    场景描述:H5登录界面输入账号密码,在ios苹果微信手机上输入框上下闪烁问题苹果手机的浏览器就有了自动填充密码的功能,具体来说就是一个手机号密码登录的页面,ios识别到当前页面有密码输入框,所以触发了自动填充密码的功能。解决办法:在2个输入框中间加个隐藏输入框核心代码:<inpu......
  • 强化学习理论-第1课-基础概念
    1.state:状态,可以是机器人的位置,速度,加速度等2.action:对于每一个状态,可能的动作3.statetransition:状态转移3.1statetransitionprobability:4.policy:告诉agent在这个状态应该采用哪个action......
  • 强化学习理论-第0课-汇总
    ......
  • LeetCode:3259. 超级饮料的最大强化能量(DP Java)
    目录3259.超级饮料的最大强化能量题目描述:实现代码与解析:DP原理思路:3259.超级饮料的最大强化能量题目描述:        来自未来的体育科学家给你两个整数数组 energyDrinkA 和 energyDrinkB,数组长度都等于 n。这两个数组分别代表A、B两种不同能量饮料每......
  • 热门骨传导耳机推荐:五大高销量骨传导耳机全维度测评分享!
    随着科技的不断进步,骨传导耳机逐渐成为市场上的一股新潮流。与传统的入耳式耳机不同,骨传导耳机通过骨骼传递声音,不仅能够保护听力,还能让用户在享受音乐的同时保持对外界的感知,特别适合运动和户外活动。然而,市场上的骨传导耳机品牌和型号繁多,消费者在选择时往往感到困惑。(上......