首页 > 其他分享 >强化学习: 传统控制类问题使用强化学习解决时对神经网络结构的依赖 —— 神经网络结构对控制类问题的影响

强化学习: 传统控制类问题使用强化学习解决时对神经网络结构的依赖 —— 神经网络结构对控制类问题的影响

时间:2024-10-11 20:22:24浏览次数:1  
标签:控制 学习 神经网络 使用 强化 问题

最近在看有关上个世纪中的写的关于使用神经网络的强化学习算法控制机械的论文,也就是使用传统的神经网络结构(没有CNN/LSTM模块)的稀疏连接的类似MLP的神经网络,使用这样的神经网络结构并用强化学习算法来训练控制机械的策略算法。


看到一些上世纪90年代的基于神经网络的强化学习论文,这些论文中使用强化学习算法来解决自动控制/自适应控制等机械控制类问题,比如,机器人控制等等,在这些论文中一个比较共性的特点就是都是使用传统的神经网络结构,也就是都是神经元之间的连接和tanh激活函数,但是在这里论文里面神经元之间的连接结构都是人为人工的进行设计的,于是就有了这么一个问题,那就是“传统控制类问题使用强化学习解决时对神经网络结构的依赖”。

控制类问题和深度学习兴起后的多媒体形式的强化学习问题还是有着明显的不同的,在多媒体形式的问题中使用CNN、LSTM这样的高级神经网络模块是必选项,但是即使在现在的深度学习时代,对于那些传统的控制类问题(只能获得传感器信息)来说,所使用的神经网络则是传统的多层全连接结构。那么不论深度学习之前还是之后,对于控制类问题来说神经网络技术几乎保持不变,但是唯一不同的是在深度学习时代之前控制类问题使用的是定制化的神经网络结构,而现在的控制类问题则使用的是标准的多层MLP,我们都知道深度学习最大的一个优势之一就是一定层度上替代了特征工程,因此对于多媒体问题来说就不再需要人为定制化的神经网络结构了,但是对于控制类问题呢,为什么现在的控制类问题从来不对神经网络的结构进行探索呢。


个人观点:

定制化的神经网络结构对于控制类问题依然有意义,之所以现在这类的应用比较罕见只是因为在深度学习时代人们更在于的是多媒体这样的大数据应用环境而不是控制类问题,但是AI的发展总是要从软件走向硬件的,以后的智能机器人不论发展的顺利与否都不可否认的会成为未来的发展趋势,而现在受控制类问题在实际应用中的占比较低的现实所限为数不多的researcher也都是单纯的使用多层MLP来做性能对比,以此来说明问题,也就是这样就忽略了定制化神经网络在控制类问题中的意义。

智能控制的未来的研究方向之一不是定制化神经网络的意义,而是如何使用神经网络架构搜索这样的自动技术来替代专业人士的人工手动的定制化控制类的神经网络结构,个人乐观估计未来研究如何自动生成特定控制类问题的定制化神经网络是会一定的发展的。


标签:控制,学习,神经网络,使用,强化,问题
From: https://www.cnblogs.com/xyz/p/18459203

相关文章

  • 学习Opencv的第八天——优化Opencv在执行时的性能
    1、使用OpenCV衡量性能cv.getTickCount函数返回从参考事件(如打开机器的那一刻)到调用此函数那一刻之间的时钟周期数。因此,如果在函数执行之前和之后调用它,则会获得用于执行函数的时钟周期数。cv.getTickFrequency函数返回时钟周期的频率或每秒的时钟周期数。因此,要找到执行......
  • 基于QLearning强化学习的机器人避障和路径规划matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下(完整代码运行后无水印):  2.算法涉及理论知识概要       强化学习是一种机器学习方法,它使智能体能够在与环境交互的过程中学习如何采取行动以最大化累积奖励。Q-Learning是一种无模型的强化学习算法,特别适合于离散动作空......
  • scrapy框架学习笔记
    scrapy运行机制详见Architectureoverview安装直接pipinstallscrapy即可使用命令行scrapystartprojectname命令创建一个新的Scrapy项目scrapycrawlSpiderName命令运行爬虫scrapyrunspiderSpiderName命令运行脚本。更多命令直接查Commandlinetool概述编写S......
  • Ai软件学习 I
     1.上图中的控制会打开菜单栏中下方空处,这是与PS不同的地方,在这里,这个地方用来存放画板,而PS是用来放工具属性的。2.Ai是由路径和锚点组成的,而PS是由像素组成的,所以Ai左侧小黑工具是用来控制路径的,也可以用作移动工具,小白工具是用来操作锚点的。     保存的时候,使......
  • Prompt 学习地图 | 框架思维
    该框架主要包括以下五个部分:背景B(Background)角色R(Role)目标O(Objectives)关键结果K(KeyResults)实验改进E(Evolve)框架解释背景(Background)背景信息部分提供关于请求的背景和上下文,它帮助ChatGPT更好地理解问题的背后意图和情境。例如,当你询问有关......
  • 少数民族学习国通语拼劲突破——信息技术在信创环境下的创新应用
    一、引言:少数民族学习国通语的挑战与机遇在多元文化并存的今天,少数民族学习国通语(普通话)成为促进民族团结与社会发展的重要议题。对于少数民族学习者而言,掌握国通语不仅是交流的需要,更是获取更广泛知识、融入现代社会的关键。然而,传统的学习方法往往难以激发学习者的兴趣,学习......
  • Python从0到100(六十二):机器学习实战-预测波士顿房价
    前言:零基础学Python:Python从0到100最新最全教程。想做这件事情很久了,这次我更新了自己所写过的所有博客,汇集成了Python从0到100,共一百节课,帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知......
  • 机器学习与神经网络:开启物理学的新篇章
    近日,2024年诺贝尔物理学奖的颁发引发了全球热议,尤其是首次将这项传统上授予物理学研究者的奖项颁给了机器学习与神经网络领域的科学家。这一举动标志着人工智能技术,尤其是深度学习技术,正在深入影响科学的各个领域,甚至改变物理学的研究方式。1.机器学习与神经网络的迅猛发展......
  • 5 机器学习之发展历程
    所谓“知识就是力量”​。1965年,Feigenbaum主持研制了世界上第一个专家系统DENDRAL。机器学习是人工智能(artificialintelligence)研究发展到一定阶段的必然产物。二十世纪五十年代到七十年代初,人工智能研究处于“推理期”​,那时人们以为只要能赋予机器逻辑推理能力,机器......
  • 2 机器学习之基本术语
    要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)​,​(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)​,​(色泽=浅白;根蒂=硬挺;敲声=清脆)​,……,每对括号内是一条记录,​“=”意思是“取值为”​。有时整个数据集亦称一个“样本”​,因为它可看作对样......