• 2024-03-24马尔可夫决策理论
    马尔可夫决策理论马尔可夫性(无后效性)某阶段的状态一旦确定‚则此后过程的演变不再受此前各状态的影响。也就是说“未来与过去无关”当前的状态是此前历史的一个完整总结,此前的历史只能通过当前的状态去影响过程未来的演变。把握“当前的状态是此前历史的一个完整总结”这一要
  • 2023-07-30Intention-Aware Online POMDP Planning for Autonomous Driving in a Crowd
    一、论文信息发表日期:2015年发表机构:新加坡国立大学,计算机科学系二、论文内容1.解决问题:无人车在人员密集处的速度规划算法2.方法:前向仿真+强化学习概念   ①.路径规划和速度规划进行解耦,进行速度规划之前路径已确定。 ②.速度规划采取部分可观测马尔可夫决策过程,
  • 2023-01-15用模仿学习来学习POMDP中的信念表示
    一、研究对象本文研究了POMDP的模仿学习问题,具体来说本文在POMDP中引入了一种的信念表示学习方法,用于生成对抗模仿学习,不同于以往单独训练信念模块和策略,我们对信念模块和
  • 2022-11-17面向高效网络渗透测试的强化学习
    一、本文的贡献本文提出并且评估了一个基于人工智能的PT系统————IAPTS,系统利用RL技术来学习和再现PT活动。该模块集成了工业框架,能够在未来类似的测试用例中捕获信息
  • 2022-11-03使用深度强化学习改进POMDP
    论文提出一种ADRQN架构来增强在部分可观测领域的学习表现,架构的特点在于同时考虑动作和观测作为模型的输入。如下图中的模型所示,我们的动作和观测在经过相关的维度变换之