2024深度学习发论文&模型涨点之——强化学习+卡尔曼滤波
强化学习与卡尔曼滤波的结合在提高导航精度、适应复杂环境以及优化资源利用方面显示出明显优势,并且已经在多个领域中得到应用和验证。
这种结合创新十分有前景,目前多篇成果被顶会顶刊录用,例如"Champion-level drone racing using deep reinforcement learning”这篇登上Nature封面的文章详细描述了Swift系统,一个能够与人类世界冠军级别的无人机竞速选手相匹敌的自主系统。
我整理了一些强化学习+卡尔曼滤波【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取
论文精选
论文1:
【Nature】Champion-level drone racing using deep reinforcement learning
使用深度强化学习的冠军级无人机竞速
方法
-
深度强化学习(RL):结合了在模拟环境中训练的深度RL策略和在真实世界中收集的数据。
-
感知系统:将高维视觉和惯性信息转换为低维表示。
-
控制策略:使用前馈神经网络,通过模拟中的无模型策略深度RL进行训练。
-
经验噪声模型:使用从真实系统收集的数据估计的非参数经验噪声模型,以弥合模拟与现实之间的感知和动态差异。
-
卡尔曼滤波器:用于融合视觉-惯性估计器和门检测器的估计,以获得更准确的机器人状态表示
创新点
-
自主导航系统Swift:首次实现了仅使用机载传感器和计算就能与人类世界冠军相媲美的无人机竞速系统。
-
模拟到现实的策略迁移:成功地将控制策略从模拟环境迁移到现实世界,即使在感知和动态存在差异的情况下也能保持高性能。
-
与人类冠军的直接对抗:Swift在真实世界的头对头比赛中与包括世界冠军在内的三位人类冠军进行了对抗,并取得了胜利。
-
高速动态环境中的实时决策:在高速和动态变化的环境中,Swift能够基于嘈杂和不完整的感官输入进行实时决策。
-
卡尔曼滤波器的应用:通过卡尔曼滤波器融合不同传感器数据,提高了状态估计的准确性,这对于高速飞行中的精确控制至关重要。
论文2:
Value-Based Reinforcement Learning for Digital Twins in Cloud Computing
基于价值的强化学习在云计算中的数字孪生应用
方法
-
数字孪生架构:采用包括单一主代理(PA)和一组感知代理(SAs)的数字孪生(DT)架构,通过无线信道与接入点(AP)通信,构建DT模型。
-
强化学习与信息价值算法:提出REinforcement learning and Variational Extended Kalman filter with Robust Belief (REVERB)框架,结合强化学习解决方案和基于信息价值的算法,执行最优控制并选择最具信息量的传感器。
-
优化问题公式化:构建一个优化问题,以有效调度感知代理,同时最小化能耗和满足延迟要求。
创新点
-
数字孪生动态变化跟踪:引入DT架构以跟踪系统参数的动态变化并控制系统动态。
-
不确定性控制强化学习框架:提出一个框架,在学习执行动作的同时控制状态不确定性估计。
-
新优化问题公式化:为在最小化能耗的同时,保持DT系统估计的信心,制定一个新的优化问题。
-
信息价值算法:提出基于信息价值的算法,实现在多项式时间内的实际和高效解决方案。
论文3:
KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty
KalMamba:提高强化学习在不确定性下的高效概率状态空间模型
方法
-
概率状态空间模型(SSMs):提出KalMamba,一种结合概率SSMs与确定性SSMs扩展性的高效架构,利用Mamba学习线性高斯SSM的动态参数。
-
并行关联扫描:通过并行关联扫描实现标准卡尔曼滤波和平滑操作,以获得原则性、高效且可扩展的概率SSM。
-
变分推断:使用变分推断进行模型训练,以获得紧密的变分下界。
创新点
-
高效概率SSM架构:KalMamba结合了概率SSMs的不确定性感知能力和确定性SSMs的计算效率。
-
卡尔曼滤波和平滑:在潜在空间中使用(扩展)卡尔曼滤波和平滑进行推断,提高了计算效率,特别是在长交互序列上。
-
端到端模型训练:允许在高不确定性下使用平滑推断和紧密变分下界进行端到端模型训练。
-
时间并行计算:通过时间并行计算信念状态,KalMamba在模型学习和控制中实现了高效率。
论文4:
Multi-AGV Path Planning Method via Reinforcement Learning and Particle Filters
基于强化学习和粒子滤波器的多AGV路径规划方法
方法
-
粒子滤波器(PF):利用粒子滤波器处理网络的不精确权重值,将其作为状态值来构建状态空间方程。
-
双重深度Q网络(DDQN)模型:通过神经网络和PF的迭代融合过程优化DDQN模型,以获得最优的真实权重值,提高算法的优化效率。
-
性能验证:通过不同的数值模拟验证所提方法的性能。
创新点
-
PF-DDQN方法:提出了一种新的多AGV路径规划方法PF-DDQN,通过结合PF和RL算法,解决了环境不稳定性导致的神经网络方差问题。
-
状态和观测变量的构建:将训练网络与环境噪声和目标网络的不准确权重作为状态和观测变量,构建系统的方程。
-
优化效率:通过神经网络和PF的迭代融合,连续更新神经网络权重,提高算法的收敛速度。
-
性能提升:模拟结果表明,所提出的方法在路径规划优越性和训练时间指标方面分别比传统DDQN算法提高了92.62%和76.88%。