首页 > 其他分享 >登上Nature封面！强化学习+卡尔曼滤波上大分

登上Nature封面！强化学习+卡尔曼滤波上大分

时间：2024-11-18 16:47:36浏览次数：3

标签：Nature 卡尔曼滤波上大分学习算法 PF 强化模型

2024深度学习发论文&模型涨点之——强化学习+卡尔曼滤波

强化学习与卡尔曼滤波的结合在提高导航精度、适应复杂环境以及优化资源利用方面显示出明显优势，并且已经在多个领域中得到应用和验证。

这种结合创新十分有前景，目前多篇成果被顶会顶刊录用，例如"Champion-level drone racing using deep reinforcement learning”这篇登上Nature封面的文章详细描述了Swift系统，一个能够与人类世界冠军级别的无人机竞速选手相匹敌的自主系统。

我整理了一些强化学习+卡尔曼滤波【论文+代码】合集，需要的同学公人人人号【AI创新工场】自取

论文精选

论文1：

【Nature】Champion-level drone racing using deep reinforcement learning

使用深度强化学习的冠军级无人机竞速

方法

深度强化学习（RL）：结合了在模拟环境中训练的深度RL策略和在真实世界中收集的数据。
感知系统：将高维视觉和惯性信息转换为低维表示。
控制策略：使用前馈神经网络，通过模拟中的无模型策略深度RL进行训练。
经验噪声模型：使用从真实系统收集的数据估计的非参数经验噪声模型，以弥合模拟与现实之间的感知和动态差异。
卡尔曼滤波器：用于融合视觉-惯性估计器和门检测器的估计，以获得更准确的机器人状态表示

创新点

自主导航系统Swift：首次实现了仅使用机载传感器和计算就能与人类世界冠军相媲美的无人机竞速系统。
模拟到现实的策略迁移：成功地将控制策略从模拟环境迁移到现实世界，即使在感知和动态存在差异的情况下也能保持高性能。
与人类冠军的直接对抗：Swift在真实世界的头对头比赛中与包括世界冠军在内的三位人类冠军进行了对抗，并取得了胜利。
高速动态环境中的实时决策：在高速和动态变化的环境中，Swift能够基于嘈杂和不完整的感官输入进行实时决策。
卡尔曼滤波器的应用：通过卡尔曼滤波器融合不同传感器数据，提高了状态估计的准确性，这对于高速飞行中的精确控制至关重要。

论文2：

Value-Based Reinforcement Learning for Digital Twins in Cloud Computing

基于价值的强化学习在云计算中的数字孪生应用

方法

数字孪生架构：采用包括单一主代理（PA）和一组感知代理（SAs）的数字孪生（DT）架构，通过无线信道与接入点（AP）通信，构建DT模型。
强化学习与信息价值算法：提出REinforcement learning and Variational Extended Kalman filter with Robust Belief (REVERB)框架，结合强化学习解决方案和基于信息价值的算法，执行最优控制并选择最具信息量的传感器。
优化问题公式化：构建一个优化问题，以有效调度感知代理，同时最小化能耗和满足延迟要求。

创新点

数字孪生动态变化跟踪：引入DT架构以跟踪系统参数的动态变化并控制系统动态。
不确定性控制强化学习框架：提出一个框架，在学习执行动作的同时控制状态不确定性估计。
新优化问题公式化：为在最小化能耗的同时，保持DT系统估计的信心，制定一个新的优化问题。
信息价值算法：提出基于信息价值的算法，实现在多项式时间内的实际和高效解决方案。

论文3：

KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty

KalMamba：提高强化学习在不确定性下的高效概率状态空间模型

方法

概率状态空间模型（SSMs）：提出KalMamba，一种结合概率SSMs与确定性SSMs扩展性的高效架构，利用Mamba学习线性高斯SSM的动态参数。
并行关联扫描：通过并行关联扫描实现标准卡尔曼滤波和平滑操作，以获得原则性、高效且可扩展的概率SSM。
变分推断：使用变分推断进行模型训练，以获得紧密的变分下界。

创新点

高效概率SSM架构：KalMamba结合了概率SSMs的不确定性感知能力和确定性SSMs的计算效率。
卡尔曼滤波和平滑：在潜在空间中使用（扩展）卡尔曼滤波和平滑进行推断，提高了计算效率，特别是在长交互序列上。
端到端模型训练：允许在高不确定性下使用平滑推断和紧密变分下界进行端到端模型训练。
时间并行计算：通过时间并行计算信念状态，KalMamba在模型学习和控制中实现了高效率。

论文4：

Multi-AGV Path Planning Method via Reinforcement Learning and Particle Filters

基于强化学习和粒子滤波器的多AGV路径规划方法

方法

粒子滤波器（PF）：利用粒子滤波器处理网络的不精确权重值，将其作为状态值来构建状态空间方程。
双重深度Q网络（DDQN）模型：通过神经网络和PF的迭代融合过程优化DDQN模型，以获得最优的真实权重值，提高算法的优化效率。
性能验证：通过不同的数值模拟验证所提方法的性能。

创新点

PF-DDQN方法：提出了一种新的多AGV路径规划方法PF-DDQN，通过结合PF和RL算法，解决了环境不稳定性导致的神经网络方差问题。
状态和观测变量的构建：将训练网络与环境噪声和目标网络的不准确权重作为状态和观测变量，构建系统的方程。
优化效率：通过神经网络和PF的迭代融合，连续更新神经网络权重，提高算法的收敛速度。
性能提升：模拟结果表明，所提出的方法在路径规划优越性和训练时间指标方面分别比传统DDQN算法提高了92.62%和76.88%。

标签：Nature,卡尔曼滤波,上大分,学习,算法,PF,强化,模型
From： https://blog.csdn.net/2401_88556812/article/details/143861440

相关文章

vue 实现电子签名 vue-signature-pad
vue-signature-padpc电子签名实例下载依赖//Vue2项目：安装vue-signature-pad的2.0.5版本。[email protected]//Vue3项目：安装最新版本的vue-signature-pad。npminstall--savevue-signature-pad全局引入vue3实例//main.jsim......
荣登Nature！持续学习（Continue Learning）取得最新突破
2024深度学习发论文&模型涨点之——持续学习Nature发了一篇《Lossofplastisityindeepcontinuallearning》文章介绍了一种创新的算法——持续反向传播（ContinualBackpropagation），该算法通过在每次迭代中随机重置一小部分较少使用的神经元来保持网络的塑性。这种方法通过......
linux新增物理卷，扩容逻辑分区，出现WARNING: xfs signature detected on /dev/vdb at of
linux新增物理卷出现WARNING:xfssignaturedetectedon/dev/vdbatoffset0.Wipeit?[y/n]:标识这个/dev/vdb磁盘已经从0位置被标记为xfs类型的文件系统报错解释：这条信息表示在设备/dev/vdb上检测到了XFS文件系统的签名。通常情况下，这可能意味着分区/dev/vdb已被......
2024 nature| 基于motif(模体)的药物相互作用预测——采用局部和全局自注意力机制
【声明：本文是采用模体结构和注意力机制进药物作用预测，抽象到理论可以看作在复杂网络上进行模体和结构的链路预测。文章出处如下】论文出处：https://www.nature.com/articles/s42256-024-00888-61.摘要：药物-药物相互作用（DDIs）是制药研究和临床应用中的重要问题，因为它们可能......
Nature Genetics | 基因组所周永锋团队建立葡萄全基因组选择育种体系
葡萄是一种具有重要经济价值的多年生水果作物，可作为水果食用或作为酿造葡萄酒的原材料，已有逾万年的驯化历史[1]，并且在驯化过程中积累了大量的有害突变[1-3]。由于育种周期长，育种性状的遗传学研究不深入，遗传转化体系不成熟，尚未广泛应用多组学与人工智能等革命性技术，葡萄的生物育种......
论文阅读Nature：Detecting hallucinations in large language models using semantic e
论文阅读-Nature：Detectinghallucinationsinlargelanguagemodelsusingsemanticentropy（使用语义熵来检测大模型中的幻觉）作者：SebastianFarquhar,JannikKossen,LorenzKuhn&YarinGal单位：牛津大学，计算机科学学院，OATML实验室期刊：Nature时间线：2023年7月提交→......
卡尔曼滤波器-Kalmen Filter
卡尔曼滤波器是一种最优递归数据处理算法，它更像是一种观测器，而不是一般意义上的滤波器。卡曼滤波器的应用非常广泛，尤其是在导航当中。它的广泛应用是因为我们生活的世界中存在着大量的不确定性，当我们去描述一个系统的时候，这个不确定性主要体现在三个方面不存......
Nature 正刊丨空间蛋白质组学确定JAKi是一种致命皮肤病的治疗方法
01摘要中毒性表皮坏死松解症（TEN）是一种由常见药物引发的致命药物性皮肤反应，是一个新出现的公共卫生问题1,2,3。TEN患者会因角质形成细胞死亡而发生严重和突然的表皮脱离。尽管已经提出了驱动角质形成细胞死亡的分子机制，但主要驱动因素仍然未知，TEN4,5,6没有有效的治疗方法。在......
中心差分卡尔曼滤波（CDKF）的MATLAB代码（三维非线性）
、CDKF三维滤波MATLAB实现目录主要特点应用场景运行结果部分代码程序架构本MATLAB程序实现了一种先进的三维状态滤波方法——协方差差分卡尔曼滤波（CDKF），专为需要精确定位和动态系统分析的用户设计。通过高效的滤波技术，显著减少噪声影响，确保系统在各种环境下的稳......
【状态估计】【雷达】基于扩展卡尔曼滤波的雷达目标跟踪融合研究（Matlab代码实现）
......

赞助商

阅读排行