IROS 2023|CSIRO与昆士兰科技大学发布自然环境中的深度鲁棒多机器人重定位
【Deep Robust Multi-Robot Re-localisation in Natural Environments】
文章链接:[2307.13950] Deep Robust Multi-Robot Re-localisati...
自然环境中的深度鲁棒多机器人重定位
Deep Robust Multi-Robot Re-localisation in Natural Environments
摘要:重新定位的成功对于在先前地图内操作或在现实场景中相互关联的机器人的实际部署具有至关重要的影响。使用单一模式,在森林等具有挑战性的环境中,地点识别和定位可能会受到影响。为了解决这个问题,我们提出了一种使用激光雷达图像跨模态来防止基于激光雷达的重新定位失败的策略。我们的解决方案依靠自我监督的 2D-3D 特征匹配来预测对齐和错位。利用深度网络进行激光雷达特征提取和点云之间的相对姿态估计,我们训练一个模型来评估估计的变换。通过分析嵌入空间中的图像-激光雷达相似性以及欧几里得空间中两种模态所见区域内可用的几何约束,学习预测是否存在未对准的模型。使用真实数据集(离线和在线模式)的实验结果证明了所提出的pipeline在非结构化自然环境中稳健重新定位的有效性。
I. 简介
机器人技术中的(重新)定位是指在先前绘制的已知环境中确定机器人当前姿态(位置和方向)的过程。这项任务对于机器人无缝执行操作至关重要,即使它们在跟踪其位置时遇到暂时困难。例如,“唤醒”问题涉及机器人在关闭或断电后需要确定其位置。尽管依赖视觉[1]-[4]或激光雷达数据[5]-[8]的基于学习的重新定位方法取得了重大进展,但设计强大且可靠的重新定位技术仍然是一个挑战,特别是在非结构化领域。 ,自然环境。这种环境缺乏鲜明的特征,并且由于植被生长和天气条件而随着时间的推移而变化,影响了重新定位的稳健性[9]。
由于激光雷达和图像的固有局限性,依靠单一模态进行重新定位很难提取适当的特征(在复杂的自然场景中)。为了解决这个问题,我们建议集成一个自监督的图像到激光雷达特征匹配过程,以预测由位置识别、姿态估计和假设验证三个模块组成的pipeline中的重新定位失败,每个模块都利用学习方法。对于位置识别和姿态估计模块,我们使用 EgoNN [10],一个端到端深度重定位网络。借助我们的激光雷达 SLAM 系统,即 Wildcat [11],我们生成激光雷达子图和姿态图,其中包含机器人节点和几何信息,并将它们存储在数据库中。 EgoNN 在 Wildcat 子图上进行离线训练。在推理时,通过将查询子图与数据库中的子图进行比较,使用预训练网络进行重新定位。一旦估计了查询子图和顶部候选子图之间的相对位姿(图1),所提出的假设验证模块就会通过与查询子图和顶部同时捕获的图像之间的跨模态比较来评估变换的正确性-候选子图。实验结果证明了所提出的pipeline在实现准确重新定位方面的有效性。
这项工作的主要贡献可概括如下:
• 我们建议集成自监督图像到激光雷达特征匹配过程来预测重新定位失败。
• 我们提出了深度重新定位方法(R3Loc)的完整流程来解决多机器人重新定位问题。
• 我们在离线的大规模自然数据集和在线真实机器人的类似森林的环境中展示了我们的pipeline的有效性。
图 1:顶部:重访会话中的机器人(位置由 RGB 轴和黄色查询子图表示)在初始会话生成的位姿图地图内重新定位。重新定位仅基于由子节点(灰色)框架组成的根节点(绿色)完成。底部:接受估计的相对变换后,最近的节点将合并到现有的位姿图地图中,允许重访会话机器人继续剩余的任务。每个网格单元的面积为 50 平方米。二.相关工作
本节回顾现有的激光雷达位置识别(LPR)算法并讨论现有的重新定位研究。最后,回顾了跨模态 PR 和配准中与图像激光雷达模态感知相关的工作。
A. 基于激光雷达的定位
人们已经为 LPR 提出了一系列算法。传统方法[12]-[16]将点云编码为表示整个点云的全局描述符或通过将点云分割成补丁来将点云编码为多个局部描述符。然而,这些手工方法通常依赖于旋转,并且不能有效地为非结构化环境生成判别描述符。
Deep LPR在过去几年中表现出了出色的成果。这些方法通过深度神经网络处理点云以提取局部特征。特征要么直接用于地点识别,例如[17]、[18]中的工作,要么使用一阶池化技术进行聚合,例如GeM [19]、NetVLAD [20]或[7]中使用的二阶池化],[21],生成点云的全局描述符[5]-[8],[22]。 EgoNN [10] 和 LCDNet [23] 等方法在位置识别时估计两个点云之间的相对姿态。 EgoNN 计算关键点坐标、局部描述符和局部头部的显着性。随后,它通过匹配关键点并使用 RANSAC 删除异常值来估计查询点云和顶级候选点云之间的 6DoF 相对变换。 LCDNet 利用最佳传输 (OT) 理论端到端地训练局部特征来匹配特征,并最终使用奇异值分解 (SVD) 估计相对姿态,从而使整个pipeline可微分,因此可学习。然而,在测试时,LCDNet 采用 RANSAC 进行相对姿态估计,在自然环境中容易出现发散。 SpectralGV [24] 专注于对 top-k 检索候选者进行重新排序,引入了一种计算高效的光谱重新排序方法来改进定位。
B. 跨模态定位
有一些与 PR 相关的工作,旨在通过利用激光雷达扫描和在同一地点捕获的图像来增强地点识别。 [25]-[27]等作品在多模态融合的早期阶段集成了激光雷达和视觉测量,使用投影技术将它们编码成全局描述符;然而,以尺寸损失为代价。相比之下,[28]-[30]等作品将激光雷达和视觉数据分别编码(后期融合)到图像和点云嵌入中,然后将它们聚合以创建双峰全局描述符。为了处理光照条件(影响图像特征的质量),AdaFusion [31] 采用了一种注意机制,避免在图像质量难以识别时将两种模式视为同等重要,反之亦然。
在计算机视觉领域,I2P [32] 和 2D3DMatchNet [33] 等工作已被提出,重点关注图像到激光雷达的配准。 I2P 训练网络通过分类和逆相机投影两个步骤来估计一对图像和点云之间的位姿。 I2P 使用注意力机制对相机视锥体内外的激光雷达点进行分类。它使用逆相机投影和分类预测来优化激光雷达框架中的姿态。 2D3D-MatchNet 在三元组损失(锚定图像、正点云和负点云)中学习 2D 图像和 3D 点云描述符,因为相似的图像激光雷达描述符被推近,而负对被推开。最近,SLidR [34]提出基于 2D 图像上的局部相似区域及其相应的 3D 补丁获得知识蒸馏来查找点云和图像对之间的相似性。
三. (R3LOC):深度稳健的多机器人重新定位
我们的目标是根据车队在初始会话中生成的先前(参考)地图,提高重访会话中机器人(重新)定位的鲁棒性和可靠性机器人在非结构化的自然环境中的应用。
我们之前的地图是由 Wildcat SLAM [11] 创建的,是一个姿态图 G = (V, E),由机器人的姿态(节点)V ∈ R6 和其间的边 E ∈ SE(3) 组成。简而言之,Wildcat 将激光雷达和惯性测量集成到滑动窗口定位和绘图模块中。该模块使用连续时间轨迹表示来减少运动引起的地图失真。未失真的子图进一步用于位姿图优化,以消除环路闭合时的漂移。生成的子图 Si, i ∈ {1, ..., n} 也存储在先验图中。更多详细信息可以在 Wildcat 论文 [11] 及其参考文献中找到。
在从重访会话生成新的子地图(即查询点云 Sq)后,将形成一个深度激光雷达 PR 网络,如第 2 节所述。 III-A,用于使用相似性度量将 Sq 与先前图的所有子图 Si 进行比较,以找到顶部候选 St1。子图 Sq 和 St1 之间的初始相对位姿 Tt1,q ∈ SE(3) 通过 RANSAC [35] 使用相应的关键点(参见第 III-A 节)进一步估计。这个最初的猜测后来通过 ICP(一种 3D 形状配准的迭代算法)进行了改进 [36]。然而,在使用之前需要对其进行评估,以将新节点合并到位姿图中。误报边缘可能会导致生成较差的轨迹或 SLAM 中的优化失败。
为了健全性检查细化的相对位姿,我们提出了查询图像 Iq ∈ R3×W ×H(W 和 H 是图像宽度和高度)之间的比较,即与点云 Sq 同时获得的图像,和使用估计的相对位姿的点云 St1。为此,我们训练一个自监督网络来检测 2D 和 3D 对应特征并研究 PR 输出的正确性。此外,我们使用相对姿态将 St1 的 3D 关键点投影到图像 Iq 上,以检查图像-激光雷达对应关系是否落在图像的同一区域。如果是这样,相对位姿将传递给 SLAM 系统将新边 Et1,q 合并到位姿图(先前图)中。否则,我们拒绝相对姿势。秒。 III-B 详细说明了假设验证。图 2 概述了我们的 R3Loc pipeline、其组件以及它们之间的关系。
图 2:所提出的深度鲁棒多机器人重定位系统 (R3Loc) 的框图。
A. 深度重定位模块
我们的深度重定位模块基于 EgoNN [10]。使用轻型 3D CNN 网络,EgoNN 训练全局描述符 dG ∈ R256 和几个局部嵌入 dLt ∈ R128,其中 t ∈ {1, ..., M } 是 USIP [37] 检测到的每个点中的关键点数量云。全局描述符是利用 GeM 池化 [19] 的全局头中特征图 FG ∈ RK×128 元素的聚合。 K是全局头部中局部特征的数量。通过处理局部特征图 FL ∈ RM×64 的元素,在局部头中生成关键点描述符。使用两层多层感知器(MLP)和 tanh 函数模块来计算每个点云中的局部嵌入坐标。全局描述符用于 PR,而局部描述符用于本地化。
B.深度假设验证
为了接受或拒绝重定位模块的输出,我们利用跨模态感知来比较在查询点云Sq时捕获的图像Iq和重定位模块估计的顶级候选点云St1 。为此,需要使用本地分支估计的相对姿态 Tt1,q 将顶部候选投影到查询图像上。如果姿态估计正确,则投影点必须与其相应的图像像素重叠。为了评估这一点,必须提取并匹配相应的 2D 和 3D 特征。
然而,由于其稀疏性,诸如[38]之类的手工方法不适合激光雷达点云上的特征提取,也不适合检测图像上的相似特征以建立精确的点到像素匹配。逐点深度特征描述符,例如[32]、[33],尽管优于传统技术,但在存在遮挡或运动模糊的情况下可能会受到影响,这在机器人技术中是不可避免的。因此,我们利用一种称为超像素驱动激光雷达表示(SLidR)[34]的深度图像到激光雷达自监督蒸馏方法,它将一组像素与一组点联系起来。
SLidR 使用视觉特征训练 3D 点表示,以进行语义分割和对象检测。跨模态表示学习的动机是带注释的 3D 点数据的稀缺性和图像标签的丰富性。 SLidR 将特征知识从超像素(即具有视觉相似性的图像区域)传输到超点(即通过超像素反投影分割的点组)。使用 SLIC [39] 将图像 Iq 分割为最多 250 个超像素。重要的是,SLidR 不需要数据标签来预训练 3D 网络。给定同步激光雷达和相机数据流以及校准参数,SLidR 提取超像素及其相应超点的特征。从使用 [40] 训练的预训练 ResNet-50 主干中提取的 2D 特征,用作训练 3D 稀疏残差 U-Net 主干 [41] 的监督信号,使用对比损失来对齐池化 3D 点和 2D 像素特征。
使用 SLidR,我们的方法使用余弦相似度比较超像素 spIq i 的提取特征(其中 i 是图像 Iq 中的超像素数量)与超点 spSt1 j 的提取特征(其中 j 是点云 St1 中的超点数量):
这里f和g分别表示平均池化后的超像素和超点特征。符号⟨.、.⟩表示内积,∥.∥ L2范数。
现在,我们定义两个度量,一个在特征空间中,一个在欧几里得空间中,以接受或拒绝重新定位。首先,我们使用相应的超像素和超点特征的平均余弦相似度(MCS),即 1 L P i=j csij 来判断点云 Sq 和 St1 是否代表同一个地方。 L 是根据等式计算的相似性矩阵主对角线上的超像素-超点对的总数。 (1).低 MCS 值是我们的重新定位模块出现误报案例的指标。
其次,为了评估 EgoNN 估计的相对姿势的准确性,我们为每个超像素 spIq 识别前 5 个候选超点,表示为 spSt1 @5。我们将这些前 5 个超级点 spSt1 @5 中每一个的质心投影到图像 Iq 上。我们找到投影质心最接近 spIq 质心的超点 spSt1 c ,并选择它作为 spIq 的对。我们检查是否spSt1 c 的投影质心落在 spIq 范围内,如果落在 spIq 范围内,我们将其视为匹配,否则视为不匹配。我们计算整个对集中超像素-超点不匹配对的百分比,以确定是拒绝还是接受重新定位。然后我们定义对齐比如下:
其中 n 是根据上述过程计算出的超像素-超点不匹配对的数量。定义两个相似性和对齐度量,我们训练一个简单的多类支持向量分类器(SVC),yi = K(MCSi, νi),来预测对 i 是否属于匹配、不匹配或不匹配类别,其中 yi ∈ {matched ,不匹配,不匹配}。
四.实验结果
在本节中,我们提出以下结果:在大规模自然数据集 Wild-Places [9](由 Venman 和 Karawatha 序列组成)上评估重定位模块及其与 Scan Context [12] 的比较(作为一种与激光雷达 SLAM 广泛集成的手工 PR 方法),在同一数据集上评估跨模式定位。最后,我们在机器人系统的唤醒问题场景中评估整个提议的 R3Loc 流程。 EgoNN 和 SLidR 均在 Wild-Places 数据集上进行训练。对于 EgoNN,我们遵循[9]中描述的训练分割。然而,为了进行测试,我们在相反方向收集的两个 Venman 序列上评估了模型。当在重访会话中操作的机器人在相反方向生成的先前地图内行进时,这种序列间 PR 评估模拟了唤醒问题。按照默认设置,使用相同的序列来评估扫描上下文。为了进行评估,当预测与肯定的基本事实相差 3 m 以内时,我们定义为真正的肯定重访。
对于 SLidR,我们使用来自 Venman 的一个序列上约 1750 个匹配的激光雷达图像对(同时捕获的图像对)来训练和验证网络。我们从验证部分创建了三个测试集,通过增强图像和点云之间的相对变换来创建匹配和不匹配的对,并通过随机配对在不同位置捕获的图像和点云来获得不匹配的对。这允许针对三种最常见的 EgoNN 输出情况测试 SLidR。我们还在澳大利亚布里斯班昆士兰先进技术中心 (QCAT) 非结构化区域收集的新数据集上测试了拟议的验证pipeline。
A. EgoNN 离线评估
图 3 显示了 EgoNN 和 Scan Context 之间的 top-K Recall 曲线。如图所示,EgoNN 的性能几乎比 Scan Context 高出两倍,这表明 Scan Context 在森林等杂乱环境中生成独特且旋转不变的描述符的局限性。为了评估重定位精度,我们将估计的相对变换与地面实况进行比较,并计算旋转和平移误差分别在 5° 和 2 m 以内的成功率。由于该方法无法仅根据全局描述符来估计 6DoF 旋转和平移,因此未针对扫描上下文执行此评估。当仅使用关键点和通过 RANSAC 估计相对变换时,EgoNN 的成功率约为 40%。然而,在使用 ICP 改进估计变换后(我们将点云下采样到 40 厘米空间分辨率以进行在线配准),成功率增加到 78%。这表明,尽管 EgoNN 在地点识别方面取得了高性能,但提取的关键点在非结构化环境中并不能很好地重复以实现准确的重新定位。
图 3:EgoNN 和 Scan Context 之间的 Recall@K 性能。
B.SLidR 离线评估
图4 分别示出了顶行、中行和底行中匹配、不匹配和不匹配对的示例。如图所示,相似性矩阵(第二列)和投影向量(第三列)是从第 2 节中描述的过程获得的。 III-B 是区分匹配、不匹配和不匹配对的良好措施。图 5 显示了验证集上大约 250 个匹配对和 230 个不匹配和不匹配对(总共超过 700 对)计算的 MCS 和 ν 的箱线图。不匹配和匹配/不匹配对之间 MCS 的显着差异允许以高置信度对不匹配的进行分类。此外,匹配对的大 ν 有助于将它们与其他对进行分类。然而,我们观察到如果 MSC 和 ν 一起使用,当训练和测试环境不同时,它可以提高泛化能力。因此,我们训练了一个多类五次多项式 SVC 模型 K(MCS, ν) 来预测一对是否属于匹配、不匹配或不匹配的类别。
图 4:匹配(上)、不匹配(中)和不匹配(下)对的示例。从左到右:图像上的投影点、超点-超像素相似度矩阵、基于相似度矩阵中顶部候选的投影误差向量。当图像和点云在同一位置捕获时,我们提出的验证指标,即平均余弦相似度(MCS)和对齐比(ν)(通过第III-B节中描述的过程计算)用于识别真实的/假阳性 PR 并相应地预测重新定位成功或失败。
C. 整个pipeline的在线评估
为了评估我们的pipeline,配备了激光雷达传感器和四个摄像头的履带式机器人(如图 2 所示)在非结构化区域中进行了远程操作,一次作为初始会话,一次作为重访QCAT 会议。两个会话之间的时间差被合理地选择得较大,使我们能够评估在各种照明条件下的验证性能。对于跨模态感知,我们仅使用前置摄像头的相机帧。子地图是由Wildcat生成,机器人操作系统(ROS)用于不同组件之间的通信。我们的重新定位pipeline是通过 rosservice 命令触发的。在请求重新定位时,查询子图和先前地图中存在的子图被输入到已经训练好的 EgoNN 模型中。通过使用权重执行前向传递并受益于 kdtree,选择了最佳候选并估计了相对姿态。由于 PR 仅基于根节点执行,因此初始会话的先前地图中最多有 20 个子地图。为了彻底测试pipeline,回放重访会话的记录数据,并为生成的每个根节点请求重新定位,导致测试整个pipeline 20 次(即 20 个“唤醒”位置)。经过这个过程,EgoNN 的平均 Recall@1 为 100%。然而,重定位的成功率为70%,证明了假设验证的必要性。
位姿估计不会转移到我们的激光雷达惯性SLAM除非通过假设验证。为此,顶级候选子图和查询图像(已经纠正)被输入到我们预先训练的验证模型中。对于 QCAT 数据集,经过 20 次试验,所提出的假设验证检测到了 EgoNN 无法生成准确姿态估计的所有不匹配对。图 6 显示了匹配(顶部)和不匹配(底部)场景的示例。所提出的验证管道,包括预训练的特征匹配和 SVC 模型 K,成功地分离了这些情况并检测到重新定位失败。
图 6:QCAT 数据集中重新定位成功(顶部)和失败(底部)的情况。
经过验证的重新定位后,重访会话生成的位姿图将安全地合并到现有地图中,如图 7 所示。图 8 显示了将重访会话机器人合并到初始会话生成的地图中后的定性结果,证明多智能体重新定位的拟议管道可行性。
图 7:重新定位示例。当机器人(来自重访会话)在已知环境(从初始会话生成的地图)(左)中移动时,成功重新定位(中)后,当前姿态图将合并到先前的地图中(右) ,允许机器人根据先前的地图进行操作,以恢复未完成的任务。
图 8:多智能体重新定位。我们的系统可用于合并由在环境中同时运行的各个代理(以红色和绿色显示的路径)创建的姿势图。
D. 运行时分析
为了证明我们提出的系统可以在线运行,我们评估了每个组件的计算时间。计时结果是通过在单个 NVIDIA Quadro T2000 GPU 上运行预训练模型以及在具有 Intel Xeon W-10885M CPU 的单元上运行其余管道来收集的。表 IV-D 报告了我们管道中各个模块的运行时间细目。总的运行时间(对于图1所示规模的QCAT实验)不到一秒,允许系统运行在线操作。
五、结论
这项工作介绍了一个强大的多机器人重新定位系统。我们的重新定位流程受益于深度激光雷达表示的位置识别和姿态估计。使用自监督图像到激光雷达知识蒸馏来推理查询点云与顶级候选点云同时捕获的图像之间的对齐情况。该系统的模块在大规模公共数据集上进行了单独测试,并且与我们的激光雷达 SLAM 系统集成的整个管道已在唤醒案例场景中进行了在线测试。未来,我们将进一步研究如何通过端到端的表示学习来提高跨模态感知,包括在非结构化环境中用于超像素创建的图像分割和验证模型。
标签:定位,Multi,匹配,EgoNN,Robot,图像,点云,Natural,激光雷达 From: https://www.cnblogs.com/Gaowaly/p/18508182