-
作者:Jungdae Lee , Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Yutaka Matsuo, Nakamasa Inoue
-
单位:东京科学,东京大学,NII,ATR,京都大学AIP,京都大学,索尼半导体解决方案
-
原文链接:CITYNAV: LANGUAGE-GOAL AERIAL NAVIGATION DATASET WITH GEOGRAPHIC INFORMATION (https://arxiv.org/pdf/2406.14240)
-
代码链接:https://water-cookie.github.io/city-nav-proj/
主要贡献
-
开发了一个基于浏览器的在线3D飞行模拟器,并与Amazon Mechanical Turk(MTurk)集成,用于收集大规模的人类标注的飞行轨迹。
-
引入了CityNav数据集,最新的无人机空中导航数据集,包含32,637个语言目标描述和人类演示轨迹,利用了真实城市的3D扫描及其地理信息。
-
提供了一个MGP(Map-based Goal Predictor)基线方法,用于城市规模的空中导航,该方法利用语义地图解释文本和地理地标的语义类别。
-
证明了无论是在正常还是在具有挑战性的条件下,在结合人类驱动策略和地理信息时,可以显著提高城市规模空中导航的性能,。
研究背景
研究问题
论文主要解决的问题是如何在真实城市环境中通过视觉和语言提示引导自主智能体进行空中导航。尽管地面级导航取得了显著进展,但空中导航的探索仍然有限,主要原因在于缺乏适合实际城市规模的空中导航研究资源。
研究难点
该问题的研究难点包括:空中导航的3D空间广阔,现有数据集中缺乏真实的空中数据,导致模型在实际应用中的实用性受限。
相关工作
该问题的研究相关工作包括:
-
室内和室外环境下的视觉和语言导航数据集,但这些数据集大多针对地面级导航任务;
-
现有的空中导航研究数据集如AVDN和AerialVLN使用卫星图像和虚拟环境数据,缺乏真实性和复杂性。
数据集构建
论文提出了CityNav,一个针对语言引导的空中导航任务的数据集。
数据收集工具
-
使用了基于Web的三维飞行模拟器,该模拟器与Amazon Mechanical Turk (MTurk) 集成,用于收集人类演示轨迹。
-
模拟器利用Potree(一个开源的WebGL点云渲染器)在浏览器中直接渲染大规模三维场景。
数据收集接口
-
参与者通过MTurk界面操作飞行智能体,使用第一人称视角和详细的文本描述来搜索并导航到指定目标对象。
-
参与者需要在三维场景中找到目标对象,并在其正上方放置一个标记。当标记准确放置在目标附近时导航成功。
质量控制
-
初期数据收集阶段,排除了那些到达目标距离过远或未能移动智能体的参与者。
-
对于被丢弃的轨迹,进行了重新收集,但仍有部分轨迹因超过30米的距离阈值而被移除。
数据集分割
-
数据集分为四个部分:‘Train’、‘Validation Seen’、‘Validation Unseen’和‘Test Unseen’。
-
‘Validation Seen’与‘Train’共享场景,而‘Validation Unseen’和‘Test Unseen’则与Train’的场景完全不同。
数据集特点
- 规模
-
包含32,637条轨迹,对应约5,850个自然语言描述的对象,如建筑物和汽车。
-
是现有空中无人机视觉语言导航(VLN)数据集的四倍。
-
- 描述和轨迹
-
描述是高层次的,缺乏具体的逐步指导,使得任务更具挑战性和现实性。
-
轨迹是基于人类标注的,利用真实城市的3D扫描和地理信息。
-
- 地理信息
-
数据集利用了CityRefer数据集的地理注释和CityRefer数据集的3D地图。
-
提供了一个基于地图的基线方法,利用语义地图解释文本和地理地标的语义类别。
-
实验设计
评估指标
评估指标包括导航误差(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。
-
NE衡量从目标到停止点的距离,
-
SR计算成功停止在目标20米内的比例,
-
OSR统计轨迹与目标20米内的次数,
-
SPL结合成功率和路径长度,奖励更短高效的路线。
基线模型
-
Random作为非学习基线
-
Seq2Seq使用循环策略预测动作
-
CMA通过跨模态注意力机制增强决策过程
- 本文提出的MGP(Map-based Goal Predictor)则利用地图信息进行目标预测:
-
使用GPT-3.5 Turbo提取目标、地标及周边环境的名称;
-
用GroundingDINO和Mobile-SAM进行目标检测和分割;
-
可选地使用LLaVA-1.6-34b进行坐标细化。
-
结果与分析
总体性能
MGP模型在使用导航地图的情况下,在所有评估数据集上的表现均优于其他模型。然而,人类手动导航的表现优于所有智能体模型,表明CityNav任务需要更复杂的规划和高级的空间推理能力。
最短路径与人类演示
使用人类演示轨迹训练的MGP模型表现优于使用最短路径轨迹训练的模型,表明导航地图显著增强了模型解释指令与人类演示之间复杂关系的能力。
难度分级
在不同难度级别的评估中,未使用地图的模型在中等和困难级别上的表现较差,而MGP模型和人类导航器在所有难度级别上表现一致,突显了地理信息在增强空中VLN任务有效性中的关键作用。
人类演示数量的影响
增加人类演示数量显著提高了导航性能,而增加最短路径轨迹数量则未带来一致的性能提升,表明人类标注数据在改进空中VLN任务中的价值。
消融研究
移除地标地图后,成功率骤降至0.47%,验证了将描述中的命名对象整合到空间2D地图中的重要性。而目标和周边环境地图对性能的提升贡献较小。
总结
论文介绍了CityNav,一个城市规模的空中视觉语言导航数据集,包含了32,637个描述和人类标注的轨迹,为基准测试和开发先进的智能空中智能体提供了宝贵的资源。
通过实验验证,提出的MGP模型显著提高了导航性能,并在具有挑战的条件下保持了鲁棒性。尽管如此,CityNav任务仍需要更复杂的规划和高级的空间推理能力。
标签:空中,地理信息,轨迹,数据,arXiv,具身,人类,导航 From: https://blog.csdn.net/weixin_37990186/article/details/144474816