首页 > 其他分享 >arXiv-2024 | 具身智能体要上天!CITYNAV:基于地理信息的无人机视觉语言导航数据集

arXiv-2024 | 具身智能体要上天!CITYNAV:基于地理信息的无人机视觉语言导航数据集

时间:2024-12-14 19:32:34浏览次数:7  
标签:空中 地理信息 轨迹 数据 arXiv 具身 人类 导航

  • 作者:Jungdae Lee , Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Yutaka Matsuo, Nakamasa Inoue

  • 单位:东京科学,东京大学,NII,ATR,京都大学AIP,京都大学,索尼半导体解决方案

  • 原文链接:CITYNAV: LANGUAGE-GOAL AERIAL NAVIGATION DATASET WITH GEOGRAPHIC INFORMATION (https://arxiv.org/pdf/2406.14240)

  • 代码链接:https://water-cookie.github.io/city-nav-proj/

主要贡献

  • 开发了一个基于浏览器的在线3D飞行模拟器,并与Amazon Mechanical Turk(MTurk)集成,用于收集大规模的人类标注的飞行轨迹。

  • 引入了CityNav数据集,最新的无人机空中导航数据集,包含32,637个语言目标描述和人类演示轨迹,利用了真实城市的3D扫描及其地理信息。

  • 提供了一个MGP(Map-based Goal Predictor)基线方法,用于城市规模的空中导航,该方法利用语义地图解释文本和地理地标的语义类别。

  • 证明了无论是在正常还是在具有挑战性的条件下,在结合人类驱动策略和地理信息时,可以显著提高城市规模空中导航的性能,。

研究背景

研究问题

论文主要解决的问题是如何在真实城市环境中通过视觉和语言提示引导自主智能体进行空中导航。尽管地面级导航取得了显著进展,但空中导航的探索仍然有限,主要原因在于缺乏适合实际城市规模的空中导航研究资源。

研究难点

该问题的研究难点包括:空中导航的3D空间广阔,现有数据集中缺乏真实的空中数据,导致模型在实际应用中的实用性受限。

相关工作

该问题的研究相关工作包括:

  • 室内和室外环境下的视觉和语言导航数据集,但这些数据集大多针对地面级导航任务;

  • 现有的空中导航研究数据集如AVDN和AerialVLN使用卫星图像和虚拟环境数据,缺乏真实性和复杂性。

数据集构建

论文提出了CityNav,一个针对语言引导的空中导航任务的数据集。

数据收集工具

  • 使用了基于Web的三维飞行模拟器,该模拟器与Amazon Mechanical Turk (MTurk) 集成,用于收集人类演示轨迹。

  • 模拟器利用Potree(一个开源的WebGL点云渲染器)在浏览器中直接渲染大规模三维场景。

数据收集接口

  • 参与者通过MTurk界面操作飞行智能体,使用第一人称视角和详细的文本描述来搜索并导航到指定目标对象。

  • 参与者需要在三维场景中找到目标对象,并在其正上方放置一个标记。当标记准确放置在目标附近时导航成功。

质量控制

  • 初期数据收集阶段,排除了那些到达目标距离过远或未能移动智能体的参与者。

  • 对于被丢弃的轨迹,进行了重新收集,但仍有部分轨迹因超过30米的距离阈值而被移除。

数据集分割

  • 数据集分为四个部分:‘Train’、‘Validation Seen’、‘Validation Unseen’和‘Test Unseen’。

  • ‘Validation Seen’与‘Train’共享场景,而‘Validation Unseen’和‘Test Unseen’则与Train’的场景完全不同。

数据集特点

  • 规模
    • 包含32,637条轨迹,对应约5,850个自然语言描述的对象,如建筑物和汽车。

    • 是现有空中无人机视觉语言导航(VLN)数据集的四倍。

  • 描述和轨迹
    • 描述是高层次的,缺乏具体的逐步指导,使得任务更具挑战性和现实性。

    • 轨迹是基于人类标注的,利用真实城市的3D扫描和地理信息。

  • 地理信息
    • 数据集利用了CityRefer数据集的地理注释和CityRefer数据集的3D地图。

    • 提供了一个基于地图的基线方法,利用语义地图解释文本和地理地标的语义类别。

实验设计

评估指标

评估指标包括导航误差(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。

  • NE衡量从目标到停止点的距离,

  • SR计算成功停止在目标20米内的比例,

  • OSR统计轨迹与目标20米内的次数,

  • SPL结合成功率和路径长度,奖励更短高效的路线。

基线模型

  • Random作为非学习基线

  • Seq2Seq使用循环策略预测动作

  • CMA通过跨模态注意力机制增强决策过程

  • 本文提出的MGP(Map-based Goal Predictor)则利用地图信息进行目标预测:
    • 使用GPT-3.5 Turbo提取目标、地标及周边环境的名称;

    • 用GroundingDINO和Mobile-SAM进行目标检测和分割;

    • 可选地使用LLaVA-1.6-34b进行坐标细化。

结果与分析

总体性能

MGP模型在使用导航地图的情况下,在所有评估数据集上的表现均优于其他模型。然而,人类手动导航的表现优于所有智能体模型,表明CityNav任务需要更复杂的规划和高级的空间推理能力。

最短路径与人类演示

使用人类演示轨迹训练的MGP模型表现优于使用最短路径轨迹训练的模型,表明导航地图显著增强了模型解释指令与人类演示之间复杂关系的能力。

难度分级

在不同难度级别的评估中,未使用地图的模型在中等和困难级别上的表现较差,而MGP模型和人类导航器在所有难度级别上表现一致,突显了地理信息在增强空中VLN任务有效性中的关键作用。

人类演示数量的影响

增加人类演示数量显著提高了导航性能,而增加最短路径轨迹数量则未带来一致的性能提升,表明人类标注数据在改进空中VLN任务中的价值。

消融研究

移除地标地图后,成功率骤降至0.47%,验证了将描述中的命名对象整合到空间2D地图中的重要性。而目标和周边环境地图对性能的提升贡献较小。

总结

论文介绍了CityNav,一个城市规模的空中视觉语言导航数据集,包含了32,637个描述和人类标注的轨迹,为基准测试和开发先进的智能空中智能体提供了宝贵的资源。

通过实验验证,提出的MGP模型显著提高了导航性能,并在具有挑战的条件下保持了鲁棒性。尽管如此,CityNav任务仍需要更复杂的规划和高级的空间推理能力。

标签:空中,地理信息,轨迹,数据,arXiv,具身,人类,导航
From: https://blog.csdn.net/weixin_37990186/article/details/144474816

相关文章

  • 项目管理中的范围管理:应对地理信息测绘项目的挑战
    作为一名IT公司的软件项目经理,我近期负责了一个地理信息测绘项目的开发工作。这个项目旨在为客户提供高精度的地理测绘服务,帮助他们在城市规划、环境监测和灾害预警等领域做出科学决策。然而,在项目中期,我们遇到了一个棘手的问题:需求频繁变更,导致项目范围不断扩大,即所谓的“范围蔓......
  • 项目质量管理:应对地理信息测绘项目的挑战
    作为IT公司的一名软件项目经理,我近期正负责一个地理信息测绘项目的开发工作。该项目旨在为客户提供精确、可靠的地理信息数据,助力其在城市规划、环境监测等领域做出科学决策。然而,在项目中期,我们遭遇了两个重大挑战:一是遇到了一个技术难题,二是经验丰富的开发人员突然离职。这两个......
  • 地理信息测绘项目中的资源管理:挑战与对策
    在IT项目管理领域,特别是在地理信息测绘这类技术密集型的项目中,资源管理是一项至关重要的任务。然而,在项目中期,我们面临了人员流动大、小组成员能力不足的问题,这对项目的进度和质量构成了严峻挑战。作为项目经理,我深刻认识到,有效运用PMP(ProjectManagementProfessional)资......
  • 项目进度管理:确保地理信息测绘项目按时完成
    作为IT公司的一名软件项目经理,我负责开发一个地理信息测绘项目。然而,在项目中期,我们遇到了一个技术难题,同时经验丰富的开发人员离职,导致项目进度落后,存在延期的风险。面对这样的挑战,我深刻体会到项目进度管理的重要性。本文将结合PMP(项目管理专业人士)进度管理的知识和技能,详细介绍......
  • 地理信息测绘项目的成本管理:应对技术挑战与需求变更
    作为IT公司的一名软件项目经理,我正在负责一个地理信息测绘项目的开发工作。然而,在项目中期,我们遇到了一个棘手的技术问题,同时客户的需求也频繁变更,这导致我们的项目成本不断攀升,出现了成本超支的现象,项目延期风险也随之增加。在这样的背景下,我深刻认识到成本管理在项目管理中的重......
  • 【大模型应用开发 动手做AI Agent】具身智能的实现
    【大模型应用开发动手做AIAgent】具身智能的实现关键词:大模型、AIAgent、具身智能、应用开发、深度学习、自然语言处理、计算机视觉、人机交互、机器人控制摘要:本文将探讨大模型在具身智能中的应用,通过动手实践构建一个AIAgent。文章首先介绍了大模型的基本概念和特......
  • 突破空间限制!从2D到3D:北大等开源Lift3D,助力精准具身智能操作!
    文章链接:https://arxiv.org/pdf/2411.18623项目链接:https://lift3d-web.github.io/亮点直击提出了Lift3D,通过系统地提升隐式和显式的3D机器人表示,提升2D基础模型,构建一个3D操作策略。对于隐式3D机器人表示,设计了一个任务感知的MAE(MaskedAutoencoder),它掩盖了任务相关......
  • 自动驾驶行业精英,正疯狂涌入具身智能赛道!
    近日,又有多位自动驾驶领域技术大佬被爆出入局具身智能(大模型和人形机器人)赛道,包括:智驾芯片上市公司【地平线】创始成员、副总裁、前软件平台产品线总裁余轶南(博士)离职,已进入具身智能领域创业;前【小米汽车】自动驾驶产品技术负责人和量产负责人刘方已成立具身智能概念公司(9月注......
  • “泡沫”催生行业“繁荣”,切入具身智能赛道正当时!!
    特斯拉入局人形机器人赛道和人工智能、大模型技术突破性进展催生了本身具身智能浪潮。具身智能领域初创公司主要分三类:专注于具身智能大模型(机器人通用大脑)、人形机器人本体(本体+小脑)和两者同时涉及(占少数)。人形机器人大致分为三大部分:人形本体、高动态性能的控制算法(小脑)、......
  • 具身智能中的sim2real的gap是什么?
    ●Sim2Realgap-Thedomaingapbetweensimulateddataandrealworlddata●Modelstrainedinsimulationwithoutproperconfigurationsfailintherealworld●Theappearancegapistheinabilitytomakesimulatedimagesexactlyreplicatewhatthere......