首页 > 其他分享 >西工大经典力作!AerialVLN:空中无人机视觉语言导航数据集

西工大经典力作!AerialVLN:空中无人机视觉语言导航数据集

时间:2024-12-15 10:30:31浏览次数:12  
标签:模型 路径 西工大 力作 AerialVLN 无人机 导航 前瞻

  • 作者:Shubo Liu, Hongsheng Zhang, Yuankai Qi, Peng Wang, Yanning Zhang, Qi Wu

  • 单位:西北工业大学,阿德莱德大学

  • 原文链接:AerialVLN: Vision-and-Language Navigation for UAVs (https://openaccess.thecvf.com/content/ICCV2023/papers/Liu_AerialVLN_Vision-and-Language_Navigation_for_UAVs_ICCV_2023_paper.pdf)

  • 代码链接:https://github.com/AirVLN/AirVLN

主要贡献

  • 论文提出了AerialVLN任务,允许智能体在四自由度(前向、左转/右转、上升/下降、左移/右移)中移动,更接近真实的无人机飞行行为。

  • 开发了包含25个城市级场景的模拟器,支持连续导航和环境扩展配置,能够模拟动态的户外环境,如风吹树叶、车辆运行、光照变化等。

  • 收集了8,446条飞行路径和相应的自然语言指令,数据集规模大且多样性强。平均路径长度为661.8米,远长于地面VLN任务的路径长度。

  • 提出了前瞻指导(Look-ahead Guidance,LAG)策略,通过生成“前瞻”路径来改进模型的性能。每个子路径与其子指令对齐,实现了细粒度的跨模态匹配学习。

研究背景

研究问题

论文主要解决的问题是如何在无人机(UAV)上进行视觉语言导航。现有的视觉语言导航(VLN)任务主要针对地面上的智能体,而忽略了无人机在空中导航的应用场景。

研究难点

该问题的研究难点包括:

  • 无人机导航需要考虑飞行高度和更复杂的空间关系推理。

  • 无人机导航的环境更大且更复杂,涵盖多种城市级场景。

  • 无人机导航的路径比地面VLN更长,平均路径长度为661.8米。

  • 智能体需要学习在三维空间中躲避障碍物。

相关工作

该问题的研究相关工作有:

  • UAV导航:早期的UAV自主导航需要解决感知、映射、定位、决策、动作分解和控制等挑战。

  • 地面VLN任务:如R2R、RxR、REVERIE、TouchDown等,这些任务主要针对地面上的智能体,无法反映无人机在空中导航的挑战。

研究方法

论文提出了AerialVLN任务,用于解决无人机在空中进行视觉语言导航的问题。

任务定义

AerialVLN任务要求智能体(多旋翼无人机)通过自然语言指令和其第一人称视角的视觉感知,从起点飞到终点。

任务不提供预建的导航图,任何未被物体占据的点都是可导航的。

模拟器

使用Unreal Engine 4和Microsoft AirSim插件开发了一个3D模拟器,渲染了25个城市级场景的接近真实图片。模拟器支持连续导航、环境扩展和配置。

模拟器输出前视图的RGB图像和深度图像,并支持动态环境(如风吹树叶、车辆行驶、不同光照和气候模式)。

数据集收集

收集了25个不同城市级环境的数据,涵盖市中心、工厂、公园和村庄等多种场景,包含超过870种不同的对象。

数据集由经验丰富的无人机飞行员生成飞行路径,最终包含8446条飞行路径,每条路径配有3条自然语言指令。

并由AMT工人标注语言指令,共收集了25,338条指令,词汇总量为4,470个词,平均每条指令包含83个词。

实验设计

数据集划分

将数据集划分为训练集、验证集(可见和不可见)和测试集。训练集包含16,380条指令,验证集包含1,818条指令,测试集包含4,830条指令。

基线模型

评估五种基线模型在AerialVLN任务上的性能,并使用前瞻指导策略改进最佳基线模型的性能。包括:

  • 随机模型:在每个位置随机选择动作,直到选择“停止”动作或达到最大步数。

  • 动作采样模型:根据训练集的动态度分布采样动作。

  • LingUNet模型:将LingUNet模型适应为步进范式。

  • Seq2Seq模型:使用循环策略的序列到序列模型。

  • CMA模型:基于双向LSTM的跨模态注意力模型。

提出了前瞻指导策略(Look-ahead Guidance,LAG),通过生成“前瞻”路径来改进模型性能。具体步骤包括:

  • 找到返回真实路径的最短路径,

  • 沿真实路径前进10步,生成前瞻路径,

  • 根据前瞻路径确定下一步的真实动作。

结果与分析

基线模型性能

  • 随机模型的成功率为0%,动作采样模型的成功率低于1%。

  • LingUNet模型在不可见情况下的成功率略高于动作采样模型。

  • Seq2Seq和CMA模型在完整数据集的不可见分割上的成功率分别为1.0%~1.6%和2.2%~3.9%。

  • 数据集聚合技术(DA)提高了模型性能,但仍未达到人类表现。

前瞻指导策略效果

前瞻指导策略显著提高了模型在不可见分割上的成功率和SDTW指标。

模态消融研究

视觉和语言输入对任务至关重要,去除任一输入都会导致任务变得无意义。RGB信息对最终成功贡献更大。

总结

论文介绍了一个新的任务AerialVLN和一个大规模数据集,用于探索空中的视觉语言导航。

结果表明,现有的基线模型在AerialVLN任务上表现不佳,远低于人类表现。前瞻指导策略显著提高了模型性能,但仍需进一步研究以应对这一具有挑战性的任务。

标签:模型,路径,西工大,力作,AerialVLN,无人机,导航,前瞻
From: https://blog.csdn.net/weixin_37990186/article/details/144482252

相关文章

  • 三轴应力作用下颗粒离散元PFC矩张量声发射模拟
    本文摘要(由AI生成):本文利用矩张量分析方法,深入探讨了岩石破坏产生的AE事件的震源机制。通过模拟颗粒间的接触,研究了不同岩石破坏类型,并定量分析了AE事件的震源行为。模拟试样的尺寸与实验试样相同,破坏模式、力-位移曲线和震级通过模拟得出。进一步,根据矩张量文件中的mag列数据,......
  • 解锁网络无限可能:揭秘微软工程师力作——付费代理IP池深度改造与实战部署指南
    基于付费代理的代理IP池项目来源此项目为微软某个工程师构建的代理IP池,我对此进行了改造。可以用于生产环境中的爬虫项目阅读前建议阅读我之前发布的爬虫基础的文章,了解代理如何获取、使用等。分为四大模块代理生成基于购买的付费代理接口获取代理IP,利用redis数据库的有......
  • Mistral AI最新力作——Mistral Large媲美GPT-4
    MistralAI自豪地宣布,他们的最新力作——MistralLarge,已经正式面世。这款尖端的文本生成模型不仅在多语言理解上表现出色,更在推理能力上达到了顶级水平。MistralLarge能够处理包括文本理解、转换和代码生成在内的复杂多语言推理任务。MistralLarge(预训练版本)与其他顶......
  • WGCAT运维工单系统 - WGCLOUD团队又一力作
    WGCAT运维工单系统是WGCLOUD团队近期发布的一款新产品,主要用来跟踪处理和记录运维工作中的一些工作记录。WGCAT工单系统,一如既往,简单实用,部署简单,使用简单,上手容易。下载:WGCLOUD-极简运维监控系统-官网  ......
  • 从西工大安全事件浅谈特权账号管理系统
    去年9月,国家计算机应急处理中心发布《西北工业大学遭美国NSA网络入侵事件调查报告(之一)》(以下简称“西工大事件报告”),以充分详实的证据揭示了美国NSA使用41种武器,先后使用了遍布17个国家的54台跳板机和代理服务器,对我国包括西北工业大学等多个重要数据设施网络系统进行了长时间的浸......
  • Qt/C++音视频开发59-使用mdk-sdk组件/原qtav作者力作/性能凶残/超级跨平台
    一、前言最近一个月一直在研究mdk-sdk音视频组件,这个组件是原qtav作者的最新力作,提供了各种各样的示例demo,不仅限于支持C++,其他各种比如java/flutter/web/android等全部支持,性能上也是杠杠的,目前大概是在V0.23版本,大部分软件发布基本上都是在1.0版本才是比较稳定的,不过目前用下来......
  • 戴森发布全新Airstrait吹风直发器,美发科技品类再添力作 —利用气流,吹干的同时拉直头发
    (2023年11月30日,上海)戴森今日重磅发布全新美发造型产品——戴森Airstrait™吹风直发器,作为戴森美发科技品类的又一创新力作,戴森Airstrait™吹风直发器再次革新行业,以全新的直发造型方式,真正帮助消费者实现无热损伤的“每日造型”。戴森Airstrait™吹风直发器是戴森气流技术的再次革......
  • 最强开源大模型!李开复博士AI 2.0公司的力作,40万文本处理破纪录,引领中国AI新纪元
    在全球AI技术的竞赛中,中国再次迎来了令人振奋的消息——由李开复博士领衔的AI2.0公司零一万物,推出了Yi系列大模型,不仅技术领先,更是国产之光!后起之秀:Yi系列大模型的惊艳亮相虽然Yi系列大模型相对其他竞争者来得晚一些,但它们的性能却一点不落后。Yi-34B模型在HuggingFace英文测试榜......
  • 电子游戏力作:《钢铁誓言》1.0正式版更新,掀起RPG热潮
    PG游戏库-公司:CuriousPandaGames和HumbleGames合作开发的回合制战略RPG游戏《TheIronOath》已经迈向了新的高度。这款游戏于2022年4月首次登陆Steam的抢先体验版本,如今正式推出1.0版本,为PGSOFT游戏攻略玩家带来了更多令人兴奋的内容。1.0正式版不仅包含了新的主线战役剧情,......
  • 数据要素市场又添力作,《数据要素安全流通》正式出版发售!
    随着大数据、云计算、人工智能等新兴技术的迅猛发展,数据已经成为我国经济社会发展的五大生产要素之一,《网络安全法》《个人信息保护法》《数据安全法》的先后出台为维护国家安全、保护公民个人信息、规范网络行为以及促进数据经济发展奠定了法律基础,2022年底,中共中央、国务院颁布“......