首页 > 其他分享 >RSS-2024 | 具身智能体也爱看片!NaVid:视觉语言导航智能体通过视频学习导航动作规划

RSS-2024 | 具身智能体也爱看片!NaVid:视觉语言导航智能体通过视频学习导航动作规划

时间:2024-12-28 18:55:48浏览次数:7  
标签:NaVid VLN 智能 token 指令 视觉 导航

  • 作者:Jiazhao Zhang, Kunyu Wang, Xiaomeng Fang, Rongtao Xu, Qi Wu, Gengze Zhou, Zhizheng Zhang, Yicong Hong, He Wang,

  • 单位:中国科学技术大学计算机科学与工程学院,北京人工智能研究院,CASIA,阿德莱德大学,澳大利亚国立大学,Galbot

  • 原文链接:NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation(https://arxiv.org/pdf/2402.15852)

  • 代码链接:https://pku-epic.github.io/NaVid/

主要贡献

  • 论文提出NaVid,一种基于视频输入的视觉语言模型,通过机器人的单目RGB摄像头和人类指令来导航,无需地图或深度传感器。

  • 将机器人的历史轨迹编码为视觉token,提供丰富的上下文信息,支持决策和指令导航。

  • 采用混合训练策略,结合非oracle导航轨迹和辅助任务,增强了模型的泛化和鲁棒性。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)中实现从模拟环境到真实环境的泛化,使智能体能够在未见过的环境中根据自然语言指令进行导航。

研究难点

该问题的研究难点包括:

  • 对分布外场景的泛化,

  • 从模拟环境到真实环境的泛化(Sim2Real),

  • 以及在没有地图、里程计或深度输入的情况下实现高级导航性能。

相关工作

该问题的研究相关工作有:

  • 在离散环境中进行决策的VLN方法,

  • 减少Sim2Real差距的方法,

  • 以及利用大规模视觉语言模型(VLMs)在其他领域的应用。

研究方法

论文提出了NaVid,一种基于视频的大规模视觉语言模型(VLM),用于解决视觉语言导航中的泛化问题。

整体架构

NaVid基于LLaMA-VID模型,包含视觉编码器、查询生成器、大语言模型(LLM)和两个跨模态投影层。

  • 视觉编码器将视频帧编码为一系列token,

  • 查询生成器生成与指令相关的查询,

  • LLM推断出VLN动作,

  • 跨模态投影层将这些token投影到与语言token对齐的空间。

VLN-CE建模

对于每个帧,使用一个指令查询视觉token和多个指令无关视觉token。

  • 指令查询token提取与指令相关的视觉特征,

  • 指令无关token全局编码细粒度的视觉信息。

具体来说,

  • 视觉嵌入通过视觉编码器获得,

  • 查询生成器生成指令感知的查询,

  • 指令查询token通过跨注意力获得,

  • 指令无关token通过网格池化和跨模态投影获得。

动作规划

NaVid以语言形式规划VLN-CE的下一步动作。

每个动作包含动作类型和定量参数。

  • 动作类型从离散集合中选择,

  • 定量参数包括移动距离和旋转角度。

使用正则表达式解析器提取动作类型和参数。

NaVid训练

数据收集

通过Dagger技术收集非oracle导航轨迹,并与oracle轨迹数据结合进行最终训练。

辅助任务

设计了两个辅助任务:

  • 指令推理,

  • 视频问答,

以提高NaVid在导航场景理解和指令跟随方面的能力。

训练策略

采用混合训练策略,结合非oracle导航轨迹和辅助任务数据进行训练。

所有模块使用默认预训练权重进行优化,仅优化LLaMA和文本编码器的可训练参数1个epoch。

实验设计

模拟环境

在VLN-CE benchmarks(如R2R和RxR)上进行评估,所有方法均在R2R训练集上训练,并在R2R Val-Unseen和RxR Val-Unseen上评估,以评估跨分割和跨数据集的性能。

真实环境

在四个不同的室内场景(会议室、办公室、实验室和休息室)中进行实验,设计简单和复杂的指令跟随任务。

使用Turtlebot4机器人和Kinect DK相机进行数据收集。

评估指标

使用标准VLN评估指标,包括:

  • 成功率(SR),

  • 路径长度(TL),

  • 导航误差(NE),

  • 路径长度加权成功率(SPL)等。

结果与分析

模拟环境

在VLN-CE R2R Val-Unseen数据集上,NaVid在仅使用RGB观测的情况下达到了SOTA性能,SPL达到35.9%,显著优于其他方法。

在VLN-CE RxR Val-Unseen上,NaVid也表现出色,SPL达到21.2%,相比现有SOTA方法有显著提升。

真实环境

在四个不同场景中,NaVid在简单和复杂指令跟随任务上均表现出色,成功率显著高于其他基线方法。

例如,在会议室场景中,NaVid的成功率达到了92%,而在办公室场景中,成功率为84%。

消融研究

通过消融研究验证了训练策略和架构的有效性。结果表明,数据共同训练和特殊token的使用对性能提升至关重要。

总结

这篇论文提出的NaVid模型在视觉语言导航任务中实现了SOTA性能,特别是在没有地图、里程计或深度输入的情况下。

通过大规模预训练和混合训练策略,NaVid展示了其在模拟环境和真实世界中的强大泛化能力。

未来的工作将进一步探索NaVid在其他具身AI任务中的应用,并提高其效率和速度。

标签:NaVid,VLN,智能,token,指令,视觉,导航
From: https://blog.csdn.net/weixin_37990186/article/details/144758001

相关文章

  • 赋能现代菜田科学种植精准治理,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建农田种
    传统的农业种植场景下,甜菜等作物的管理模式通常依赖于大水漫灌和农药喷洒,这种作业方式不仅造成了水资源的严重浪费,还使得病虫害和杂草的治理完全依赖于菜农的经验。随着人工智能(AI)技术的快速发展,越来越多的传统行业开始探索将AI技术引入实际生产过程中,以提高效率、降低成本并实......
  • 智能工厂的设计软件 应用场景的一个例子:为AI聊天工具添加一个知识系统 之2
    前情提要这一次我们暂时抛开前面对“智能工厂的软件设计”的考虑--其软件智能产品就是应用程序。直接将这些思维方式和方法论运用在其具体应用场景中。本文是其中的一个应用场景。今天用了一个新的AI助手工具来交流。下面是就这一应用场景和“天意ChatGPT”(自称是ChatGPT......
  • 人工智能短视频内容理解与生成技术在美团的创新实践14
     1.背景美团围绕丰富的本地生活服务电商场景,积累了丰富的视频数据。美团场景下的短视频示例上面展示了美团业务场景下的一个菜品评论示例。可以看到,视频相较于文本和图像可以提供更加丰富的信息,创意菜“冰与火之歌”中火焰与巧克力和冰淇淋的动态交互,通过短视频形式进......
  • SpringAI人工智能开发框架005---SpringAI文本转语音_语音转文本_音频翻译程序接口编写
    可以看到SpringAi中关于音频的API帮助文档可以去看一下.可以看到帮助文档.这部分功能就是把声音变成文本,以及把文本变成声音.去创建一个项目然后修改一下,仓库,引入sringai的仓库 然后指定一下版本,这里要用java17的版本.然后这里用的api-key这个key,这里配置......
  • 人工智能短视频内容理解与生成技术在美团的创新实践14
     1.背景美团围绕丰富的本地生活服务电商场景,积累了丰富的视频数据。美团场景下的短视频示例上面展示了美团业务场景下的一个菜品评论示例。可以看到,视频相较于文本和图像可以提供更加丰富的信息,创意菜“冰与火之歌”中火焰与巧克力和冰淇淋的动态交互,通过短视频形式进......
  • 人工智能短视频内容理解与生成技术在美团的创新实践1
     1.背景美团围绕丰富的本地生活服务电商场景,积累了丰富的视频数据。美团场景下的短视频示例上面展示了美团业务场景下的一个菜品评论示例。可以看到,视频相较于文本和图像可以提供更加丰富的信息,创意菜“冰与火之歌”中火焰与巧克力和冰淇淋的动态交互,通过短视频形式进......
  • 【机器学习 | 数据挖掘】智能推荐算法
    【作者主页】FrancekChen【专栏介绍】⌈⌈⌈智能大数据分析⌋......
  • 原「追觅科技」中国区执行总裁郭人杰成立「乐享智能」,入局具身智能机器人领域创业!
    国内清洁机器人头部企业[追觅科技]最近在具身智能领域有些刷屏,旗下人形机器人公司产品爆火网络外,公司内部高管离职、入局具身智能领域创业,接连完成大额融资!![追觅科技]原中国区执行总裁郭人杰继11月1日宣布离职后,于12月19成立具身智能机器人公司【苏州乐享智能科技有限公司】,并......
  • 人工智能短视频内容理解与生成技术在美团的创新实践12
      1.背景美团围绕丰富的本地生活服务电商场景,积累了丰富的视频数据。美团场景下的短视频示例上面展示了美团业务场景下的一个菜品评论示例。可以看到,视频相较于文本和图像可以提供更加丰富的信息,创意菜“冰与火之歌”中火焰与巧克力和冰淇淋的动态交互,通过短视频形式进......
  • 题目集7-8总结:智能家居强电电路模拟系统
    一、前言1.1题目背景题目集7和8以智能家居为主题,通过强电电路的模拟设计,引导我们从基本开关电路到多功能调速器和受控设备模拟的深入探索,体现了物联网技术在智能家居中的实际应用。1.2题目特点知识点:涵盖开关逻辑、电路模拟、受控设备特性、并联与串联电路等核心知识点。题......