-
作者:Jiazhao Zhang, Kunyu Wang, Xiaomeng Fang, Rongtao Xu, Qi Wu, Gengze Zhou, Zhizheng Zhang, Yicong Hong, He Wang,
-
单位:中国科学技术大学计算机科学与工程学院,北京人工智能研究院,CASIA,阿德莱德大学,澳大利亚国立大学,Galbot
-
原文链接:NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation(https://arxiv.org/pdf/2402.15852)
-
代码链接:https://pku-epic.github.io/NaVid/
主要贡献
-
论文提出NaVid,一种基于视频输入的视觉语言模型,通过机器人的单目RGB摄像头和人类指令来导航,无需地图或深度传感器。
-
将机器人的历史轨迹编码为视觉token,提供丰富的上下文信息,支持决策和指令导航。
-
采用混合训练策略,结合非oracle导航轨迹和辅助任务,增强了模型的泛化和鲁棒性。
研究背景
研究问题
论文主要解决的问题是如何在视觉语言导航(VLN)中实现从模拟环境到真实环境的泛化,使智能体能够在未见过的环境中根据自然语言指令进行导航。
研究难点
该问题的研究难点包括:
-
对分布外场景的泛化,
-
从模拟环境到真实环境的泛化(Sim2Real),
-
以及在没有地图、里程计或深度输入的情况下实现高级导航性能。
相关工作
该问题的研究相关工作有:
-
在离散环境中进行决策的VLN方法,
-
减少Sim2Real差距的方法,
-
以及利用大规模视觉语言模型(VLMs)在其他领域的应用。
研究方法
论文提出了NaVid,一种基于视频的大规模视觉语言模型(VLM),用于解决视觉语言导航中的泛化问题。
整体架构
NaVid基于LLaMA-VID模型,包含视觉编码器、查询生成器、大语言模型(LLM)和两个跨模态投影层。
-
视觉编码器将视频帧编码为一系列token,
-
查询生成器生成与指令相关的查询,
-
LLM推断出VLN动作,
-
跨模态投影层将这些token投影到与语言token对齐的空间。
VLN-CE建模
对于每个帧,使用一个指令查询视觉token和多个指令无关视觉token。
-
指令查询token提取与指令相关的视觉特征,
-
指令无关token全局编码细粒度的视觉信息。
具体来说,
-
视觉嵌入通过视觉编码器获得,
-
查询生成器生成指令感知的查询,
-
指令查询token通过跨注意力获得,
-
指令无关token通过网格池化和跨模态投影获得。
动作规划
NaVid以语言形式规划VLN-CE的下一步动作。
每个动作包含动作类型和定量参数。
-
动作类型从离散集合中选择,
-
定量参数包括移动距离和旋转角度。
使用正则表达式解析器提取动作类型和参数。
NaVid训练
数据收集
通过Dagger技术收集非oracle导航轨迹,并与oracle轨迹数据结合进行最终训练。
辅助任务
设计了两个辅助任务:
-
指令推理,
-
视频问答,
以提高NaVid在导航场景理解和指令跟随方面的能力。
训练策略
采用混合训练策略,结合非oracle导航轨迹和辅助任务数据进行训练。
所有模块使用默认预训练权重进行优化,仅优化LLaMA和文本编码器的可训练参数1个epoch。
实验设计
模拟环境
在VLN-CE benchmarks(如R2R和RxR)上进行评估,所有方法均在R2R训练集上训练,并在R2R Val-Unseen和RxR Val-Unseen上评估,以评估跨分割和跨数据集的性能。
真实环境
在四个不同的室内场景(会议室、办公室、实验室和休息室)中进行实验,设计简单和复杂的指令跟随任务。
使用Turtlebot4机器人和Kinect DK相机进行数据收集。
评估指标
使用标准VLN评估指标,包括:
-
成功率(SR),
-
路径长度(TL),
-
导航误差(NE),
-
路径长度加权成功率(SPL)等。
结果与分析
模拟环境
在VLN-CE R2R Val-Unseen数据集上,NaVid在仅使用RGB观测的情况下达到了SOTA性能,SPL达到35.9%,显著优于其他方法。
在VLN-CE RxR Val-Unseen上,NaVid也表现出色,SPL达到21.2%,相比现有SOTA方法有显著提升。
真实环境
在四个不同场景中,NaVid在简单和复杂指令跟随任务上均表现出色,成功率显著高于其他基线方法。
例如,在会议室场景中,NaVid的成功率达到了92%,而在办公室场景中,成功率为84%。
消融研究
通过消融研究验证了训练策略和架构的有效性。结果表明,数据共同训练和特殊token的使用对性能提升至关重要。
总结
这篇论文提出的NaVid模型在视觉语言导航任务中实现了SOTA性能,特别是在没有地图、里程计或深度输入的情况下。
通过大规模预训练和混合训练策略,NaVid展示了其在模拟环境和真实世界中的强大泛化能力。
未来的工作将进一步探索NaVid在其他具身AI任务中的应用,并提高其效率和速度。
标签:NaVid,VLN,智能,token,指令,视觉,导航 From: https://blog.csdn.net/weixin_37990186/article/details/144758001