-
作者:Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, and Qi Wu 阿德莱德大学,Adobe Research,上海人工智能实验室,加利福尼亚大学圣克鲁斯分校
-
原文链接:NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models (https://link.springer.com/chapter/10.1007/978-3-031-72667-5_15)
-
代码链接:https://github.com/GengzeZhou/NavGPT-2
主要贡献
-
采用新型架构,整合视觉语言模型(VLM)与拓扑图导航策略,增强智能体在复杂环境中的自主导航;
-
高数据效率,能在数据有限的情况下达到先进性能,优化学习和推理过程,加快收敛,提升泛化能力;
-
强化沟通本能,以人类可理解的方式解释导航决策,增强模型解释性,提升用户体验和用户对智能体的信任。
研究背景
研究问题
论文解决的问题是如何利用大型语言模型(LLMs)来提升视觉语言导航(VLN)任务的性能。具体来说,现有的将LLMs应用于VLN任务的方法存在显著的性能差距,尤其是在与专门为VLN任务训练的模型相比时。
研究难点
该问题的研究难点包括:
-
零样本方法需要复杂的提示工程,容易导致信息丢失;
-
微调方法虽然利用了LLMs的预训练权重,但由于训练数据不足和预训练目标与VLN任务的差异,性能仍然落后。
相关工作
该问题的研究相关工作有:零样本VLN方法如NavGPT,微调方法如LangNav和NavCoT等。这些方法虽然在一定程度上利用了LLMs的能力,但在性能上与专门的VLN模型存在显著差距。
研究方法
这篇论文提出了NavGPT-2系统,用于解决LLMs在VLN任务中的性能差距问题。
视觉语言模型(VLM)
基于InstructBLIP架构构建VLM,通过Q-former组件处理视觉观察和指令,提取图像令牌作为输入,使LLM能够生成导航推理。
导航策略网络
采用基于拓扑图的导航策略网络,通过节点嵌入和跨模态编码来建模指令和节点之间的关系,进行有效的动作规划。
多阶段学习
进行两阶段训练:第一阶段,初始化模型并从预训练的InstructBLIP检查点开始,仅微调Q-former;第二阶段,连接预训练的VLM和下游导航策略网络,仅微调策略网络。
实验设计
数据收集
使用R2R数据集生成导航推理数据,随机选择10k个中间步骤,使用等距投影的全景图像作为输入。
实验设置
基于InstructBLIP构建NavGPT-2,使用四种变体的LLMs(FlanT5-XL、FlanT5-XXL、Vicuna-7B和Vicuna-13B),所有模型的视觉编码器均为ViT-g/14,并在整个训练过程中保持冻结。
训练过程
第一阶段,从预训练的InstructBLIP检查点开始,微调Q-former;第二阶段,连接预训练的VLM和下游导航策略网络,仅微调策略网络。
结果与分析
性能提升
NavGPT-2在R2R数据集上的单次运行性能超过了所有其他结合LLMs的方法,抹平了与同一训练规模的SOTA方法之间的差距。
导航推理生成
NavGPT-2能够生成详细的导航推理,识别环境和物体及其相对位置,并推断下一步操作。
数据效率
NavGPT-2在使用50%的R2R训练数据时,性能与使用全部数据的DUET相当,展示了利用LLMs潜在表示的数据效率。
跨数据集泛化能力
NavGPT-2在RxR和HM3D数据集上的零样本性能显著优于DUET,展示了其在自由形式语言指令和未见环境中的泛化能力。
总结
论文通过提出NavGPT-2系统,抹平了基于LLMs的导航模型与VLN专用模型之间的性能差距,同时保持了LLMs在导航过程中生成解释性导航推理的能力。
通过综合实验,展示了将LLMs与下游导航策略网络高效集成的可行性,证明了VLM潜在表示在视觉-语言-动作对齐中的优越性和效率。
该框架为开发能够与人类互动并更有效地理解人类意图的多功能导航智能体提供了可能。
标签:2024,训练,VLN,LLMs,模型,ECCV,NavGPT,导航 From: https://blog.csdn.net/weixin_37990186/article/details/144481387