ECCV-2024 | NavGPT-2：释放视觉语言大模型的导航推理能力

时间：2024-12-15 10:30:09浏览次数：14

标签：2024 训练 VLN LLMs 模型 ECCV NavGPT 导航

作者：Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, and Qi Wu 阿德莱德大学，Adobe Research，上海人工智能实验室，加利福尼亚大学圣克鲁斯分校
原文链接：NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models (https://link.springer.com/chapter/10.1007/978-3-031-72667-5_15)
代码链接：https://github.com/GengzeZhou/NavGPT-2

主要贡献

采用新型架构，整合视觉语言模型（VLM）与拓扑图导航策略，增强智能体在复杂环境中的自主导航；
高数据效率，能在数据有限的情况下达到先进性能，优化学习和推理过程，加快收敛，提升泛化能力；
强化沟通本能，以人类可理解的方式解释导航决策，增强模型解释性，提升用户体验和用户对智能体的信任。

研究背景

研究问题

论文解决的问题是如何利用大型语言模型（LLMs）来提升视觉语言导航（VLN）任务的性能。具体来说，现有的将LLMs应用于VLN任务的方法存在显著的性能差距，尤其是在与专门为VLN任务训练的模型相比时。

研究难点

该问题的研究难点包括：

零样本方法需要复杂的提示工程，容易导致信息丢失；
微调方法虽然利用了LLMs的预训练权重，但由于训练数据不足和预训练目标与VLN任务的差异，性能仍然落后。

研究方法

这篇论文提出了NavGPT-2系统，用于解决LLMs在VLN任务中的性能差距问题。

视觉语言模型（VLM）

基于InstructBLIP架构构建VLM，通过Q-former组件处理视觉观察和指令，提取图像令牌作为输入，使LLM能够生成导航推理。

导航策略网络

采用基于拓扑图的导航策略网络，通过节点嵌入和跨模态编码来建模指令和节点之间的关系，进行有效的动作规划。

多阶段学习

进行两阶段训练：第一阶段，初始化模型并从预训练的InstructBLIP检查点开始，仅微调Q-former；第二阶段，连接预训练的VLM和下游导航策略网络，仅微调策略网络。

实验设计

数据收集

使用R2R数据集生成导航推理数据，随机选择10k个中间步骤，使用等距投影的全景图像作为输入。

实验设置

基于InstructBLIP构建NavGPT-2，使用四种变体的LLMs（FlanT5-XL、FlanT5-XXL、Vicuna-7B和Vicuna-13B），所有模型的视觉编码器均为ViT-g/14，并在整个训练过程中保持冻结。

训练过程

第一阶段，从预训练的InstructBLIP检查点开始，微调Q-former；第二阶段，连接预训练的VLM和下游导航策略网络，仅微调策略网络。

结果与分析

性能提升

NavGPT-2在R2R数据集上的单次运行性能超过了所有其他结合LLMs的方法，抹平了与同一训练规模的SOTA方法之间的差距。

导航推理生成

NavGPT-2能够生成详细的导航推理，识别环境和物体及其相对位置，并推断下一步操作。

数据效率

NavGPT-2在使用50%的R2R训练数据时，性能与使用全部数据的DUET相当，展示了利用LLMs潜在表示的数据效率。

跨数据集泛化能力

NavGPT-2在RxR和HM3D数据集上的零样本性能显著优于DUET，展示了其在自由形式语言指令和未见环境中的泛化能力。

总结

论文通过提出NavGPT-2系统，抹平了基于LLMs的导航模型与VLN专用模型之间的性能差距，同时保持了LLMs在导航过程中生成解释性导航推理的能力。

通过综合实验，展示了将LLMs与下游导航策略网络高效集成的可行性，证明了VLM潜在表示在视觉-语言-动作对齐中的优越性和效率。

该框架为开发能够与人类互动并更有效地理解人类意图的多功能导航智能体提供了可能。

标签：2024,训练,VLN,LLMs,模型,ECCV,NavGPT,导航
From： https://blog.csdn.net/weixin_37990186/article/details/144481387

考研数学二 2011-2024年真题积累总结【多元函数与微分方程篇】_多元函数二阶导数_非
文章目录多元函数1.多元函数二阶导数问题:f^''^~xy~(0,0)与f^''^~yx~(0,0)的计算(是否存在)2.多元函数非条件极值问题3.多元函数基础经典题已知对x的偏导数和对y的偏导数，求f(x,y)微分方程1.利用已知条件，构造微分方程，求y(x)的表达式2.给出关于f(x)的两个微分方程，求这个f......
2024-2025-1 20241427 《计算机基础与程序设计》第12周学习总结
作业信息这个作业属于哪个课程[2024-2025-1-计算机基础与程序设计]这个作业要求在哪里https://www.cnblogs.com/rocedu/p/9577842.html#WEEK12这个作业的目标信息系统、数据库与SQL、人工智能与专家系统、人工神经网络、模拟与离散事件、排队系统、天气与地震模型......
2024北京多校联训游记
Day\(-\infty\)NOIP考的十分炸裂，一道题都没做出来，结果下来\(40min\)就切掉了第\(2\)题？？？这时\(hfu\)通知有意向的同学可以去参加在北京的多校联训。经过一番思想斗争后，还是决定去参加一下，毕竟技多不压身，且基础知识也整理的差不多了。不过大佬xjybscpx还是因为文化课成绩没......
【专题】2024年11月各行业数字化报告汇总PDF洞察（附原数据表）
原文链接： https://tecdat.cn/?p=38524数字化浪潮正以前所未有的速度席卷全球各个行业，深刻重塑着经济格局与社会生活。从智能家居的便捷场景到智能电动车的补能生态创新，从企业核心竞争力的重塑到白酒行业的精准营销转型，从AIGC的蓬勃兴起与算力的强劲支撑到智能制造的智能决策突......
2024最强Java面试八股文（精简、纯手打）
2024最新最全国内大厂Java面试高频题库本小册内容涵盖：Java基础，JVM，多线程，数据库（MySQL/Redis）SSM，Dubbo，网络，MQ，Zookeeper，Netty，微服务，大数据，算法，项目，设计模式等，篇幅足足近2千页，大家面试前拿去提前刷刷，一、基础篇1.接口和抽象类的区别相似点：（1）接口和抽象类都不能被实例化（2）实......
icpc2024昆明补题记录
D套娃这个trick是真没见过，也难怪场上没几个人过这个代码这么简单的题题目大意给定一排\(n\)个套娃，套娃的大小互不相同。你可以将相邻两个套娃套在一起，问最多能套几次？\[n≤10^5\]题解发现可以\(O(n)\)的判断一个长度为\(n\)的套娃序列是否能合并成一个，接下来从左边开始......
P11378[GESP202412 七级]燃烧题解
闲话花了一个小时。主要原因：条初始值硬控我半小时，题目看错硬控我半小时（悲）。正文看题目，就是求从哪个点出发所得到的所有单调下降序列的总长度最长（这个描述好奇怪，不过意思是对的）。题目中说的是树，但其实可以当做图来做，因为题目中提到的是“节点”，而与父亲儿子节点无关，也就是说儿......
maven docker-maven-plugin 发布docker 20241214
1、docker开启远程访问端口 2375 docker主机：192.168.177.128vi/usr/lib/systemd/system/docker.service#修改ExecStart这行ExecStart=/usr/bin/dockerd-Htcp://0.0.0.0:2375 #重新加载配置文件[root@localhost~]#systemctldaemon-reload#重启服务[......
2024-2025-1 20241403《计算机基础与程序设计》第十二周学习总结
2024-2025-120241403《计算机基础与程序设计》第十二周学习总结作业信息这个作业属于哪个课程<班级的链接>（如2024-2025-1-计算机基础与程序设计）这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第一周作业)这个作业的目标指针与一维，二维数......
[20241212]Oracle 多线程测试.txt
[20241212]Oracle多线程测试.txt--//oracle从12c版本开始支持多线程，各种原因从来没有测试，好像最近很少有人提及，或许使用oracle的人越来越少，或者许多人根--//本没有这样的需求，印象最深的是启用后必须使用口令登录，即使是sys用户.--//自己还是看一些文章，测试看看。1.环境：SYS@book>@......