首页 > 其他分享 >CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型

CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型

时间:2024-12-25 20:30:05浏览次数:9  
标签:模型 具身 任务 NaviLLM 导航 Schema

  • 作者:Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang

  • 单位:香港中文大学,上海人工智能实验室,感知与交互智能中心

  • 论文链接:Towards Learning a Generalist Model for Embodied Navigation(https://openaccess.thecvf.com/content/CVPR2024/papers/Zheng_Towards_Learning_a_Generalist_Model_for_Embodied_Navigation_CVPR_2024_paper.pdf)

  • 代码链接:https://github.com/LaVi-Lab/NaviLLM

主要贡献

  • 论文提出了首个用于具身导航的通用模型NaviLLM,能够执行多种具身导航任务。

  • 通过引入基于Schema的指令,将各种任务统一为生成问题,从而整合了来自不同数据集的数据源。

  • 在CVDN基准上,NaviLLM相较于之前的最先进方法取得了29%的进步。

  • 模型在具身问答和3D字幕生成等未见任务上同样表现出色。

研究背景

研究问题

具身导航要求智能体根据指令在三维环境中进行导航,并提供基于用户查询的文本响应。

本文主要解决的问题是如何构建一个能够与物理世界互动的通用智能体。

研究难点

该问题的研究难点包括:

  • 以往的研究主要集中在特定任务的智能体上,缺乏对未见场景的泛化能力;

  • 如何将各种任务统一到单个模型中也是一个挑战。

相关工作

该问题的研究相关工作有:

  • 利用预训练技术、数据增强和记忆结构等方法的各种模型,但这些模型在特定任务上表现出色,但在跨任务泛化方面存在不足。

  • 最近的研究表明,大语言模型(LLMs)在多个领域展示了显著的能力,但将其应用于具身导航任务仍然是一个未充分探索的领域。

研究方法

论文提出了NaviLLM,第一个用于具身导航的通用模型。

场景编码

使用视觉变换器(ViT)从图像中提取视觉特征,并通过多视图融合过程将这些特征整合为场景表示。公式如下:

其中, 是第个视角的视觉特征, 是第个视角的场景表示。

基于Schema的指令

为了将所有任务学习转化为生成问题,论文引入了基于Schema的指令。Schema包括任务、观察和历史三个部分。例如,

  • 任务的Schema可以是导航指令,

  • 观察的Schema可以是场景表示,

  • 历史的Schema可以是过去的视觉观测。

多任务学习

将具身导航的关键任务(如视觉语言导航、对象定位、轨迹总结、3D问答和具身问答)转化为生成问题,并使用统一的交叉熵目标进行优化。每个任务的Schema具体如下:

  • 视觉语言导航:任务Schema为导航指令,观察Schema为所有可达视角的场景表示,输出提示为选择移动方向。

  • 对象定位:任务Schema为对象定位命令,观察Schema为当前位置的所有可见对象的表示,输出提示为选择对象。

  • 轨迹总结:任务Schema为总结风格,观察Schema为历史表示和场景表示,输出提示为总结轨迹。

  • 3D问答:任务Schema为室内场景的问题,观察Schema为不同位置的场景表示,输出提示为基于场景回答问题。

  • 具身问答:先执行导航任务,再回答问题。

实验设计

数据收集

训练数据来自多个具身导航任务的数据集,包括CVDN、SOON、R2R、REVERIE、ScanQA和LLaVA-23k。还使用了R2R和REVERIE数据的增强数据。

实现细节

模型采用了两阶段训练策略,预训练阶段使用教师强制训练,多任务微调阶段交替使用教师强制和学生强制。

优化器为Adam,学习率为3e-5,预训练阶段训练10000步,多任务微调阶段训练5000步,批量大小为64。

评估指标

  • 对于视觉语言导航任务,使用成功率(SR)、路径长度加权成功率(SPL)、Oracle成功率(OSR)、轨迹长度(TL)和目标进度(GP)作为评估指标;

  • 对于3D问答任务,使用精确匹配(EM)、METEOR、ROUGE-L、CIDER和BLEU-4作为评估指标;

  • 对于具身问答任务,使用成功率(SR)和路径长度加权成功率(SPL)作为评估指标。

结果与分析

与现有方法的比较

NaviLLM在CVDN、SOON和ScanQA数据集上取得了最新的结果,并在R2R和REVERIE数据集上表现与最新方法相当。特别是在CVDN数据集上,NaviLLM的目标进度(GP)显著提高了29%。

未见任务的泛化能力

在排除CVDN、SOON和REVERIE数据集的训练数据后,NaviLLM在所有任务上均优于基线方法,特别是在SOON数据集上的成功率(SR)提高了136%。此外,NaviLLM在未见任务(如具身问答和3D字幕生成)上也展示了令人印象深刻的能力。

消融实验

多任务学习增强了所有任务的性能,随机初始化的LLM显著降低了性能,而预训练在增强数据上的收益有限。

可视化

  • 轨迹总结:在图(a)中,展示了模型如何根据给定的轨迹生成准确的逐步指令。这些指令可以用于数据增强。

  • 对象导航:图(b)展示了模型在未见过的场景中进行对象导航的能力。

  • EQA:图(c)展示了模型在EQA任务中的表现,即模型能够先执行导航过程,然后到达目标位置后回答问题。

  • 3D字幕生成:图(d)展示了模型在3D字幕生成任务中的能力,特别是模型能够根据指令生成不同粒度的字幕。

总结

论文提出了NaviLLM,第一个用于具身导航的通用模型。

通过引入基于Schema的指令和多任务学习,NaviLLM成功地将各种任务统一到一个模型中,并在多个基准数据集上取得了最新的结果。

此外,NaviLLM在未见任务上也展示了强大的泛化能力。

标签:模型,具身,任务,NaviLLM,导航,Schema
From: https://blog.csdn.net/weixin_37990186/article/details/144727388

相关文章

  • 生成式AI的深度学习模型:如何构建更强大的生成架构
    文章目录1.生成式AI的基本概念1.1生成模型的应用领域1.2生成模型与判别模型的区别2.生成式AI中的深度学习模型2.1生成对抗网络(GAN)2.1.1GAN的挑战2.1.2GAN的改进2.2变分自编码器(VAE)2.2.1VAE的挑战2.2.2VAE的改进2.3自回归模型2.3.1自回归模型的挑战3.构......
  • AI大模型技术黑话,你了解哪些?
    在AI大模型飞速发展的今天,那些技术黑话,你真的清楚吗?预训练模型预训练模型也称基座模型。是在非常非常大规模的文本(或其他数据类型)数据集上,预先训练好的深度学习模型。经过训练的大模型,具有广泛的语言理解和生成能力。GPT系列就是广为人知的预训练模型。预训练模型非常......
  • 写给小白的大模型应用指南:AI Agent 智能体篇
    RAG(检索增强生成)和Agent(智能体)在大模型应用领域无疑是备受推崇和寄予厚望的两大主流形态。本文使用浅显易懂的语言,帮助您迅速了解AIAgent智能体。尽管许多人是在大模型流行之后才开始了解AIAgent智能体,但这一概念并非全新(RAG同样如此)。AIAgent智能体之所以受到......
  • 大模型应用技术系列(二):大模型部署和推理优化
            之前的文章《大模型应用技术系列(一):大模型应用整体技术栈浅析》中,我们浅析了大模型技术栈的构成。从用户到底层,每层中都有很多需要深究的东西。本文将专注介绍大模型部署层面的内容。从一个简单的应用场景出发,通过一个完整的工具链路,来深入了解部署的过程。......
  • 完全小白的大模型入门科普
    引言:网上关于大模型的文章也很多,但是都不太容易看懂。小枣君今天试着写一篇,争取做到通俗易懂。废话不多说,我们直入主题。█什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的时候,也叫FoundationModel,基础模型。大模型是一个简称。完整的叫法,应该是“人工智能预训练......
  • 【Unity 低多边形像素风格 3D 资源包】PIXELGON Muscle Cars Pack 提供了精心设计的车
    PIXELGONMuscleCarsPack是一款专注于肌肉车主题的低多边形像素风格3D资源包,包含多种经典和现代肌肉车设计,适合需要像素艺术风格的游戏项目。这款资源包提供了精心设计的车辆模型,兼具美观与性能优化,能为赛车类、城市模拟、开放世界等项目增添丰富的视觉效果。核心功能与......
  • 【Unity 3D 工人角色资源包】Line Worker 提供了多个低多边形风格的工人角色模型,适用
    LineWorker是一款专为需要工人角色的游戏开发者设计的3D角色资源包。该资源包提供了多个低多边形风格的工人角色模型,适用于建筑工地、城市建设、维修和其他类似主题的游戏。每个角色都经过精心设计,具有鲜明的个性和细节,能够为游戏世界增添生动的角色元素。该资源包特别适......
  • 指标管理+AI大模型深度融合,开启智能数据分析管理新时代
    随着企业数字化转型的加速,数据管理和分析变得越来越重要。传统的指标管理平台虽然已经能够帮助企业有效地收集、计算、管理和展示关键指标,但在业务分析层面,面对日益复杂的数据环境和业务需求,单纯依靠人工分析已经难以满足高效、精准的管理要求。为此,将指标管理平台与AI大模型相结......
  • 大模型提示工程
    大模型提示工程 转:9大模型提示词工程应用_哔哩哔哩_bilibili转:提示词(Prompt)工程入门(非常详细),零基础入门到精通,看这一篇就够了_prompt提示词工程-CSDN博客 提示词工程,或称PromptEngineering,是一种专门针对语言模型进行优化的方法。它的目标是通过设计和调整输入的提示词(pro......
  • 指标管理+AI大模型深度融合,开启智能数据分析管理新时代
    随着企业数字化转型的加速,数据管理和分析变得越来越重要。传统的指标管理平台虽然已经能够帮助企业有效地收集、计算、管理和展示关键指标,但在业务分析层面,面对日益复杂的数据环境和业务需求,单纯依靠人工分析已经难以满足高效、精准的管理要求。为此,将指标管理平台与AI大模型相结......