Abstract:
具身人工智能(Embodied AI)让机器人有规划、执行动作序列的能力,以在物理环境中完成长期任务。本文提出EmbodiedGPT,它是一个端到端的多模态基础模型,赋予具身代理多模态理解和执行能力。本文的贡献主要有三点:
- 制作了一个大规模的具身规划数据集EgoCOT。该数据集包含从Ego4D数据集中选的视频,以及相应的高质量语言instruction。他们用CoT生成了一系列子目标,用来进行有效的具身planning。
- 为EmbodiedGPT引入了一种高效的训练方法,用于高质量的plan生成,是在EgoCOT数据集上通过prefix tuning 7B的LLM完成的。
- 介绍了一种从LLM生成中提取任务相关特征的范式
Introduction:
PalmE,GPT-4等LLM有非常强的语言理解、推理、CoT能力,要想办法把这些能力结合第一人称的视频用在机器人的规划行动上。但是这些任务需要大规模的数据集,现有数据集没有大规模第一人称的真实数据。现在面临几个问题:
- 如何将LLM应用于机器人领域
- 如何利用“思想链”进行结构化规划
- 如何以端到端的方式将输出的语言计划用于下游操作任务
在这项工作中,首先构建了一个大规模的具身规划数据集EgoCOT,其特征是CoT planning instructions。它包含从Ego4D数据集中选择的第一人称视频和相应的高质量分步语言指令,这些指令是机器生成的,然后基于语义进行过滤,最后经过人工验证。此外创建了EgoVQA数据集作为Ego4D数据集的扩展,专注于第一人称的人机交互视频问答任务,旨在提供更广泛的第一人称多模态数据。
然后,在EgoCOT和EgoVQA数据集之上提出了一个端到端的多模态具身基础模型EmbodiedGPT,它可以以更自然和直观的方式与物理世界交互,并执行许多具身任务,如规划、VQA和控制。下图展示了在video caption、多轮QA、具身规划和低级别控制方面的能力。EmbodiedGPT给出的计划有高度可执行性,并结合了特定任务的功能,显著提高了具身控制任务的成功率。
标签:Pre,Embodied,Training,EgoCOT,具身,LLM,EmbodiedGPT,第一人称,数据 From: https://www.cnblogs.com/SiriusRen/p/17440181.html