首页 > 其他分享 >EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

时间:2023-05-29 13:33:05浏览次数:52  
标签:Pre Embodied Training EgoCOT 具身 LLM EmbodiedGPT 第一人称 数据

 

Abstract:

具身人工智能(Embodied AI)让机器人有规划、执行动作序列的能力,以在物理环境中完成长期任务。本文提出EmbodiedGPT,它是一个端到端的多模态基础模型,赋予具身代理多模态理解和执行能力。本文的贡献主要有三点:

  1. 制作了一个大规模的具身规划数据集EgoCOT。该数据集包含从Ego4D数据集中选的视频,以及相应的高质量语言instruction。他们用CoT生成了一系列子目标,用来进行有效的具身planning。
  2. 为EmbodiedGPT引入了一种高效的训练方法,用于高质量的plan生成,是在EgoCOT数据集上通过prefix tuning 7B的LLM完成的。
  3. 介绍了一种从LLM生成中提取任务相关特征的范式

Introduction:

PalmE,GPT-4等LLM有非常强的语言理解、推理、CoT能力,要想办法把这些能力结合第一人称的视频用在机器人的规划行动上。但是这些任务需要大规模的数据集,现有数据集没有大规模第一人称的真实数据。现在面临几个问题:

  1. 如何将LLM应用于机器人领域
  2. 如何利用“思想链”进行结构化规划
  3. 如何以端到端的方式将输出的语言计划用于下游操作任务

在这项工作中,首先构建了一个大规模的具身规划数据集EgoCOT,其特征是CoT planning instructions。它包含从Ego4D数据集中选择的第一人称视频和相应的高质量分步语言指令,这些指令是机器生成的,然后基于语义进行过滤,最后经过人工验证。此外创建了EgoVQA数据集作为Ego4D数据集的扩展,专注于第一人称的人机交互视频问答任务,旨在提供更广泛的第一人称多模态数据。

然后,在EgoCOT和EgoVQA数据集之上提出了一个端到端的多模态具身基础模型EmbodiedGPT,它可以以更自然和直观的方式与物理世界交互,并执行许多具身任务,如规划、VQA和控制。下图展示了在video caption、多轮QA、具身规划和低级别控制方面的能力。EmbodiedGPT给出的计划有高度可执行性,并结合了特定任务的功能,显著提高了具身控制任务的成功率。

 

标签:Pre,Embodied,Training,EgoCOT,具身,LLM,EmbodiedGPT,第一人称,数据
From: https://www.cnblogs.com/SiriusRen/p/17440181.html

相关文章

  • wordpress 友情链接
    add_filter('pre_option_link_manager_enabled','__return_true'); 在你用的那个主题的function.php里面添加下面这个东东,然后去后台就多了一个链接,你添加就行了啊    前台怎么调用呢?看的别人的,也可以添加图片,就是不能上传,只能添加图片地址,主要的表就是wp_links......
  • rabbitMQ windows环境重装后报错RabbitMQ service is already present - only updatin
    错误如下:C:\Users\Administrator>rabbitmq-serviceinstallRabbitMQserviceisalreadypresent-onlyupdatingserviceparametersC:\ProgramFiles\erl\erts\bin\erlsrv:Warning,couldnotsetcorrectinteractivemode.Error:句柄无效。---此行有时显示中文乱码C:\Progr......
  • 哲讯一文解答SAP S/4HANA的四种部署方式(MTE,STE,HEC,On-Premise)
    SAPS/4HANA是SAP的第4代ERP产品,也是SAP目前最主推的产品。虽然目前SAP推迟了ECC版本的截止支持时间,但越来越多的企业已经开始考虑,如何将传统 SAPECC系统升级或迁移至S/4HANA这个问题。以下将介绍SAPS/4HANA的4种部署方式,并辨析他们之间的不同之处。一、部署方式SAPS/4HANA主要......
  • 会声会影,premiere,Edius区别是什么?2023年视频编辑软件,哪个比较好呢?
    本文参考:http://t.csdn.cn/9hPYz自媒体如今已逐渐趋向于视频时代,新人UP主怀揣着“能恰到饭”的热情,“杀入”各大视频平台,只想求个“素质三连”,但这群无情的白嫖党们,总是“下次一定”以对之。是我不够帅吗?是我的内容不够优秀吗?还是我不够幽默呢?不。都不是。你与剪辑大神的距离,仅差一......
  • [论文速览] MAGE@MAsked Generative Encoder to Unify Representation Learning and I
    Pretitle:MAGE:MAskedGenerativeEncodertoUnifyRepresentationLearningandImageSynthesisaccepted:CVPR2023paper:https://arxiv.org/abs/2211.09117code:https://github.com/LTH14/mageref:https://mp.weixin.qq.com/s/AfWWwrEpYAHI03tIzVxMiQ关键词:Repre......
  • Presentation-Nuclear Power
    欢迎观众:Helloeveryone,Iamxxx,I'mfromComputerScienceInstituteandmajoringinArtificialIntelligence,welcometomypresentation,I'msogladtosharemytopicwithyou,thesubjectofmypresentationis therecommendationofNuclearPow......
  • express服务器BUG
    使用npm安装好expresscors后,引入expresscors出错,好像是不能写import(写了也行,需要配置ES5啥的)然后切换为require,总是显示cannotfindmodulesxxx,internal/modules/cjs/loader:936 然后看了一堆乱七八槽的搞了这个,还是不行,1PSE:\Desktop\Vue>npminstall-gexpress-......
  • Unity的IPreprocessShaders:深入解析与实用案例
    UnityIPreprocessShadersUnityIPreprocessShaders是Unity引擎中的一个非常有用的功能,它可以让开发者在编译Shader时自定义哪些操作需要被执行。这个可以帮助开发者更好地控制Shader的编译过程,确保在编译Shader时执行必要的操作。在本文中,我们介绍UnityIPreprocessShaders的使用......
  • Unity的IPreprocessComputeShaders:深入解析与实用案例
    UnityIPreprocessComputeShadersUnityIPreprocessComputeShaders是Unity引擎中的一个非常有用的功能,它可以让开发者编译ComputeShader时自定义哪些操作需要被执行。这个可以帮助开发者更好地控制ComputeShader的编译过程,确保在编译ComputeShader时执行必要的操作。在本文中,我......
  • Uncovering the Representation of Spiking Neural Networks Trained with Surrogate
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! PublishedinTransactionsonMachineLearningResearch(04/2023)......