EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

时间：2023-05-29 13:33:05浏览次数：54

标签：Pre Embodied Training EgoCOT 具身 LLM EmbodiedGPT 第一人称数据

Abstract:

具身人工智能(Embodied AI)让机器人有规划、执行动作序列的能力，以在物理环境中完成长期任务。本文提出EmbodiedGPT，它是一个端到端的多模态基础模型，赋予具身代理多模态理解和执行能力。本文的贡献主要有三点：

制作了一个大规模的具身规划数据集EgoCOT。该数据集包含从Ego4D数据集中选的视频，以及相应的高质量语言instruction。他们用CoT生成了一系列子目标，用来进行有效的具身planning。
为EmbodiedGPT引入了一种高效的训练方法，用于高质量的plan生成，是在EgoCOT数据集上通过prefix tuning 7B的LLM完成的。
介绍了一种从LLM生成中提取任务相关特征的范式

Introduction:

PalmE,GPT-4等LLM有非常强的语言理解、推理、CoT能力，要想办法把这些能力结合第一人称的视频用在机器人的规划行动上。但是这些任务需要大规模的数据集，现有数据集没有大规模第一人称的真实数据。现在面临几个问题：

如何将LLM应用于机器人领域
如何利用“思想链”进行结构化规划
如何以端到端的方式将输出的语言计划用于下游操作任务

在这项工作中，首先构建了一个大规模的具身规划数据集EgoCOT，其特征是CoT planning instructions。它包含从Ego4D数据集中选择的第一人称视频和相应的高质量分步语言指令，这些指令是机器生成的，然后基于语义进行过滤，最后经过人工验证。此外创建了EgoVQA数据集作为Ego4D数据集的扩展，专注于第一人称的人机交互视频问答任务，旨在提供更广泛的第一人称多模态数据。

然后，在EgoCOT和EgoVQA数据集之上提出了一个端到端的多模态具身基础模型EmbodiedGPT，它可以以更自然和直观的方式与物理世界交互，并执行许多具身任务，如规划、VQA和控制。下图展示了在video caption、多轮QA、具身规划和低级别控制方面的能力。EmbodiedGPT给出的计划有高度可执行性，并结合了特定任务的功能，显著提高了具身控制任务的成功率。

标签：Pre,Embodied,Training,EgoCOT,具身,LLM,EmbodiedGPT,第一人称,数据
From： https://www.cnblogs.com/SiriusRen/p/17440181.html

wordpress 友情链接
add_filter('pre_option_link_manager_enabled','__return_true'); 在你用的那个主题的function.php里面添加下面这个东东，然后去后台就多了一个链接，你添加就行了啊前台怎么调用呢？看的别人的，也可以添加图片，就是不能上传，只能添加图片地址，主要的表就是wp_links......
rabbitMQ windows环境重装后报错RabbitMQ service is already present - only updatin
错误如下：C:\Users\Administrator>rabbitmq-serviceinstallRabbitMQserviceisalreadypresent-onlyupdatingserviceparametersC:\ProgramFiles\erl\erts\bin\erlsrv:Warning,couldnotsetcorrectinteractivemode.Error:句柄无效。---此行有时显示中文乱码C:\Progr......
哲讯一文解答SAP S/4HANA的四种部署方式（MTE，STE，HEC，On-Premise）
SAPS/4HANA是SAP的第4代ERP产品，也是SAP目前最主推的产品。虽然目前SAP推迟了ECC版本的截止支持时间，但越来越多的企业已经开始考虑，如何将传统 SAPECC系统升级或迁移至S/4HANA这个问题。以下将介绍SAPS/4HANA的4种部署方式，并辨析他们之间的不同之处。一、部署方式SAPS/4HANA主要......
会声会影，premiere，Edius区别是什么？2023年视频编辑软件，哪个比较好呢？
本文参考：http://t.csdn.cn/9hPYz自媒体如今已逐渐趋向于视频时代，新人UP主怀揣着“能恰到饭”的热情，“杀入”各大视频平台，只想求个“素质三连”，但这群无情的白嫖党们，总是“下次一定”以对之。是我不够帅吗？是我的内容不够优秀吗？还是我不够幽默呢？不。都不是。你与剪辑大神的距离，仅差一......
[论文速览] MAGE@MAsked Generative Encoder to Unify Representation Learning and I
Pretitle:MAGE:MAskedGenerativeEncodertoUnifyRepresentationLearningandImageSynthesisaccepted:CVPR2023paper:https://arxiv.org/abs/2211.09117code:https://github.com/LTH14/mageref:https://mp.weixin.qq.com/s/AfWWwrEpYAHI03tIzVxMiQ关键词：Repre......
Presentation-Nuclear Power
欢迎观众：Helloeveryone,Iamxxx,I'mfromComputerScienceInstituteandmajoringinArtificialIntelligence,welcometomypresentation,I'msogladtosharemytopicwithyou,thesubjectofmypresentationis therecommendationofNuclearPow......
express服务器BUG
使用npm安装好expresscors后，引入expresscors出错，好像是不能写import（写了也行，需要配置ES5啥的）然后切换为require，总是显示cannotfindmodulesxxx，internal/modules/cjs/loader:936 然后看了一堆乱七八槽的搞了这个，还是不行，1PSE:\Desktop\Vue>npminstall-gexpress-......
Unity的IPreprocessShaders：深入解析与实用案例
UnityIPreprocessShadersUnityIPreprocessShaders是Unity引擎中的一个非常有用的功能，它可以让开发者在编译Shader时自定义哪些操作需要被执行。这个可以帮助开发者更好地控制Shader的编译过程，确保在编译Shader时执行必要的操作。在本文中，我们介绍UnityIPreprocessShaders的使用......
Unity的IPreprocessComputeShaders：深入解析与实用案例
UnityIPreprocessComputeShadersUnityIPreprocessComputeShaders是Unity引擎中的一个非常有用的功能，它可以让开发者编译ComputeShader时自定义哪些操作需要被执行。这个可以帮助开发者更好地控制ComputeShader的编译过程，确保在编译ComputeShader时执行必要的操作。在本文中，我......
Uncovering the Representation of Spiking Neural Networks Trained with Surrogate
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ PublishedinTransactionsonMachineLearningResearch(04/2023)......

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

相关文章

赞助商

阅读排行