首页 > 其他分享 >机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

时间:2024-07-14 22:27:13浏览次数:11  
标签:模态 Embodied 语言 Language 模型 机器人 具身 Multimodal 任务

首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型大模型,我们一般习惯将其称为具身多模态大模型。

何为具身?这个词听起来非常陌生,简单说就是AI+agent(机器人是其中一种agent)的结合,强调的的agent通过与环境互动来获取智能,类似人类获得智能的范式,博主将在之后的博客里做专门篇幅讲解,欢迎大家继续关注,下面开始来详细拆解这篇论文。

Palm-E两大任务:视觉问答(VQA)和具身任务规划

Palm-E用统一的网络架构和训练方式进行多任务,主要包括视觉问答(VQA)和具身任务规划。

具身任务规划

该任务要求大模型能理解人类的语言和意图,还需要机器人观察和操作环境中的物体,以及规划一系列的子目标和动作。其输入是多模态的输入(如文本、图像、触觉信息以及机器人的3D空间状态等),输出可被机器人逐步执行的任务步骤,比如当我们让其去抽屉里拿薯片,Palm-e会输出如下子任务步骤,而后机器人利用其它模块(我们称之为Policy,本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之:
step1:导航到抽屉;
step2:打开抽屉;
step3:取出薯片;
step4:关闭抽屉;
step5:导航至主人处;
step6:将薯片交给主人;
在这里插入图片描述

VQA

该任务与agent无关,用户输入图片和想问的问题,大模型输出对问题的文字回复。
在这里插入图片描述

贡献

  1. 提出和演示一个通用的,可迁移学习的,智能决策的多模态大模型;
  2. 训练方面,引入先进的结构思想,使得可以对多模态输入数据进行符号表征,用于训练推理,如neural scene representations ,entity-labeling multimodal tokens.
  3. 除了具身推理(embodied reasoner), PaLM-E也是一个视觉语言方面的通才;
  4. 演示了增大模型的规模可以极大地提升多模态大模型性能,特别是减少灾难性遗忘(catastrophic forgetting)

Palm-E网络结构

在这里插入图片描述

整个网络的结构如上所示,多模态数据(图像,文本,物体状态等)经过特定的编码后直接输送到大语言模型,借助大语言模型的能力输出文字,这些文字可以是对问题的回复,也可以是对任务的规划。(看上去大家都应该学fei了)

训练与实验

文章大篇幅介绍了相关实验,实验数据集如下,主要包括网络VQA数据和机器人轨迹数据。
在这里插入图片描述

实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。

VQA任务

VQA不是本工作的核心,但附带也能进行此类认为,因此也做了相关测评,该实验对比了不同规模模型和训练方式对该任务的影响,结果如下:
在这里插入图片描述

纯语言任务

该实验对比了不同规模模型对纯语言问答任务的影响。
在这里插入图片描述

机器人具身规划任务

这一部分是本工作的核心,验证了大语言模型规模和训练方式对该任务的影响,分别在TAMP(纯规划),Language table(机械臂桌面push任务)和机器人移动操作任务(室内移动操作任务)上进行对比。

TAMP(Task and Motion Planning)任务

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Language-Table

在该任务中,Palm-E规划任务,将高层次的人类语言转化成多个机器人可执行步骤,然后调用LAVA这个工作执行,整个工作流程如下所示:
在这里插入图片描述
一些实验结果如下所示:
在这里插入图片描述
在这里插入图片描述

移动操作任务

可供性评估(Affordance prediction)和失败检测

Affordance是指根据图片判断某个子任务skill可否被成功执行,失败检测是指根据观测,判断任务是否被成功完成,两者都是机器人闭环任务规划的一大重要环节,对比结果如下:
在这里插入图片描述

长水平规划(Long-horizon)

在这里插入图片描述

实验摘要和讨论

通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)

利用多任务数据训练,最终可对单个任务起促进作用。(但这个实验博主觉得不太严密,缺乏一个full only robot data实验)
在这里插入图片描述
在这里插入图片描述

数据有效性(Data efficiency)

机器人的数据很难获得,但通过大量网络数据的训练,Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型,体现了一定的迁移性,OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。

保存纯语言能力

论文介绍了两种方法:

  1. 训练过程中freeze住LLM模型,但这可能会使得在机器人任务中很失败;
  2. 使用足够大的LLM模型。

总结

我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务,也有近期的工作表明了其在可供性评估上的局限性,为了克服这些局限性,我们提出PaLM-E,一个单一模型,能够在模拟和现实世界中控制不同的机器人,同时
具备一般视觉语言任务能力。尤其是将新颖的神经场景表示 (即 OSRT)应用到Pla-E,使得即使没有大规模数据,该模型在机器人多任务中也特别有效。重要的是,我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中,从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的,使得通向通用具身多模式模型的道路同时完全保留语言能力,我们还提出了使用解冻模型的替代途径:增加语言模型的大小会显着减少灾难性遗忘。最大的模型,PaLM-E-562B,展示了强大的思维链能力和视觉图像任务能力。

个人思考

谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中,可以动态规划任务,同时展现了一定的迁移泛化性。但这个工作比较难以复现,模型易懂,但其中最大问题就在于它需要大量的数据,如同大多数其他AI工作一样,机器人具身大规模数据才是最大的瓶颈。

标签:模态,Embodied,语言,Language,模型,机器人,具身,Multimodal,任务
From: https://blog.csdn.net/weixin_43827285/article/details/140422852

相关文章

  • Prompt Selection and Augmentation for Few Examples Code Generation in Large Lang
    本文是LLM系列文章,针对《PromptSelectionandAugmentationforFewExamplesCodeGenerationinLargeLanguageModelanditsApplicationinRoboticsControl》的翻译。大语言模型中少数示例代码生成的提示选择与增强及其在机器人控制中的应用摘要1引言2相......
  • Securing Large Language Models: Threats, Vulnerabilities and Responsible Practic
    本文是LLM系列文章,针对《SecuringLargeLanguageModels:Threats,VulnerabilitiesandResponsiblePractices》的翻译。保护大型语言模型:威胁、漏洞和负责任的做法摘要1引言2背景3LLM的安全和隐私问题4对抗性攻击和LLM漏洞5LLM的风险和失误6风险缓解策......
  • Calibrating Large Language Models Using Their Generations Only
    本文是LLM系列文章,针对《CalibratingLargeLanguageModelsUsingTheirGenerationsOnly》的翻译。仅使用它们的生成来校准大型语言模型摘要1引言2相关工作3方法4实验5讨论6结论摘要随着大型语言模型(LLM)越来越多地部署在面向用户的应用程序中,通过......
  • BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
    本文是LLM系列文章,针对《BADEDIT:BACKDOORINGLARGELANGUAGEMODELSBYMODELEDITING》的翻译。BADEDIT:通过模型编辑后门攻击大型语言模型摘要1引言2背景和相关工作3后门攻击的轻量级编辑4BADEDIT5实验6结论摘要主流后门攻击方法通常需要大量的中......
  • Exploring Large Language Models and Hierarchical Frameworks for Classification o
    本文是LLM系列文章,针对《ExploringLargeLanguageModelsandHierarchicalFrameworksforClassificationofLargeUnstructuredLegalDocuments》的翻译。探索大型非结构化法律文件分类的大型语言模型和层次框架摘要1引言2相关工作3方法:分类框架(MESc)4结......
  • What Makes Quantization for Large Language Models Hard?
    本文是LLM系列文章,针对《WhatMakesQuantizationforLargeLanguageModelsHard?AnEmpiricalStudyfromtheLensofPerturbation》的翻译。是什么让大型语言模型的量化变得困难?微扰透镜的经验研究摘要1引言2相关工作3前言4从微扰的角度看LLM量子化5......
  • FOODGPT: A LARGE LANGUAGE MODEL IN FOOD TESTING DOMAIN WITH INCREMENTAL PRE-TRAI
    文章目录题目摘要方法题目食品测试的大型语言模型论文地址:https://arxiv.org/abs/2308.10173摘要    目前,特定领域的大型语言模型的构建是通过在基础模型上进行微调来完成的。有些模型还包含知识库,无需预先训练。这是因为基础模型在预训练过程中已经包......
  • Apple - Core Image Kernel Language Reference
    本文翻译整理自:CoreImageKernelLanguageReference(更新日期:2015-01-12https://developer.apple.com/library/archive/documentation/GraphicsImaging/Reference/CIKernelLangRef/Introduction/Introduction.html#//apple_ref/doc/uid/TP40004397-CH1-SW1文章目录一......
  • GSVA: Generalized Segmentation via Multimodal Large Language Models论文阅读笔记
    Motivation&AbsGeneralizedReferringExpressionSegmentation(GRES):相比于原始的RES任务,一个文本描述里可能出现多个需要分割的物体,或者没有需要分割的物体,难点在于建模不同实体之间复杂的空间关系,以及识别不存在的描述。现有的方法如LISA难以处理GRES任务,为此作者提出了GSV......
  • Dual Instruction Tuning with Large Language Models for Mathematical Reasoning
    本文是LLM系列文章,针对《DualInstructionTuningwithLargeLanguageModelsforMathematicalReasoning》的翻译。数学推理的大语言模型双指令调优摘要1引言2方法3实验4结论局限性摘要最近的进展突出了利用思想链(CoT)数据进行数学推理任务的大型语言模型(LLM)......