首页 > 其他分享 >Instruction-Following Agents with Multimodal Transformer

Instruction-Following Agents with Multimodal Transformer

时间:2023-12-16 17:12:23浏览次数:26  
标签:Transformer 训练 text image transformer times Multimodal Following

概述

提出了InstructRL,包含一个multimodal transformer用来将视觉obs和语言的instruction进行编码,以及一个transformer-based policy,可以基于编码的表示来输出actions。

前者在1M的image-text对和NL的text上进行训练,后者跟踪了整个obs和act的历史,自回归地输出动作。

问题

  • 纯语言预训练模型
    • 与视觉表示是分离的,使得区分视觉相关的语义(如颜色)变得困难
  • 现有的预训练的多模态模型
    • 在语言理解上不如只在language上训练的预训练模型,无法完成长的详细的指令
    • 视觉输入和文本输入的表示是分开学习的,一般需要另外设计一个特别的网络结构来整合这些表示

动机

用图像和文本同时训练多模态模型:a large masked autoencoding transformer jointly trained on image-text and text-only data

方法

Multimodal Representation

pretrained backbone: M3AE(Multimodal masked autoencoder),基于ViT和BERT的transformer结构

  • 在image-text数据集CC12M和text-only数据集上训练得到

Language & observation

  • Language Instruction

    • 编码为\(E_x\in\R^{n\times d_e}\),\(n\)是tokens数量,\(d_e\)是embedding维度
  • Image Observation\(\{c^k_t\}^K_{k=1}\)

    • 分割成image patches,用linear层转化为embedding
    • 得到\(E_c\in\R^{l_c\times d_e}\),\(l_c\)是patch token的数量,\(d_e\)是embedding维度

image和text拼接得到\((E_c,E_x)\in\R^{(l_c+n)\times d_e}\),输入一系列transformer块得到最终的表示\(\hat o^k_t\in\R^{(l_c+n)\times d_e}\)

过一个average pooling得到\(o_t^k\in \R^{d_e}\)

\(L\)个中间层拼接,得到\(h_t^k\in\R^d,d=L\times d_e\)

\(K\)个相机拼接,得到\(h_t=\{h_t^1,\cdots,h_t^K\}\in\R^{K\times d}\)

Proprioception & Action

  • Proprioception \(o_t^P\in \R^4\)用linear上采样得到\(z_t\in\R^4\times d\)
  • Action 映射到\(f_t\in \R^d\)

Transformer-based Policy

image

context-conditional policy(上下文调制的策略),上下文长度为4,即\(4(K+5)\)个embedding

用behavioral cloning来训练policy,loss function:

\[\mathcal L=\frac{1}{|B|}\sum_{\delta\in B}\left[\sum_{t\leq T}MSE(a_t,a_t^*)\right] \]

实验

benchmark:RLBench 74个task,每个task有100个demonstration,task分为9个类型

每个episode会对物体的形状、颜色、位置进行随机;

模型训练100K个iteration,每个task测500个ep的成功率

image

对比实验

两个baseline:

  • Hive-Former 预训练的语言模型
  • CLIP-RL 预训练的视觉语言模型

image

image

image

消融实验

image

image

标签:Transformer,训练,text,image,transformer,times,Multimodal,Following
From: https://www.cnblogs.com/eirrac-rain/p/17905047.html

相关文章

  • Transformers实战——文本相似度
    文章目录一、改写文本分类1.导入相关包2.加载数据集3.划分数据集4.数据集预处理5.创建模型6.创建评估函数7.创建TrainingArguments8.创建Trainer9.模型训练10.模型评估11.模型预测二、交互/单塔模式1.导入相关包2.加载数据集3.划分数据集4.数据集预处理5.创建模型(区别)6.创建评估......
  • 【学习笔记】transformer 简札
    高铁心血来潮逼着自己把这个模型的结构看了一遍,不写下来会忘掉的Encoder输入是词向量。wordvector->[(multihead)self-attention->forward]×n->layernormalizationselfattention就是qkv矩阵乘法得到z,multiheadselfattention就是进行多个矩阵乘法然后把\(z_......
  • Swin Transformer 马尔奖论文(ICCV 2021最佳论文)
    目录简介作者之一的微软亚研院的首席研究员胡瀚老师在bibili讲过该论文swintransformer比ViT做的更好的原因之一就是它将图片的一些特性嵌入到了网络模型之中,比如说平移不变性和尺寸不变性等,这样使得网络能够在cv领域做的更好。该文章提出的SwinTransformer可以被当做通用的......
  • MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力
    前言 过度训练让中度模型出现了结构泛化能力。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础......
  • Transformer架构在大型语言模型(LLM)中的应用与实践
     Transformer架构是当今最前沿的语言模型技术之一,它已经在谷歌的BERT、OpenAI的GPT系列中取得了显著的成就。这一架构之所以独特,是因为它打破了传统的序列处理模式,引入了创新的“自注意力”机制。 Transformer架构的核心是自注意力机制,它使模型能够识别和重视输入数据中不同......
  • [论文阅读] Replacing softmax with ReLU in Vision Transformers
    Pretitle:ReplacingsoftmaxwithReLUinVisionTransformersaccepted:Arxiv2023paper:https://export.arxiv.org/abs/2309.08586code:None关键词:attention,parallelization阅读理由:GoogleDeepmind,标题挺有意思Idea序列缩放能缓解ReLU等激活函数在attention中替......
  • Retentive Networks Meet Vision Transformers, 视觉RetNet
    alias:Fan2023tags:RetNetrating:⭐share:falseptype:articleRMT:RetentiveNetworksMeetVisionTransformers初读印象comment::(RMT)RetentiveNetwork(RetNet)因其显式衰减机制而在自然语言处理中受到关注,但它不适合基于图像的任务。本文提出了保留性自我注意力......
  • 20.Explain how the following reasoning fails to address the complexity of the is
    Round1:IdentifyingtheFailureinReasoningSpeaker1(StudentA):Hello,everyone!Let'skickoffourdiscussionbyexaminingthereasoning:"Sanyaiswarmallyearroundandhasbeautifulbeaches,soitisthebestplaceforavacation."......
  • Recommendation as Instruction Following: A Large Language Model Empowered Recomm
    目录概InstructRecInstructionGenerationZhangJ.,XieR.,HouY.,ZhaoW.X.,LinL.,WenJ.Recommendationasinstructionfollowing:alargelanguagemodelempoweredrecommendationapproach.2023.概通过指令跟随来利用大模型进行推荐,本文介绍了不同的指令......
  • 深入解析LLaMA如何改进Transformer的底层结构
    本文分享自华为云社区《大语言模型底层架构你了解多少?LLM大底层架构之LLM模型结构介绍》,作者:码上开花_Lancer。当前绝大多数大语言模型结构都采用了类似GPT架构,使用基于Transformer架构构造的仅由解码器组成的网络结构,采用自回归的方式构建语言模型。但是在位置编码、层归一化......