Open-World Object Manipulation using Pre-trained Vision-Language Models

时间：2023-12-17 17:26:40浏览次数：49

标签：Pre instruction obj 泛化 Language Models image object policy

概述

提出MOO: Manipulation of Open-World Objects

用预训练的VLM在图像中标记instruction的object的坐标，传入policy进行控制，可以zero-shot泛化到novel object，还支持手指、点击输入指令。

问题

机器人泛化到训练中没有见过或者操作过的object。

perception-planning-control的pipline支持robots处理很多object
- 这样的pipline太脆弱，因为物体操作依赖精准的物体定位
预训练的图像和语言embedding构造policy，对novel semantic concept没有grounding能力

总之，一些方法可以泛化到很多object但是流程太脆弱，另一些方法没那么脆弱但是泛化能力不足

动机

为了提高对新语义概念的泛化能力，采用open-vocabulary预训练VLM，而不是单modality的模型。

方法

instruction的5种固定模板：pick X, move X near Y, knock X over, place X upright, place X into Y

用Owl-ViT来提取object位置信息，将得到的bounding box的中点pixel置1.0（另一个obj置0.5），作为image的一个channel
- 采用pixel而不是bounding的好处：对任何大小的可见物体都work，且和各种视觉的方法都适配（都能改成pixel形式）
- （为了提高及时性）只对第一帧图片进行提取，对位置变化的处理由policy进行
- 用颜色、大小、形状等信息进行标定，例如：An image of a small blue elephant toy
- 设置一个统一的threshold对bounding box的score进行筛选
将image序列输入RT-1的policy结构中
- image序列用EfficientNet处理，结合FiLM对动作embedding的处理
- 接入Token Learner，再接入一个Transformer

注意instruction的encode只包含verb信息

实验

训练数据

对RT-1的数据进行了增广，主要是增加了“pick”技能的object。作者表示只选择pick是因为这个简单，数据收集效率高，方便展现出对各种object的泛化（真会说）。

演示数据的分布：

泛化能力

49种见过的obj，47种没见过的

作者专门强调了是完全没见过的obj，而不是没见过的instruction组合

多种模态输入

模型扩展性

总结和不足

利用了VLM的语义理解能力，实现novel object的泛化。

不足：

object的表示在图像出现歧义（例如物体覆盖或者阻挡等）时不再好用
skill的泛化仍然需要局限在training data中（对于完全不同的形状和大小的obj无能为力）
instruction的格式需要简单清晰且固定化，尤其是对verb的定义。这个问题可能可以通过LLM解决
无法解决instruction中利用空间来定义的object，例如"the small object to the left of the plate"

标签：Pre,instruction,obj,泛化,Language,Models,image,object,policy
From： https://www.cnblogs.com/eirrac-rain/p/17909363.html

无涯教程-Java - boolean startsWith(String prefix, int toffset)函数
判断字符串是否以prefix开头。booleanstartsWith-语法这是此方法的语法-publicbooleanstartsWith(Stringprefix,inttoffset)这是参数的详细信息-prefix -要匹配的前缀。toffset -从何处开始查找字符串。booleanstartsWith-返回值如果参数表示......
无涯教程-Java - boolean startsWith(String prefix)函数
判断字符串是否以prefix开头。booleanstartsWith-语法publicbooleanstartsWith(Stringprefix)这是参数的详细信息-prefix - 要匹配的前缀。booleanstartsWith-返回值如果是以prefix开头，则返回true，否则为false。booleanstartsWith-示例importjava.io.*......
Segmentation Transformer: Object-Contextual Representations for Semantic Segment
SegmentationTransformer:Object-ContextualRepresentationsforSemanticSegmentation*Authors:[[YuhuiYuan]],[[XiaokangChen]],[[XilinChen]],[[JingdongWang]]Locallibrary初读印象comment::(OCRnet)聚焦于语义分割中的上下文聚合问题，利用物体类别的表......
Wordpress modown8.8.1主题学习版开心版
Modown是模板兔基于Erphpdownwordpress下载插件开发的付费下载资源、付费下载源码、收费附件下载、付费阅读查看隐藏内容、团购下载的WordPress主题，本站提供Modown主题开心版，免授权使用，仅用于个人学习，禁止用于商业用途！！！下载地址：https://www.itwk.cc/circle/921.html......
Flutter使用SharedPreferences示例
SharedPreferencesAndroid原生开发经常会用SharedPreferences来保存一些设置，Flutter用什么来保存这些设置呢？在Flutter中，你可以使用shared_preferences插件来实现类似Android原生开发中的SharedPreferences功能，用于在应用程序中保存和检索持久化的键值对。具体使用首先，在你的Fl......
string.replace()与removeprefix() 和 removesuffix()的区别字符串技巧
string.replace(),removeprefix()和removesuffix()是Python中的字符串方法，它们都用于修改字符串，但是它们的功能和使用方式有所不同：string.replace(old,new[,count])：这个方法会将字符串中的old子串替换为new子串。如果提供了可选参数count，则只替换前count个old子串¹......
WordPress替代品：国产工具一样好用
随着互联网的发展，网站建设变得越来越简单和普及化。WordPress作为一个广泛使用的开源内容管理系统（CMS），被大量的网站使用。然而，随着国内互联网产业的崛起，国产的网站建设工具也逐渐走向成熟。本文将介绍三款国产工具，它们可以完美替代WordPress，且同样好用。HelpLookHelpLook是一款功能......
界面组件DevExpress VCL v23.2新功能预览 - 支持RAD Studio 12.0
本文即将发布DevExpressVCL 下一个主要更新（v23.2），在之前的文章中（点击这里回顾>>）我们为大家介绍了新的工具提示、图表空间中的标签重叠等，本文将主要介绍DevExpressVCLv23.2中将支持的RADStudio12.0、增强的图像选择器、字体和自定义图标包等。新版即将发布，敬请期待哦~获取De......
Django添加models.py的ForeignKey数据迁移后找不到，各种报错
Django添加models.py的ForeignKey数据迁移后找不到，各种报错在创建DJango项目时候，已经实现文件列表功能，在添加用户绑定文件列表功能时候，添加user作为外键关联，添加后执行数据库迁移，一直报错找不到userid报错信息django.db.utils.OperationalError:nosuchcolumn:student_chec......
Postman/apifox pre-request script
Postman/apifoxpre-requestscriptconstUUID=require('uuid');//HelperfunctiontogeneratethesignaturefunctionmakeSign(md5Key,params){constpreStr=buildSignString(params);consttext=preStr+md5Key;console.log("signS......