首页 > 其他分享 >VoxPoser:机器人接入大模型听懂人话

VoxPoser:机器人接入大模型听懂人话

时间:2023-07-11 20:35:53浏览次数:53  
标签:听懂 接入 模型 机器人 任务 指令 VoxPoser 视觉

李飞飞团队具身智能最新成果来了:

大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。

图片

从此,人类可以很随意地用自然语言给机器人下达指令,如:

打开上面的抽屉,小心花瓶!

图片

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。

图片

然后重点来了, 真实世界中的机器人在未经“培训”的情况下,就能直接执行这个任务。

图片

新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。

可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。

图片

目前项目主页和论文都已上线,代码即将推出,并且已经引起学术界广泛兴趣。

图片

一位前微软研究员评价到:这项研究走在了人工智能系统最重要和最复杂的前沿。

图片

具体到机器人研究界也有同行表示:给运动规划领域开辟了新世界。

图片

还有本来没看到AI危险性的人,因为这项AI结合机器人的研究而改变看法。

图片

机器人如何直接听懂人话?

李飞飞团队将该系统命名为VoxPoser,如下图所示,它的原理非常简单。

图片

首先,给定环境信息(用相机采集RGB-D图像)和我们要执行的自然语言指令。

接着,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map

图片

所谓3D Value Map,它是Affordance Map和Constraint Map的总称,既标记了“在哪里行动”,也标记了“如何行动”

图片

如此一来,再搬出动作规划器,将生成的3D地图作为其目标函数,便能够合成最终要执行的操作轨迹了。

而从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。

更进一步,正是由于这个特点,它也实现了零样本能力,只要掌握了以上基本流程,就能hold任何给定任务。

在具体实现中,作者将VoxPoser的思路转化为一个优化问题,即下面这样一个复杂的公式:

图片

它考虑到了人类下达的指令可能范围很大,并且需要上下文理解,于是将指令拆解成很多子任务,比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。

VoxPoser要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间。

而在用LLM和VLM将语言指令映射为3D地图的过程中,系统考虑到语言可以传达丰富的语义空间,便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作,也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的,那些物体是具有“排斥性”。

图片

还是以开头的例子举

标签:听懂,接入,模型,机器人,任务,指令,VoxPoser,视觉
From: https://www.cnblogs.com/botai/p/VoxPoser.html

相关文章

  • PHP微信接入时的token验证
    微信接入时的token验证//微信token认证$signature=$_GET["signature"];$timestamp=$_GET["timestamp"];$nonce=$_GET["nonce"];$echostr=$_GET["echostr"];//你的设置Token$token="lingqiangkejiToken";//1)将......
  • Matlab/Simulink双馈风机接入的三机九节点模型,所有参数已调好且可调,可直接运行,风电渗
    Matlab/Simulink双馈风机接入的三机九节点模型,所有参数已调好且可调,可直接运行,风电渗透率19.4%可作为仿真环境搭建风机参与一次调频的控制策略,桨距角、超速减载、虚拟惯性控制等,研究频率动态响应、储能调频(模型里无一次调频控制)ID:68279660695889354......
  • Android平台GB28181设备接入技术探讨
    GB/T28181技术背景在此之前,我们先对协议规范做个简单了解:GB28181协议是一种用于视频监控系统互联互通的国际标准,它定义了视频监控系统中的设备间如何进行通信、交换数据和协调控制。以下是GB28181协议的一些主要内容:设备互联互通GB28181协议的核心是实现不同厂商、不同品牌、不同型......
  • IoTOS-v1.2.1接入J-IM(t-io)后台通知App
    IoTOS v1.2.1         一、登录页增加可修改轮播     登录页增加可修改数据轮播:首页轮播图由背景图片、标题、介绍、按钮一、按钮二(可配置跳转地址打开方式)组合而成  二、登录页增加常用运营商平台&关于-IoTOS链接    登录页增加国内常......
  • 记录Unity2021接入穿山甲SDK的几个问题
    Unity2021接入穿山甲SDK,打包一直有报错,费了不少心力,查了N多帖子(绝大部分没什么用),特别感谢ChatGPT提供的线索,最终打包成功,记录几个遇到的问题1、导入最新版本的ExternalDependencyManager,在Github下载源码:https://github.com/googlesamples/unity-jar-resolver;2、ExternalDepend......
  • EasyCVR接入大量设备级联后出现分组加载异常是什么原因?
    EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有GB28181、RTSP/Onvif、RTMP等,以及厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等,能对外分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。有用户反馈,在EasyCVR用户现场接入了大量设备,出现了设备分......
  • 如何实现Android接入 mars的具体操作步骤
    Android接入mars什么是mars?mars是腾讯开发的一套移动端网络通信方案,它是基于移动设备特点设计的高性能、低功耗的短连接通信库。mars提供了一套简单易用的API,方便开发者快速接入并实现稳定可靠的网络通信。在Android平台上,mars提供了marsxlog、marsprotobuf、marsht......
  • 基于瑞芯微平台cif接口dvp相机的视频接入(ov2640、rv1126为例)
    名词定义CIF,指RK芯片中的VIP模块,用以接收Sensor数据并保存到Memory中,仅转存数据,无ISP功能DVP,一种并行数据传输接口,即DigitalVideoPortHSYNC,指DVP接口的行同步信号PCLK,指Sensor输出PixelClockVSYNC,指DVP接口的场同步信号V4L2,即Video4Linux2,Linuxkernel的视频处理模块 ......
  • 【HMS Core】接入华为帐号,获取访问令牌失败,提示错误码20022
    ​【问题描述】通过AppAuth接入华为帐号,调用https://oauth-login.cloud.huawei.com/oauth2/v3/token接口时返回错误,"sub_error":20022,"error_description":“invalidredirect_uri”,"error":1101​ 【问题分析】根据官网接口错误码描述,是由于redirect_uri格式校验不......
  • 设备通过GB28181接入EasyCVR,设备列表多出一层目录是什么原因?
    EasyCVR平台基于云边端协同架构,可支持多协议、多类型的海量设备接入与分发,平台既具备传统安防视频监控的能力,也能接入AI智能分析的能力,在线下均有大量应用。EasyCVR平台可提供的视频能力包括:视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音......