首页 > 其他分享 >谷歌RoboCat:能解决和适应多种任务的机器人AI智能体

谷歌RoboCat:能解决和适应多种任务的机器人AI智能体

时间:2023-06-21 14:57:56浏览次数:42  
标签:机器人 RoboCat AI 谷歌 任务 Google DeepMind

刚刚,谷歌DeepMind推出了一种可以自我改进、自我提升(self-improving)的用于机器人的AI智能体,名为“RoboCat”。
DeepMind称它是全球第一个可以解决和适应多种任务的机器人AI智能体,并且它可以在各类真实的机器人产品上完成这些任务。

图片

▲RoboCat操控机械臂完成各种各样的任务,来源:Google DeepMind

整体来看,RoboCat最主要的突破在三个方面:
1、DeepMind让一个神经网络能在多个不同的机器人上工作,可以快速操作新的机械臂,解决新的复杂任务。
2、RoboCat学习的新任务越多,就越擅长学习和解决额外的新任务。
3、RoboCat是通用机器人领域的重要研究进展,能够减少对人类监督训练的需求。 

图片

▲RoboCat解决更多类型的任务,来源:Google DeepMind

AI智能体可以自己操控机械臂,学习玩套圈、搭积木、抓水果了!效率极高,还不需要多少人力。
只需要通过100次左右的演示,RoboCat就可以学会操控机械臂来完成各式各样的任务,并且它还能通过自生成的数据来进行迭代改进。
最重要的是,不论是它操控的机械臂还是它要完成的任务,RoboCat之前都从来没见过。

图片

▲RoboCat可以解决的各类任务,来源:Google DeepMind

这种“通用性学习能力”是RoboCat的强项,此外,RoboCat最主要的特点就是“学得快”, 这种能力对于加快机器人领域的研究有重要意义,因为有了这种能力,人类监督训练的需求就会极大减少,这是创造通用机器人非常重要的一环。
在DeepMind演示视频中,RoboCat可以通过自主学习完成“套圈”、“搭积木”、“拿放水果”等任务。目前RoboCat完成一项新任务的成功率已经从初期的36%提升至74%。

图片

▲RoboCat前后版本完成任务成功率对比,来源:Google DeepMind

并且根据DeepMind论文,RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案,领先幅度还是比较明显的,这也是DeepMind研究的重要价值所在。

图片

▲RoboCat与基于视觉的模型在完成现实世界训练任务成功率方面的对比,来源:Google DeepMind

值得一提的是,RoboCat用到的关键技术之一,是一种多模态模型(multimodal model)Gato,而Gato在西班牙语里意为“猫”,也就是“cat”,这也是“RoboCat”这一命名的由来之一。
此前研究人员已经在机器人大规模学习多种任务方面进行了探索,并将对语言模型的理解与现实世界的机器人能力相结合。而RoboCat的进步性在于,它是第一个可以解决和适应多种任务的机器人AI智能体。
DeepMind认为,RoboCat独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人AI智能体的发展起到重要推动作用。
 
论文地址:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf
01.
套圈、搭积木样样精通
将水果从碗里拿出来总共分几步?

 

首先,我们来看看这个RoboCat到底能做什么。
从DeepMind的演示视频中我们可以看到,研究人员在机器人的摄像头下面将物体摆好,机器人就会将摆好的物体状态设定为“目标图像”,在设定好目标图像后,研究人员会将物体的摆放位置还原,然后让机器人操作还原刚才的物体摆放状态。

图片

▲RoboCat完成“套圈”任务,来源:Google DeepMind

在“套圈”这个任务中,RoboCat可以很好的操控机械臂还原橘红色圆圈的位置。
在同一类“套圈”任务中,RoboCat还可以解决更复杂的情况,比如区分大圈和小圈并准确套在对应的金属柱上。

图片

▲RoboCat完成更复杂的“套圈”任务,来源:Google DeepMind

DeepMind还演示了一个任务,就是抓水果。这个任务RoboCat已经在此前的训练中看到过,但值得注意的是,此前的训练数据中从来没有过“人手”出现,这次研究人员给RoboCat设定的目标图像中却包含了人手,最终,RoboCat仍然可以顺利完成任务。

图片

▲RoboCat在目标图像有“人手”干扰的情况下完成抓水果任务,来源:Google DeepMind

这还没完,后续研究人员进一步提高难度,让RoboCat操控了一个它之前从未见过的机械臂,这个机械臂跟之前抓水果用的有所不同,但最终RoboCat依然可以操控这一新的机械臂来成任务。

图片

▲RoboCat操控从未见过的机械臂完成此前学过的任务,来源:Google DeepMind

在另一个“搭积木”的测试中,研究人员展示了RoboCat的另一项技能,当目标图像设定好后,不论初始积木位置是怎样的,RoboCat都可以很好的还原目标图像中的积木状态。

图片

▲当目标图像设定好后,不论初始积木位置是怎样的,RoboCat都可以很好的还原目标图像中的积木状态,来源:Google DeepMind

除了搭积木,RoboCat还可以完成将水果从碗里拿进拿出这样的任务。
02.
基于超大数据集,还会自我迭代升级
五步就能掌握新本领

 

具体来看RoboCat背后的硬核技术,DeepMind提到,RoboCat用到了一种多模态模型Gato,Gato模型可以在模拟环境和物理环境中处理语言、图像和动作,研究人员将Gato的架构与一个大型训练数据集进行了结合,这个数据集包含了各种机械臂解决数百个不同任务的图像序列和动作。
在第一轮训练之后,研究人员让RoboCat进入一个“自我提升(self-improvement)”的训练周期,在这个训练周期中,RoboCat会学习解决很多以前从未见过的任务。
每项新任务的学习分为五个步骤:
1、收集100-1000个由研究人员控制的机械臂完成的新任务演示。
2、在新任务所使用的机械臂上微调(Fine-tune)RoboCat,创建一个专用的衍生代理。
3、衍生代理在机械臂上练习10000次,以生成更多的训练数据。
4、将演示数据和自生成数据合并到RoboCat的现有训练数据集中。
5、在新的训练数据集上训练RoboCat的新版本。

图片

▲RoboCat的训练周期示意图,它能够自生成额外的训练数据,来源:Google DeepMind

上述所有这些训练的结合,意味着RoboCat的数据集将包含数百万次的训练轨迹数据,这些数据来自真实机械臂以及模拟机械臂,包括了RoboCat自生成的数据。

图片

▲RoboCat从各种训练数据类型和任务中学习,来源:Google DeepMind

研究人员总共使用了四种不同类型的机器人和各类机械臂来收集基于视觉的数据。

图片

▲RoboCat使用现实和虚拟机械臂积累训练数据,来源:Google DeepMind

03.
RoboCat:一个“自我提升的通才”

 

在上述这种多样化的训练方式下,RoboCat可以在几个小时内学会操作不同的机械臂,包括一些更加复杂的从未见过的机械臂。
RoboCat可以操作这些机械臂完成之前见过的任务,比如套圈、拿取水果,甚至是在对应形状的格子中放上对应形状的物品,这些任务会考验RoboCat操作的精准度、理解力以及对于形状匹配难题的解决能力。

图片

▲RoboCat用新机械臂完成此前学过的任务,来源:Google DeepMind

用DeepMind的话来说,RoboCat是一个“自我提升的通才”,因为它是基于一个良性的训练循环来学习新任务。简单来说,它学习的新任务越多,它就能更好地学习和解决额外的新任务。
最初版本的RoboCat,在每个新任务进行500次演示后,只有36%的概率能成功的完成之前从未见过的任务,但是最新版本的RoboCat已经将这一成功率提升至74%。
这些提升归功于RoboCat不断增长的经验广度,就像人类在特定领域不断深化学习,从而发展出更加多样化的能力一样。
今天,机器人在我们的生活中已经广泛应用,但大部分机器人只能完成特定的任务,这些机器人基本上都是被提前编程设定好的。
在制造可以完成更多种类任务的“通用机器人”方面,研究进展一直很缓慢,因为收集现实世界中的训练数据是非常费时费力的。
RoboCat这种独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人AI智能体的发展起到重要推动作用。
04.
结语:多模态AI模型引入
通用机器人研究再进一步

 

在全球AI研究热点涌向大模型的当下,谷歌DeepMind似乎对大模型竞赛并不热衷,仍专注于解决AI如何与物理世界交互的问题,并将研究重心锁定在优化机器人技术的基础模型上。
而最新发布的RoboCat,绝对是个了不起的AI模型。它通过视觉目标调节解决了不同平台的各种拾取和放置任务,只需100次演示就能学会在不同的机器人上执行各种任务,从自生成训练数据提高技能的方法令人眼前一亮。
多模态AI模型的引入,为迈向通用机器人的历程贡献了又一个激动人心的进展!
来源:Google DeepMind

标签:机器人,RoboCat,AI,谷歌,任务,Google,DeepMind
From: https://www.cnblogs.com/botai/p/RoboCat.html

相关文章

  • IDEA 取消右上角 Firefox(火狐)、Chrome(谷歌)、Edge的图标一直闪烁!
     IDEA 取消右上角Firefox(火狐)、Chrome(谷歌)、Edge的图标一直闪烁,File>Settings>Tools>WebBrowsersandPreview,去掉三个浏览器的对勾即可! ......
  • 使用AI聊天模型写作和编码心得
    原文合集地址如下,有需要的朋友可以关注本文地址合集地址给大家推荐一个国内暂时免费使用AI聊天模型的网站:ChatAnywhere有需要的朋友可以点击试用一下。写文档要点详细描述要干的事情说清楚你的需求,例如:可以使用序号列出所有需求,让AI模型来梳理逻辑对描述不清楚的带你让模型进一步解......
  • 使用AI聊天模型写作和编码心得
    原文合集地址如下,有需要的朋友可以关注本文地址合集地址给大家推荐一个国内暂时免费使用AI聊天模型的网站:ChatAnywhere有需要的朋友可以点击试用一下。写文档要点详细描述要干的事情说清楚你的需求,例如:可以使用序号列出所有需求,让AI模型来梳理逻辑对描述不清楚的带你让......
  • 通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估
    数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势。智能文档处理(IDP)技术能够高效地从多格式文档中捕捉、提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本。近期,合合信息智能文字识别产品通过中国信息通信研究院(以下简称“中国信通院”)“可信AI—智能......
  • IS220PAICH2A 336A4940CSP11通用电气模拟输入输出模块
    IS220PAICH2A336A4940CSP11通用电气模拟输入输出模块IS220PAICH2A336A4940CSP11通用电气模拟输入输出模块  但是传统的以太网是一种商用网络,要应用到工业控制中还存在一些问题,主要有以下几个方面。1、存在实时性差,不确定性的问题传统的以太网采用了CSMA/CD的介质......
  • ChatGPT免费入口-在线体验AI科技成果
    大家好!我很激动地向你们介绍一个令人惊叹的AI科技成果-ChatGPT。这是一个由OpenAI开发的先进语言模型,它利用深度学习和自然语言处理技术,能够与用户进行智能对话,并提供帮助、回答问题和解决难题。**体验无处不在的AI智能:**如果你对人工智能感兴趣,或者想要亲身体验最新的AI技术......
  • ChatGPT免费入口-在线体验AI科技成果
    **ChatGPT免费入口-在线体验AI科技成果**大家好!我非常兴奋地向大家介绍一个令人惊叹的AI科技成果-ChatGPT。作为一款由OpenAI开发的高级语言模型,它利用深度学习和自然语言处理技术,能够与用户进行智能对话,并提供帮助、回答问题和解决难题。**无处不在的AI智能体验:**如果你对人......
  • 到底什么是Java AIO?为什么Netty会移除AOI?一文搞懂AIO的本质!
    本文由得物技术团队Uni分享,即时通讯网收录时有内容修订和大量排版优化。1、引言关于Java网络编程中的同步IO和异步IO的区别及原理的文章非常的多,具体来说主要还是在讨论JavaBIO和JavaNIO这两者,而关于JavaAIO的文章就少之又少了(即使用也只是介绍了一下概念和代码示例)。在深......
  • centos7安装portainer集群
    1、首先保证服务器都已安装上docker2、如果Docker未安装,请按照官方文档中的说明安装Docker:https://docs.docker.com/engine/install/3、安装Docker后,使用以下命令在主节点上拉取Portainer镜像:dockerpullportainer/portainer-ce在从节点上拉取agent镜像dockerpullportaine......
  • 《Adobe AIR权威指南》——《Flex 3权威指南》作者新作
    媒体评论“本书是AIR技术图书中的佼佼者,将使你轻松结合桌面技术和因特网技术进行Web开发。”——RafiqElmansy,资深多媒体图形设计师和Web设计师“一部少见的好作品。作者毫无保留地提供了在AdobeAIR实战中必用的技巧和技术。”             ......