首页 > 其他分享 >在「机器人领域」使用ChatGPT提高生产力

在「机器人领域」使用ChatGPT提高生产力

时间:2023-04-11 12:03:44浏览次数:77  
标签:https 机器人 用户 任务 生产力 无人机 ChatGPT


以下文章来源于空中机器人前沿 ,作者小米

编辑:一点人工一点智能

原文:在「机器人领域」使用ChatGPT提高生产力

最近几个月,ChatGPT 大火,它是OpenAI于去年11月底推出的人工智能聊天机器人程序,已经成为了历史上增长最快的消费者应用程序 [1]。毫无疑问,ChatGPT受到了各个行业的广泛关注。

其中在机器人领域,微软于今年2月20日发布了"ChatGPT for Robotics"的技术报告 [2],为如何将ChatGPT 融入机器人领域提供了一种可能的视角。与纯文本的应用不同,机器人系统需要对现实世界的物理、环境背景和物理动作的执行能力有深入的了解。而且所生成机器人模型需要具备相当的常识性知识和符合实际的物理模型,以及与用户交互以解释和执行实际现实中可行的命令。下面笔者将根据这份报告,解读怎样在机器人领域使用ChatGPT 来提升生产力。

01  Pipeline设计流程

1.1 整体流程

ChatGPT 本质上是一个语言模型,采用对话的形式,根据用户的指令做出相应的回应。从最基本的语言回应,到代码生成与debug,再到情景角色扮演,这些应用的一个核心关键就是用户提示词的撰写(prompt),用户需要通过准确详细的提示词告诉ChatGPT应该做什么,然后让ChatGPT 去执行。为此,

1. 首先需要手工设计一系列的机器人功能库函数来实现底层执行器的命令,如,移动,停止,获得目标的位置信息等等。

2. 第二步是给ChatGPT 写一个提示词,用来描述需要让ChatGPT 执行的目标。

3. 第三步是使用者评估ChatGPT 生成的代码,并且给ChatGPT 提供反馈,让ChatGPT 进行下一步改进。

4. 通过提供反馈,将代码进行不断迭代改进,当用户测试通过之后,就可以部署到实际的系统中了。

流程图如下:

在「机器人领域」使用ChatGPT提高生产力_算法

图 1 利用ChatGPT 进行机器人顶层算法设计 [2]

1.2 关于Prompt 的注意事项

如果想要让ChatGPT 更容易理解用户的意思,产生更准确的回应,那么用户所给出的提示词就需要清晰明了:描述中除了要包含让ChatGPT调用的底层机器人功能库函数之外,还要考虑以下几点内容:

1. 具体的任务要求和约束条件:举个例子比如说想要让机器人移动物体,那么prompt 里面首先要介绍相关信息告诉ChatGPT,比如物体的位置、尺寸等等。

2. 对环境的描述:提示词中需要描述清楚这个任务是在什么环境下进行的。举个例子来说,比如目标任务是在迷宫中导航,那么就需要介绍迷宫的尺寸和形状,以及里面存在的障碍物等信息。

3. 目前的状态信息:需要告诉ChatGPT 机器人系统目前的它的状态信息,比如位置、朝向等等。

4. 目标:比如任务是组装一个拼图,那就需要告诉ChatGPT 需要拼接的零件数目以及期望的完成时间。

5. 解决方案的样例:当任务比较复杂的时候,比如需要ChatGPT 与使用者进行交互的时候,可以通过给一些例子来描述这个过程。见下图。作者向ChatGPT提供了一个机器人何时向人类询问以获取进一步指令的例子。

在「机器人领域」使用ChatGPT提高生产力_机器人_02

图 2 提供范例告诉ChatGPT如何以及何时与用户进行交互以寻求帮助 [2]

6. 提示词的设计原则:可参考:https://learningprompt.wiki,该网站指出了设计提示词的所有技巧和原则。也可以参考https://promptperfect.jina.ai/,该网站能够自动优化所使用的提示词,从而让ChatGPT提供期望的高质量结果。

02  潜在应用前景

在设计完成Pipeline 之后,就可以把目光转到ChatGPT的具体机器人应用上来:如仿真环境下无人机的任务规划和避障,现实世界的空中无人机感知和操纵部署等等。

值得注意的是,在微软的文章中 [2],除了展示ChatGPT 的强大能力之外,也强调了ChatGPT的局限性:不应忽视实际的部署安全性问题,尤其是在实际物理系统机器人部署的情况下。在 ChatGPT有可能产生意外行为的情况下,必须有人在循环中进行监控和干预。此外,在将模型部署到现实世界之前,使用模拟器进行仿真有助于更好地评估模型的性能。文中强调,将 ChatGPT 用于机器人技术并不是完全自动化的过程,而是充当增强人类能力的工具。

本文中主要把应用场景分成了三类:零样本任务规划、通过人在回路的反馈交互来完成复杂任务、包含感知层的任务执行。笔者将针对这三种情况进行一一介绍。

2.1 零样本任务规划

2.1.1 在AirSim 环境下的工业巡检

在该情境下,即使是让非专业的使用者通过ChatGPT 也能够控制无人机完成工业巡检任务目标。

ChatGPT 能够理解用户的意图并且能够精准控制无人机完成任务。视频见https://www.youtube.com/watch?v=38lA3U2J43w

在「机器人领域」使用ChatGPT提高生产力_机器人_03

图 3 AirSim 环境下的工业巡检 [2]

2.1.2 通过人与机器人的语言交互达成现实世界中无人机的飞行任务

ChatGPT 在用户和机器人之间提供了极其直观的自然语言交互界面,仅仅根据一些模棱两可和定义不明确的指令就可以编写机器人代码,并在必要时请求问题的进一步阐释。这种交互模式能够为无人机导航的任务编写复杂的代码结构。视频链接见https://youtu.be/i5wZJFb4dyA

2.2 使用者在回路:通过与ChatGPT交互式对话实现复杂任务

这一部分专注于让ChatGPT 执行复杂任务。这种交互方式允许复杂的结构,例如课程学习(curriculum learning)。在这种情况下,会教授给ChatGPT较小规模的技能,这些技能可以结合起来用于更大、更复杂的任务。此外,ChatGPT 能够获取有关生成的代码的文本反馈,并修改其代码,从而使非专业使用者能够轻松地与之交互。

2.2.1 利用Curriculum learning 实现对物体的操纵摆放

第一个例子是使用机械臂设置了一个块排列任务,为此设计了一个课程。ChatGPT 被要求学习更简单的拾取对象然后放置它们的技能。随后,当被要求使用这些技能来执行更复杂的块排列任务时,ChatGPT将这些学到的技能能够组合在一起。此外,当任务是用五块构建微软徽标时,该模型展示了一个典型的通用性示例,它可以桥接文本域和物理域:因为此任务需要记住公司徽标的外观,包括其颜色,然后将徽标抽象为可由现有机器人动作构建的物理部分。

在「机器人领域」使用ChatGPT提高生产力_无人机_04

图4 用机械臂实现物块摆放 [2]

视频链接见https://youtu.be/wLOChUtdqoA

2.2.2 在AirSim 环境下实现无人机避障

ChatGPT 可以为配备前向距离传感器的无人机编写具有避障功能的目标到达算法。ChatGPT 构建了避障算法的大部分关键模块,但仍需要一些人工反馈以进行矫正。尽管人工反馈以高级文本形式提供,但ChatGPT 能够理解人的指令要求并对代码进行相应的修改。

在「机器人领域」使用ChatGPT提高生产力_人工智能_05

图5 AirSim 环境下实现无人机避障 [2]

视频链接见https://youtu.be/Vn6NapLlHPE

2.3 具备感知功能后进行行动

文章还评估了 ChatGPT 进行感知-动作循环的能力。首先,模型能够利用 API 库在其输出代码中构建感知-动作循环的能力。它能够正确地利用图像采集和目标检测等感知功能来提取机器人导航和控制的相关信息。然后进一步的,使用者可以通过文本对话不断向模型提供感知信息,用户在对话期间可以将观察结果(转换为文本格式)输入 ChatGPT。ChatGPT 能够解析此观察流并输出相应的操作。

2.3.1 具身智能:目标导航

该任务中ChatGPT 拥有了对计算机视觉模型的访问权限,并作为其功能库的一部分,赋予它探索未知环境并导航到用户指定对象的任务。对象检测 API(后端的 YOLOv8 [3])返回边界框,ChatGPT 生成代码来估计相对对象角度并向它们导航。当用户向 ChatGPT 提供来自深度传感器的附加信息时,它产生了一种带有像素深度掩码的改进算法。

在「机器人领域」使用ChatGPT提高生产力_机器人_06

图6 提供视觉接口后进行目标导航 [2]

视频链接见 https://youtu.be/p0fDH9zZm_c

03  总结

在微软的这份文档中,提出了一个将 ChatGPT 用于机器人应用程序的框架。该框架首先需要设计和实施用于机器人控制的 API 库,这些 API 可以帮助 ChatGPT 进行顶层设计。并且,该框架能够用于多种机器人应用场景中:如空中机器人、操纵和视觉导航的部署等等。同时文章也强调,不应让这些工具完全控制机器人系统,尤其是对于安全关键型系统, 因为ChatGPT具有生成错误响应的倾向。因此在实际机器人上执行代码之前,应该在人工监督下确保代码的质量和安全性。

标签:https,机器人,用户,任务,生产力,无人机,ChatGPT
From: https://blog.51cto.com/u_15921966/6182962

相关文章

  • 全网最详细中英文ChatGPT-GPT-4示例文档-智能聊天机器人从0到1快速入门——官网推荐的
    目录Introduce简介setting设置Prompt提示Sampleresponse回复样本APIrequest接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字,生成流畅和有趣的回答。如果你想跟上AI时代的潮流......
  • 小程序入门4—钉钉群机器人消息通知和钉钉工作通知
    前言在消息通知这块,钉钉可谓是玩出了花,比如工作通知、群机器人通知,还有那万恶的Ding一下。钉钉的通知不仅花样多,而且大部分渠道都支持自定义,也即可以自定义设置发送时间、发送内容,并且还支持多种样式的消息如文本、卡片、Markdown等。这篇文章我主要介绍一下常用的两类:钉钉群机......
  • 在VS code中使用ChatGPT
    首先,当前chatGPT有多火我就不赘述了。今天直接给大家安利一个可以在vscode中使用GPT-3.5的插件。ChatGPT-Chat  福利:如果我们没有注册登录账号的话。我们只有2500字符的试用机会。当然如果大家不介意的话可以在注册时通过填写邀请人来获得50000字符的额外奖励哦(疯狂暗示:man......
  • 2022年中国服务机器人行业研究|报告PDF分享(附原数据表)
    报告链接:http://tecdat.cn/?p=31419随着大量企业的涌入,服务机器人产业化即将到来经过多年的发展,我国已经实现了完整的服务机器人产业生态系统。在常态化疫情防控、人口老龄化、技术进步和政策支持等多种因素的推动下,行业快速度过市场教育阶段。据统计,近三年我国服务机器人相关企......
  • 阿里正式加入ChatGPT战局,“通义千问”上线后表现如何?
    ChatGPT发布后,数月间全世界都对AI的能力有了新的认知。ChatGPT掀起的战局,现在又多了一位选手了!阿里版类ChatGPT突然官宣正式对外开放企业邀测,由达摩院开发,名为“通义千问”顾名思义,阿里正式加入ChatGPT战局!这个阿里版ChatGPT“通义千问”,究竟实力几何?阿里版ChatGPT实录通义......
  • 问ChatGPT玄学问题,看来命理师还是不会被取代的
      本来命理师就不是纯粹根据时间来判断的,许多时候得结合当事人的情况来判断具体问题。    这种回答基本上无用,父母宫和其他宫位的关系当然要考虑。八字和紫微的信息大部分情况下是一致的。......
  • ChatGPT大量封号,推荐几款可平替的AI工具
    最近ChatGPT进行了大量封号,博主的账号已经被封禁了......
  • 机器人控制与轨迹规划
    目录1.六自由度机械臂逆解仿真2.小车(移动机器人)仿真平台3.轨迹规划4.六自由度工业机器人DH建模与逆运动学仿真5.机械臂轨迹规划matlab、Vrep联合仿真6.粒子群轨迹规划7.样条曲线轨迹规划8.人形机器人控制仿真9.NUBUS五次非均匀B样条轨迹规划及机械臂仿真10.五次&三次多项......
  • 小车(移动机器人)仿真平台
    实现效果:小车(移动机器人)仿真平台(1)以等腰三角形表示一个小车,三角形顶点指向为小车的朝向,即前进方向。如下图所示,那么我们只要求用三角形表示,而不是图中的形状其运动学模型如下:(2)可以在窗口输入给定的线速度和角速度以驱动小车的运动,它们可以是时间序列数据,也可以是小车的位......
  • 核酸检测机器人
    1.设计一个至少六自由度的机器人,至少包括--个伸缩关节,要求机器人工作空间能够满足左图工作空间的要求(自己定义机械臂安装位置要求能够满足抓取指定空间范围内操作)2.根据自己设计的机器人建立DH坐标系及齐次变换矩阵,并设置合理的关节转动极限,分析和绘制工作空间,关节必须要有合......