目录
论文:https://arxiv.org/pdf/2309.09818v1
代码:https://github.com/andvg3/Grasp-Anything
一、论文摘要
ChatGPT等基础模型由于其对现实世界领域的普遍表示,在机器人任务中取得了重大进展。在本文中,我们利用基础模型来解决抓取检测,这是机器人技术中具有广泛工业应用的持续挑战。尽管有许多抓取数据集,但与现实世界的数据相比,它们的对象多样性仍然有限。幸运的是,基础模型拥有广泛的现实世界知识库,包括我们在日常生活中遇到的对象。因此,一个有希望的解决方案是利用嵌入在这些基础模型中的通用知识来解决以前的抓取数据集中的有限表示。为了实现这一解决方案,我们提出了一个新的大规模抓取数据集grasp - anything。抓取- anything在多样性和规模方面表现出色,拥有1M个带有文本描述的样本和超过3M个对象,超过了以前的数据集。从经验上看,我们表明grip - anything成功地促进了基于视觉任务和现实世界机器人实验的零抓取检测。
主要贡献:
1.我们利用基础模型的知识引入了Grasp-Anything,这是一个新的大规模数据集,具有1M(一百万)个样本和3M个对象,在多样性和规模上大大超过了先前的数据集。
2.我们在各种设置上对零射击抓取检测进行基准测试,包括真实世界的机器人实验。结果表明,鉴于其对真实场景安排的全面表示,grasp - anything有效地支持零射击抓取检测
二、Grasp-Anything数据集
图2显示了生成Grasp-Anything数据集的过程概述。我们首先执行提示工程来生成场景描述,并利用基础模型从这些文本提示生成图像。然后自动生成并评估抓取姿势。
A. 场景生成
-
提示工程:为了生成多样化的对象集合,我们使用ChatGPT并进行提示工程来指导ChatGPT生成多样的场景描述。
- 指令初始化:为ChatGPT配置生成包含多种可抓取对象的场景描述的目标。例如,指令ChatGPT生成包含至少两个对象的场景描述句子。
- 上下文增强:通过创建一个自我增强循环来确保长期的质量一致性。我们初始化一个提示缓冲区,手动分配前50个样本。每次从缓冲区抽取10-15个场景描述并输入给ChatGPT,生成新的场景描述并添加到缓冲区中,直到生成100万个场景描述。
-
图像合成:根据ChatGPT生成的场景描述,我们使用Stable Diffusion 2.1生成与场景描述相符的图像。然后使用先进的视觉锚定和实例分割模型(如OFA和Segment-Anything)为每个出现在抓取列表中的对象生成实例分割掩码。
图3. 抓取姿势评估