论文总结：Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

ChatGPT等基础模型由于其对现实世界领域的普遍表示，在机器人任务中取得了重大进展。在本文中，我们利用基础模型来解决抓取检测，这是机器人技术中具有广泛工业应用的持续挑战。尽管有许多抓取数据集，但与现实世界的数据相比，它们的对象多样性仍然有限。幸运的是，基础模型拥有广泛的现实世界知识库，包括我们在日常生活中遇到的对象。因此，一个有希望的解决方案是利用嵌入在这些基础模型中的通用知识来解决以前的抓取数据集中的有限表示。为了实现这一解决方案，我们提出了一个新的大规模抓取数据集grasp - anything。抓取- anything在多样性和规模方面表现出色，拥有1M个带有文本描述的样本和超过3M个对象，超过了以前的数据集。从经验上看，我们表明grip - anything成功地促进了基于视觉任务和现实世界机器人实验的零抓取检测。

主要贡献：

1.我们利用基础模型的知识引入了Grasp-Anything，这是一个新的大规模数据集，具有1M(一百万)个样本和3M个对象，在多样性和规模上大大超过了先前的数据集。

2.我们在各种设置上对零射击抓取检测进行基准测试，包括真实世界的机器人实验。结果表明，鉴于其对真实场景安排的全面表示，grasp - anything有效地支持零射击抓取检测

二、Grasp-Anything数据集

图2显示了生成Grasp-Anything数据集的过程概述。我们首先执行提示工程来生成场景描述，并利用基础模型从这些文本提示生成图像。然后自动生成并评估抓取姿势。

A. 场景生成

提示工程：为了生成多样化的对象集合，我们使用ChatGPT并进行提示工程来指导ChatGPT生成多样的场景描述。
- 指令初始化：为ChatGPT配置生成包含多种可抓取对象的场景描述的目标。例如，指令ChatGPT生成包含至少两个对象的场景描述句子。
- 上下文增强：通过创建一个自我增强循环来确保长期的质量一致性。我们初始化一个提示缓冲区，手动分配前50个样本。每次从缓冲区抽取10-15个场景描述并输入给ChatGPT，生成新的场景描述并添加到缓冲区中，直到生成100万个场景描述。
图像合成：根据ChatGPT生成的场景描述，我们使用Stable Diffusion 2.1生成与场景描述相符的图像。然后使用先进的视觉锚定和实例分割模型（如OFA和Segment-Anything）为每个出现在抓取列表中的对象生成实例分割掩码。

图3. 抓取姿势评估

图3(a)：显示了一个对象的分割掩码。掩码用于确定对象的边界和中心点。

抓取姿势：表示为2D矩形，如图中的绿色矩形。
接触点：抓取线的两个端点，与对象接触的点。
凸包：通过对象分割掩码构建的凸包，用于确定可行的抓取姿势。

图3(b)：展示了抓取姿势的扭矩评估方法。

净扭矩计算：通过公式
标签：Foundation,scale,Anything,检测,抓取,场景,Grasp,数据
From： https://blog.csdn.net/weixin_47151388/article/details/139351464

height_scale = scales[2] IndexError: index 2 is out of bounds for axis 0 with si
1.yolov5网络层优化在yolov5训练之前最好是改一下网络层，要不会报这个错。Traceback(mostrecentcalllast): File"convertCaffe.py",line159,in<module> convertToCaffe(graph,prototxt_path,caffemodel_path,exis_focus=True,focus_concat_name="Concat_40",......
[论文阅读] FontDiffuser@ One-Shot Font Generation via Denoising Diffusion with M
Pretitle:FontDiffuser:One-ShotFontGenerationviaDenoisingDiffusionwithMulti-ScaleContentAggregationandStyleContrastiveLearningaccepted:AAAI2024paper:https://arxiv.org/abs/2312.12142code:https://github.com/yeungchenwa/FontDiffuserref:......
源代码管理工具简明宣介——Team Foundation Server（TFS）
TeamFoundationServer（TFS）是一款由Microsoft提供的强大的源代码管理工具，它为软件开发团队提供了一个全面的应用生命周期管理平台。一、核心功能源代码管理：TFS支持集中式和分布式版本控制系统，包括TFVC（TeamFoundationVersionControl）和Git。这使得团队能够灵活选择最适合其项......
主流源代码管理工具：Team Foundation Server（TFS）
在软件开发领域，源代码管理工具的重要性不言而喻。它们不仅帮助开发者有效地管理代码，还促进团队协作，确保项目的顺利进行。在众多源代码管理工具中，TeamFoundationServer（TFS）凭借其独特的功能和优势，赢得了众多团队的青睐。TFS概述TFS是Microsoft开发的一款源代码管理和项目管理工......
remote desktop(sunshine + moonlight + tailscale)
Introduction常用的远程桌面软件要么收费，要么延迟很高，今天记一种低延迟的远程桌面实现方式。ArchitecturesunshineSunshine是一个为Moonlight设计的自托管游戏流媒体主机项目，由LizardByte开发。这个项目提供低延迟的云游戏服务器功能，支持AMD、Intel和Nvidia的GPU硬件编码，同时......
基于UltraScale架构的XCVU3P-3FFVC1517E XCVU3P-2FFVC1517I XCVU3P-1FFVC1517E高性能
概述VirtexUltraScale+器件是基于14nm/16nmFinFET节点的高性能FPGA，支持3DIC技术和多种计算密集型应用。AMD第三代3DIC使用堆叠硅片互联(SSI)技术打破了摩尔定律的限制，并且实现了最高信号处理和串行I/O带宽，以满足最严格的设计要求。它还提供了一个虚拟的单片设......
AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读
《AdaZoom:TowardsScale-AwareLargeSceneObjectDetection》笔记1.研究动机1.1挑战与困难小目标检测和对象尺度差异存在挑战现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性，缺乏对不同尺度物体的适应性。1.2解决方案构建了一个自适应缩放网络(简称AdaZoom)，对......
"基础模型时代的机器人技术" —— Robotics in the Era of Foundation Models
翻译：2023年是智能机器人规模化的重要一年！对于机器人领域之外的人来说，要传达事物变化的速度和程度是有些棘手的。与仅仅12个月前的情况相比，如今人工智能+机器人领域的大部分景观似乎完全不可识别。从学术界到初创公司再到工业研究实验室，2023年带来了一波研究进展，迫使许多人更新了......
Qt 从 QTransform 逆向解出 Translate/Scale/Rotate（平移/缩放/旋转）分析
QTransform用于图形绘制，它定义了如何平移（translate）、缩放（scale）、切变（shear）、旋转（rotate）或投射（project）坐标系。注意：QTransform是作用于坐标系，不是直接作用于图形。实际运用中我们可以通过QPainter、QGraphicsView、QGraphicsItem实现图形的平移、缩放、旋转等操作，但是需要从......
graspnet复现保姆级教程
ubuntu22.04复现graspnet保姆级教程1.配置环境1.1确定环境Ubuntu22.04显卡驱动：DriverVersion：470.239.06CUDA版本（作者使用的是10.0.221）根据CUDA版本确定cudnn（）版本根据CUDA和cudnn版本下载对应的pytorch版本python==3.7.16（必须大于等于3.6）pytorch==1.7.0......

论文总结：Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

一、论文摘要

二、Grasp-Anything数据集

A. 场景生成

相关文章

赞助商

阅读排行