前言
本文重点关注 RGB-D 抓取检测的模拟到真实问题,并将其表述为域适应问题。
一、摘要 Abstract
目录
3.1 Sim-to-Real Transfer 模拟到真实的转变
3.2 Sim-to-real Transfer for Grasp Detection 抓取检测的模拟到真实的转变
4.2 Self-supervised Rotation Pre-training 自监督旋转预训练
4.3 Global-Local Multi-modal Adaptation 全局-局部多模式适应
4.4 Grasp Prototype Adaptation 抓取原型适应
- 提出了一种全局到局部的方法来解决 RGB 和深度数据中的混合域差距以及多模态特征对齐不足的问题。
- 提出了一个抓取原型适应模块,目的是通过在整个训练过程中动态更新和匹配来自模拟和真实场景的抓取原型来促进细粒度的局部特征对齐
二、介绍 Introduction
模拟与真实问题:使用模拟数据训练的抓取检测模型在现实场景中会遭受性能下降。
域不变特征:3在不同训练环境或情境下,仍然能够保留其表现力的特征。
DA(Domain Adaptation)存在的两个局限性:
1)RGB-D 传感器已在最近的抓取检测系统中广泛采用,很多仅在 RGB 模态上进行对准 模拟图像和真实世界之间的RGB和深度图像之间的差距是明显的
2)前的研究通常在图像级别进行全局对齐,其中局部特征显着影响检测性能。考虑到不同局部形状的分布各不相同,直接对齐这些特征会无意中导致拉动与完全不同的局部形状相对应的抓取特征,从而引起歧义。
- 提出了一种新颖的”模拟到真实的抓取检测框架“,即全局到局部多模态自监督域适应Global-to-Local Multi-modal Self-supervised Domain Adaptation(GLMSDA)
- 引入自监督旋转预训练使两个独立的网络能够从模拟和现实世界的 RGB 和深度图像中学习域不变特征
- 用全局域分类器 [19] 分别对齐模拟和现实世界的特征每种方式的数据
- 结合了本地域分类器来对齐抓取提案的特征
- 采用一致性正则化来强制本地域分类器和全局域分类器的结果之间的一致性
- 用 PyBullet 模拟器和 DR(Domain randomization)技术生成基于 GraspNet和 GraspNet-Planar的大规模模拟抓取检测数据集
三、相关工作 Related Work
3.1 Sim-to-Real Transfer 模拟到真实的转变
- 目标:缩小模拟环境和真实环境之间的性能差距
- 主要方案:Domian adaptaion(DA)与 Domain Randomization(DR)
- DR核心思想:通过随机化训练过程中的许多环境参数,使得模型在训练时接触到各种不同的环境变化,从而能够在更广泛的实际应用场景中表现出色。
- 本文中将高斯噪声和椒盐噪声添加到模拟器生成的样本中,复制真实的样本
- DA:给定来自源域的标记数据和来自目标域的未标记数据,DA努力将两个域的特征映射到共享的与域无关的特征空间中,旨在减少它们特征分布之间的差异。
3.2 Sim-to-real Transfer for Grasp Detection 抓取检测的模拟到真实的转变
- 本文提出了一种掌握检测的解决方案,特别解决了具有全局和局部特征对齐的多模态 RGB-D 模式中的模拟到真实问题。
四、方法 Methology
4.1 GL-MSDA framework 整体框架
- 框架包含两个部分:自监督旋转预训练,全局局部多模态适应
- 预训练阶段:模拟和现实世界的 RGB 和深度图像混合,旋转图像并采用相对旋转角度预测作为自监督训练的pretext task。
- 自适应阶段
- 利用 RGB 和深度编码器从两个域的相应模态中提取特征。
- RGB 和深度特征被concatenate连接并输入到 Grasp Proposal Network (GPN) 以生成 Grasp Proposal
- 对于局部抓取特征,采用抓取感兴趣区域网络(GRoI-Net)来预测最终的抓取参数
- 引入局部域分类器来对齐两个域的局部特征
- 取原型适应(GPA)模块利用局部抓取特征来更新抓取原型
- 梯度反转层(GRL)作为全局域分类器
4.2 Self-supervised Rotation Pre-training 自监督旋转预训练
通过预测相对图像旋转角度分别预训练 RGB 和深度网络,在训练抓取检测网络之前缩小模拟域和真实域之间模态特征分布的差距。
- rot90:图像逆时针旋转 (90 × k)°,k ∈ {0, 1, 2, 3}。
- I :来自模拟或现实世界的 RGB 图像
- I ′:随机旋转的对应图像
- AI→I′:预测目标相对旋转角度
- FI 与FI′分别为I,I’的特征,通过同一个RGB编码器获得
- c:卷积层
- f :全连接层
- Ada:自适应池
4.3 Global-Local Multi-modal Adaptation 全局-局部多模式适应
- 使用单个域分类器学习不同的域间隙具有挑战性。为了解决这个问题,作者对 RGB 和深度特征采用单独的全局域分类器。
- 引入了局部域分类器来对齐多模式抓取特征,这有助于减少抓取区域内的差异
- GRL 的工作原理:在前向传播保持不变的同时,梯度符号在反向传播中翻转。
- 域分类器目标:准确地对输入特征的原始域进行分类
- RGB 和深度编码器网络:努力学习模拟输入和真实输入的相似特征,从而混淆域分类器。
源自模拟和现实世界的特征
- FI、FD:RGB Encoder输出与Depth Encoder输出的
- PI,PD:用于预测域标签的域分类器
全局域分类器损失
- Q:全局域标签
局部域分类损失
- NG:表示抓取区域的数量
4.4 Grasp Prototype Adaptation 抓取原型适应
根据不同的抓取对象和环境条件,调整和优化抓取策略和工具,以确保有效和安全地进行物体抓取。这一过程涉及对各种抓取原型进行学习和改进,使系统能够更好地识别和适应新情况。
- 引入了抓取原型适应(GPA)模块,该模块根据平面内抓取旋转角度为模拟域和现实世界生成伪类别原型。
- 划分和构造抓取原型:
- 采用局部抓取的面内旋转角度θ作为划分标准
- 将面内旋转空间均匀地划分为 L 个类别
- 对每个伪类别内的抓取区域的特征进行平均来构建模拟和现实的抓取原型
建模过程方程式
- PSi与PRi :模拟域和真实域的第 i 个原型
- GTi与GRoIi :GRoI-Net 在第 i 个平面内旋转角度类别预测的真实抓取标签和伪抓取标签
- F(r) :r区域的GRoI特征
五、实验 Experiment
总结
- 提出了一种模拟真实 RGB-D 抓取检测方法 GL-MSDA。
- 模态 DA 框架旨在增强 RGB 和深度模态域间隙的鲁棒性。
- 局部适应的使用简化了实例级掌握特征在模拟和现实世界之间的域转移。
- 提出了更充分地对齐局部抓取特征的 GPA 模块。
- 构建了具有DR的模拟数据集。