首页 > 编程语言 >论文学习笔记:Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation

论文学习笔记:Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation

时间:2024-11-15 10:15:17浏览次数:3  
标签:Real 分类器 特征 Global 抓取 Detection RGB 对齐 模拟

前言

本文重点关注 RGB-D 抓取检测的模拟到真实问题,并将其表述为域适应问题。

一、摘要 Abstract

目录

一、摘要 Abstract

二、介绍 Introduction

三、相关工作 Related Work

3.1 Sim-to-Real Transfer 模拟到真实的转变

3.2 Sim-to-real Transfer for Grasp Detection 抓取检测的模拟到真实的转变

四、方法 Methology

4.1 GL-MSDA framework 整体框架

4.2 Self-supervised Rotation Pre-training 自监督旋转预训练

4.3 Global-Local Multi-modal Adaptation 全局-局部多模式适应

4.4 Grasp Prototype Adaptation 抓取原型适应

五、实验 Experiment

总结


  • 提出了一种全局到局部的方法来解决 RGB 和深度数据中的混合域差距以及多模态特征对齐不足的问题。
  • 提出了一个抓取原型适应模块,目的是通过在整个训练过程中动态更新和匹配来自模拟和真实场景的抓取原型来促进细粒度的局部特征对齐

二、介绍 Introduction

模拟与真实问题:使用模拟数据训练的抓取检测模型在现实场景中会遭受性能下降。

域不变特征:3在不同训练环境或情境下,仍然能够保留其表现力的特征。

DA(Domain Adaptation)存在的两个局限性:

1)RGB-D 传感器已在最近的抓取检测系统中广泛采用,很多仅在 RGB 模态上进行对准 模拟图像和真实世界之间的RGB和深度图像之间的差距是明显的

2)前的研究通常在图像级别进行全局对齐,其中局部特征显着影响检测性能。考虑到不同局部形状的分布各不相同,直接对齐这些特征会无意中导致拉动与完全不同的局部形状相对应的抓取特征,从而引起歧义。

  • 提出了一种新颖的”模拟到真实的抓取检测框架“,即全局到局部多模态自监督域适应Global-to-Local Multi-modal Self-supervised Domain Adaptation(GLMSDA)
  • 引入自监督旋转预训练使两个独立的网络能够从模拟和现实世界的 RGB 和深度图像中学习域不变特征
  • 用全局域分类器 [19] 分别对齐模拟和现实世界的特征每种方式的数据
  • 结合了本地域分类器来对齐抓取提案的特征
  • 采用一致性正则化来强制本地域分类器和全局域分类器的结果之间的一致性
  • 用 PyBullet 模拟器和 DR(Domain randomization)技术生成基于 GraspNet和 GraspNet-Planar的大规模模拟抓取检测数据集

三、相关工作 Related Work

3.1 Sim-to-Real Transfer 模拟到真实的转变
  • 目标:缩小模拟环境和真实环境之间的性能差距
  • 主要方案:Domian adaptaion(DA)与  Domain Randomization(DR)
  1. DR核心思想:通过随机化训练过程中的许多环境参数,使得模型在训练时接触到各种不同的环境变化,从而能够在更广泛的实际应用场景中表现出色。
  2. 本文中将高斯噪声和椒盐噪声添加到模拟器生成的样本中,复制真实的样本
  3. DA:给定来自源域的标记数据和来自目标域的未标记数据,DA努力将两个域的特征映射到共享的与域无关的特征空间中,旨在减少它们特征分布之间的差异。
3.2 Sim-to-real Transfer for Grasp Detection 抓取检测的模拟到真实的转变
  • 本文提出了一种掌握检测的解决方案,特别解决了具有全局和局部特征对齐的多模态 RGB-D 模式中的模拟到真实问题。

四、方法 Methology

4.1 GL-MSDA framework 整体框架

  • 框架包含两个部分:自监督旋转预训练,全局局部多模态适应
  • 预训练阶段:模拟和现实世界的 RGB 和深度图像混合,旋转图像并采用相对旋转角度预测作为自监督训练的pretext task。
  • 自适应阶段
  1. 利用 RGB 和深度编码器从两个域的相应模态中提取特征。
  2. RGB 和深度特征被concatenate连接并输入到 Grasp Proposal Network (GPN) 以生成 Grasp Proposal
  3. 对于局部抓取特征,采用抓取感兴趣区域网络(GRoI-Net)来预测最终的抓取参数
  4. 引入局部域分类器来对齐两个域的局部特征
  5. 取原型适应(GPA)模块利用局部抓取特征来更新抓取原型
  6. 梯度反转层(GRL)作为全局域分类器
4.2 Self-supervised Rotation Pre-training 自监督旋转预训练

通过预测相对图像旋转角度分别预训练 RGB 和深度网络,在训练抓取检测网络之前缩小模拟域和真实域之间模态特征分布的差距。

  • rot90:图像逆时针旋转 (90 × k)°,k ∈ {0, 1, 2, 3}。
  • I :来自模拟或现实世界的 RGB 图像
  • I ′:随机旋转的对应图像

  • AI→I′:预测目标相对旋转角度
  •  FI 与FI′分别为I,I’的特征,通过同一个RGB编码器获得
  •  c:卷积层
  •  f :全连接层
  • Ada:自适应池

4.3 Global-Local Multi-modal Adaptation 全局-局部多模式适应

  • 使用单个域分类器学习不同的域间隙具有挑战性。为了解决这个问题,作者对 RGB 和深度特征采用单独的全局域分类器。
  • 引入了局部域分类器来对齐多模式抓取特征,这有助于减少抓取区域内的差异
  • GRL 的工作原理:在前向传播保持不变的同时,梯度符号在反向传播中翻转。
  • 域分类器目标:准确地对输入特征的原始域进行分类
  • RGB 和深度编码器网络:努力学习模拟输入和真实输入的相似特征,从而混淆域分类器。

源自模拟和现实世界的特征

  • FI、FD:RGB Encoder输出与Depth Encoder输出的
  • PI,PD:用于预测域标签的域分类器

全局域分类器损失

  • Q:全局域标签

局部域分类损失

  • NG:表示抓取区域的数量
4.4 Grasp Prototype Adaptation 抓取原型适应

根据不同的抓取对象和环境条件,调整和优化抓取策略和工具,以确保有效和安全地进行物体抓取。这一过程涉及对各种抓取原型进行学习和改进,使系统能够更好地识别和适应新情况。

  • 引入了抓取原型适应(GPA)模块,该模块根据平面内抓取旋转角度为模拟域和现实世界生成伪类别原型。 

  • 划分和构造抓取原型:
  1. 采用局部抓取的面内旋转角度θ作为划分标准
  2. 将面内旋转空间均匀地划分为 L 个类别
  3. 对每个伪类别内的抓取区域的特征进行平均来构建模拟和现实的抓取原型

建模过程方程式

  • PSi与PRi :模拟域和真实域的第 i 个原型
  • GTi与GRoIi :GRoI-Net 在第 i 个平面内旋转角度类别预测的真实抓取标签和伪抓取标签
  • F(r) :r区域的GRoI特征

五、实验 Experiment


总结

  • 提出了一种模拟真实 RGB-D 抓取检测方法 GL-MSDA。
  • 模态 DA 框架旨在增强 RGB 和深度模态域间隙的鲁棒性。
  • 局部适应的使用简化了实例级掌握特征在模拟和现实世界之间的域转移。
  • 提出了更充分地对齐局部抓取特征的 GPA 模块。
  • 构建了具有DR的模拟数据集。

标签:Real,分类器,特征,Global,抓取,Detection,RGB,对齐,模拟
From: https://blog.csdn.net/AccumulateAZ/article/details/143717621

相关文章

  • Proj. CDeepFuzz Paper Reading: Checker Bug Detection and Repair in Deep Learning
    3.TensorGuard:ARAG-BasedMulti-agentframeworktodetectandfixDLCheckerBugsRAGDesignrelevantcontextualinformationfromalargecorpusofcodechangesInput:therootcauseofthecheckerbugqueriedOutput:codechangeBasedon:Sentence-tra......
  • [Paper Reading] Fusing Monocular Images and Sparse IMU Signals for Real-time Hum
    目录名称TL;DRMethodLocalPoseEstimationRNN-P1RNN-P2RNN-P3GlobalTranslationEstimationRNN-T1RNN-T2RNN-T3HiddenStateFeedbackMechanismExperiment效果可视化总结与发散相关链接名称link时间:23.09作者与单位:主页:https://github.com/shaohua-pan/RobustCapTL;DR......
  • 【阅读文献笔记】TransXNet: Learning Both Global and LocalDynamics with a Dual Dy
    从经典的ViTs说起,即基于MHSA构建远距离建模实现全局感受野的覆盖,但缺乏像CNNs般的归纳偏差能力。因此在泛化能力上相对较弱,需要大量的训练样本和数据增强策略来弥补。针对这个问题,SwinTransformer率先引入了移位窗口自注意力来引入归纳偏差并减少计算成本。然而,作者......
  • AFPN: Asymptotic Feature Pyramid Network for Object Detection-afpn
    paper可以借鉴的点:下采样和上次样融合两个不同尺度特征图fromcollectionsimportOrderedDictimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFdefBasicConv(filter_in,filter_out,kernel_size,stride=1,pad=None):ifnotpad:p......
  • 内核参数pci=realloc
    内核参数pci=realloc在Linux系统中,pci=realloc是一个内核启动参数,用于控制PCI设备所需的内存基地址寄存器(BaseAddressRegisters,BARs)的重新分配。这个参数对于解决一些PCI设备在启动时由BIOS分配的内存地址不正确、不兼容或者无法满足特定需求的问题非常有用。PCI设备的BAR......
  • VMware ESXi 6.7U3u macOS Unlocker & OEM BIOS 2.7 集成 Realtek 网卡驱动和 NVMe 驱
    VMwareESXi6.7U3umacOSUnlocker&OEMBIOS2.7集成Realtek网卡驱动和NVMe驱动(集成驱动版)此版本解决的问题:VMwareHostClient无法将现有虚拟磁盘(VMDK)附加到虚拟机请访问原文链接:https://sysin.org/blog/vmware-esxi-6-sysin/,查看最新版。原创作品,转载请保留出......
  • 有DEM,如何在Global Mapper中绘制等高线,并导出至CAD
    通常,用无人机航测或其它途径得到的DEM、DSM来绘制等高线,一般流程是将DEM导出至南方CASS或其它格式的高程点文件,再用这些高程点来建立DTM、结三角网、编辑三角网,来进行等高线的绘制,做过等高线生产的测绘兄弟们都清楚,这个过程还是十分繁琐的。实际上,用GlobalMapper可以直接从DEM中......
  • MMdetection 问题报错 mmdet/evaluation/metrics/coco_metric.py data[‘category_id
    方案一:有人说在自己定义的conifg文件中增加 metainfo={'classes':('class1','class2','class2',),'palette':[(220,20,60),(221,11,22),(221,11,42),]}方案二:修改mmdet/evaluation/metrics文件的内......
  • 【人脸伪造检测】Spatial-Phase Shallow Learning: Rethinking Face Forgery Detectio
    一、研究动机[!note]创新点:利用相位谱实现伪造检测,并且证明了卷积模型可以提取隐性特征。由于上采样是伪造模型的关键步骤,这篇论文通过相位信息检测上采样的伪影。对比之前的频率模型:F3-Net:通过离散余弦变换后的统计特征实现伪造检测二、检测模型可学习的知识点......
  • 【人脸伪造检测后门攻击】 Exploring Frequency Adversarial Attacks for Face Forger
    一、研究动机​ 现有的后门攻击方法生成的对抗样本容易被识别,只是在空间域增加了扰动。为此,作者提出了一种频率对抗性攻击的方法,在频域中增加了对抗性的扰动DCT,接着利用融合模块对不同频段的能量进行微调,有效的避免了在空间范围攻击的冗余噪声:FGSM,PGD,最终通过逆变换生成对抗样......