首页 > 其他分享 >论文解读|进一步融合:体积融合中6D姿态估计的多对象推理

论文解读|进一步融合:体积融合中6D姿态估计的多对象推理

时间:2023-07-31 10:35:19浏览次数:42  
标签:6D 预测 对象 物体 融合 估计 体积 推理 姿态

原创 | 文 BFT机器人

论文解读|进一步融合:体积融合中6D姿态估计的多对象推理_ide

01

背景


机器人等智能设备需要从它们的车载视觉系统中获得高效的基于物体的场景表示,以解释接触、物理和遮挡。已识别的精确对象模型将与未识别结构的非参数重建一起发挥重要作用。


本文提出了一个系统用于估计实时的接触和遮挡的精确姿态。从单个RGBD视图中提出三维对象姿态建议,在摄像机移动时从多个视图中积累姿态估计和非参数占用信息,并执行联合优化,以估计接触中的多个对象的一致的、不相交的姿态。


本文在两个对象数据集上通过实验验证了该方法的准确性和鲁棒性:YCB-Video和具有挑战性的杂乱的YCB-Video。


其具有周围空间感知的姿态预测,预测网络接收占用网格作为对象的不可穿透空间;多对象姿态的联合优化,对多对象的场景配置进行评估和更新;将融合和6D姿态作为实时系统,利用目标级体积图进行增量和精确的姿态估计。


机器设备在执行复杂的任务的时候,需要从相机中捕捉信息,从而对物体之间的接触、物理和遮挡进行推理,实现它们在混乱的环境中进行精确操作。一些短期任务通过端到端连接感知和动作的端到端学习模型来完成,但扩展和多阶段的任务可以在以后3D场景表示展现出巨大的潜力。


论文解读|进一步融合:体积融合中6D姿态估计的多对象推理_数据集_02


图1 显示的是我们在一个实时的机器人抓取应用程序中演示了该系统


论文解读|进一步融合:体积融合中6D姿态估计的多对象推理_ide_03


图2 6D姿态估计系统

02

相关工作及文本思想


本文展开工作与这些RGB-D和基于学习的深度神经网络方法最密切相关。与之前工作中基于点云和以目标对象为主的方法相比,使用更结构化的体积表示和目标对象周围的几何信息来处理几何图形。


(1)对象级的体积融合阶段。


它将对象检测产生的对象实例掩模与深度测量和相机跟踪组件结合起来,以生成体积地图。物体级体积融合建立体积图是我们的姿态估计系统的第一阶段,它允许系统逐渐增加对场景的知识,直到有了对场景中物体姿态的理解。


对于这个目标级的体积融合阶段,本文构建了一个管道,结合了RGB-D相机跟踪、目标检测和被检测对象的体积映射。为了跟踪已经初始化的对象,使用当前帧中检测到的掩模的交叉过并集,之后渲染掩模当前重建。对于已经初始化的对象,我们将新的深度测量值融合到该对象的体积图中。


(2)体积姿态预测阶段。


它利用来自体积图的周围信息和RGB-D掩模来为每个对象产生一个初始的姿态预测。系统从体积图中检索周围的信息,以将目标物体周围区域的空间感知整合到姿态预测中。周围信息的边界框应该覆盖目标对象的整个区域,根据目标对象的大小而改变。由于使用固定的体素维数来进行网络预测,所以需将每个对象从对象模型大小计算出来,使用不同的体素大小。


为了结合二维和三维特征进行姿态预测,从三维特征网格中提取与二维特征对应的点和三插值。这些三维和二维特征被连接为点向特征向量来进行姿态预测,获取预测姿态和置信度。


论文解读|进一步融合:体积融合中6D姿态估计的多对象推理_数据集_04


图3一个典型的例子对象分析


由于对象的可见性降低(例如,黄色框),姿态预测具有对象之间的交叉。ICC通过使用来自附近对象的约束和自由空间重建,将对象姿态细化为比ICP更好的配置。从交叉物体姿态细化的角度出发理解,本文比较提出的迭代碰撞检查(ICC)与迭代最近点(ICP)


(3)基于碰撞的姿态细化阶段。


通过使用物体CAD模型和已占据空间之间的可微碰撞检查,通过梯度下降联合优化多个物体的姿态。在联合优化中,引入了可微碰撞检查,包括对象CAD模型的占用体素化和占用网格之间的交叉损失。由于两者都是可微的,于是使用GPU上的优化批处理操作来优化对象姿态。


(4)CAD对齐阶段。


它用一个包含紧凑和丰富的信息的CAD模型替换每个对象的中间表示。在进行姿态估计和细化之后,一旦在不同视图中估计的姿态有足够的一致性,我们就会将对象CAD模型衍生到地图中。利用转换后的对象姿态使用姿态损失进行比较,使用姿态损失来训练姿态预测网络。


论文解读|进一步融合:体积融合中6D姿态估计的多对象推理_ide_05

图4 网络体系结构

利用目标对象的掩蔽RGB-D及其周围信息作为占用网格进行姿态预测

03

总结


本文使用YCB-Video数据集在之前的工作中被广泛用于评估6D姿态估计,但由于所有的场景都是桌面的,该数据集在对象方向和遮挡的多样性方面受到限制。


MoreFusion系统在YCB-Video和ClutteredYCB-Video两个物体数据集上进行了实验验证,并与其他方法进行了对比。


实验结果表明,MoreFusion系统在物体姿态估计方面具有更高的准确性和鲁棒性,特别是在存在遮挡和复杂背景的情况下。


此外,MoreFusion系统还可以在实时机器人应用程序中实现高效的物体检测和姿态估计,从而实现了机器人在复杂环境中精确有序地拆卸物体堆的能力。


因此,MoreFusion系统的主要优势是:具有周围空间感知的姿态预测、多物体姿态的联合优化和融合、6D姿态的完全集成以及在复杂环境中实现高效的物体检测和姿态估计。


作者 | George

排版 | 居居手


更多精彩内容请关注公众号:BFT机器人

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

标签:6D,预测,对象,物体,融合,估计,体积,推理,姿态
From: https://blog.51cto.com/bftrobot/6905832

相关文章

  • 基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教
    基于中文金融知识的LLaMA系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学基于LLaMA系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning)的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集,并在此基础上对LLaMA系模型进行了指令......
  • TSINGSEE青犀视频汇聚融合平台EasyCVR的中性化版本如何配置?
    TSINGSEE青犀视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等,平台融合性强、开放度高、部署轻快,在智慧工地、智慧园区、智慧工厂、智慧码头、智慧水利等场景中有着广泛的应......
  • TSINGSEE青犀视频汇聚融合平台EasyCVR的中性化版本如何配置?
    TSINGSEE青犀视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等,平台融合性强、开放度高、部署轻快,在智慧工地、智慧园区、智慧工厂、智慧码头、智慧水利等场景中有着广泛的应......
  • TSINGSEE青犀视频汇聚融合平台EasyCVR的中性化版本如何配置?
    TSINGSEE青犀视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等,平台融合性强、开放度高、部署轻快,在智慧工地、智慧园区、智慧工厂、智慧码头、智慧水利等场景中有着广泛的应......
  • GaussDB(for Redis)多租户:读写权限控制和数据库隔离的完美融合
    本文分享自华为云社区《GaussDB(forRedis)企业级特性揭秘之多租户管理》,作者:GaussDB数据库。华为云GaussDB(forRedis)持续完善企业级增强特性,是名副其实的"RedisPlus",其中很经典的企业级特性是多租户能力,支持添加只读账号、读写账号,并且可约束每个账号可访问的数据库(DB)范围......
  • 数字孪生融合GIS系统将为交通领域带来什么改变?
    随着科技的不断发展,数字孪生和GIS技术正成为交通领域的新宠。数字孪生是指通过数学建模、数据采集和实时仿真等技术手段,将实体世界与数字世界相互关联,形成一个全新的虚拟系统。而GIS(地理信息系统)则是将空间数据与地图进行整合和分析的技术,为交通规划和管理提供了重要支撑。数字......
  • 业财税档融合:大企业管理升级的必然选择
    随着中国税收征管政策的的不不断完善,企业税务管理越来越被重视,而传统的税务管理模式已经无法满足企业日益增长的税务管理需求。例如,传统的税务管理方式存在着信息孤岛、易出错、易丢失等问题,这使得企业难以及时准确地完成税务管理。此外,税务管理信息不连通,也难以形成全局掌握的全面......
  • 打造原生 WebGL 2D 引擎:一场创意与技术的融合
    打造原生WebGL2D引擎:一场创意与技术的融合1.引言在当今数字化时代,网页的功能越来越丰富,已经远远超越了传统的文本和图片呈现。我们生活在一个充满交互性和视觉魅力的网络世界。每天都会遇到许多令人惊叹的网页效果和动画。作为一个Web3D图形的开发,希望可以通过网页来实现更多......
  • 用 Hugging Face 推理端点部署 LLM
    开源的LLM,如Falcon、(Open-)LLaMA、X-Gen、StarCoder或RedPajama,近几个月来取得了长足的进展,能够在某些用例中与闭源模型如ChatGPT或GPT4竞争。然而,有效且优化地部署这些模型仍然是一个挑战。在这篇博客文章中,我们将向你展示如何将开源LLM部署到HuggingFaceInferenc......
  • 算网深度融合成趋势,天翼云让政企上云更安全、更便捷!
    7月12日,由中国通信标准化协会算网融合产业及标准推进委员会(CCSATC621)组织召开的“2023年算网融合产业发展峰会-SD-WAN产业发展论坛”在北京召开,论坛旨在进一步凝聚SD-WAN发展共识,面向产业数字化需求,探讨SD-WAN技术演进与产业发展趋势。会上,天翼云荣膺“2022年度SASE最/佳应用奖”......