1.Category-level 6D Object Pose Recovery in Depth Images
作者在深度模态的背景下,解决类别级的物体6D位姿估计问题,并引入了一种新的基于部件的架构。这种架构适应了因形状差异引起的分布偏移,并消除了纹理、光照、位姿等的变化,作者称其为“固有结构适配器(ISA)”。根据以下3个条件来设计ISA:1)为了定义类别级6D位姿,作者提出了“语义选择中心(SSC)”的概念。2)3D骨架结构(作者推导出的形状不变特征),用于表示从给定类别的实例中提取的部分,并基于这些部分进行学习。3)在训练过程中进行图匹配,使所提出架构的适应/泛化能力在从未见过的实例中得到改善。
2.Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation
为了处理给定类别中不同的和从未见过的物体实例,作者引入了标准化物体坐标空间(简称NOCS),即同一个类别中的所有物体实例使用一个共享的标准模型来表示。然后,通过训练神经网络来推断观察到的像素与共享标准模型的对应关系以及其他信息,例如类别标签和mask。通过将预测图像与深度图相结合,共同估计杂乱场景中多个物体的6D位姿和尺寸。为了训练网络,作者提出了一种新的上下文感知技术来生成大量带注释的混合现实数据。为了进一步改进模型并评估它在真实数据上的性能,作者还提供了一个完全注释的真实场景下的数据集。大量实验表明,该方法能够鲁棒地估计真实场景中从未见过物体的位姿和大小。
3.6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints
作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体。通过学习用少量的3D关键点来简洁地表示一个物体,基于这些关键点,通过关键点匹配来估计物体在帧与帧之间的运动。这些关键点使用无监督端到端学习来实现有效的跟踪。实验表明该方法显著优于现有方法,并支持机器人执行简单的基于视觉的闭环操作任务。
4. CPS: Class-level 6D Pose and Shape Estimation From Monocular Images
作者提出了一种基于深度学习的类别级单目6D位姿估计方法,并将其与度量形状检索相结合。还提出了一种新的损失函数,可以直接对所有参数(即3D方向,平移,缩放和形状)同时进行优化。无需解耦每个参数,而是将点云形式回归后的形状转换为3D,并直接测量其度量偏差。通过实验证明,作者可以从单个图像中检索精确的度量点云,也可以对其进行进一步处理,例如后续的渲染。此外,还证明尽管单目数据存在固有的模糊性,新3D点云损失还是优于所有baseline,并给出了整体良好的结果。