CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D PointCloud Understanding
本文提出一种简单的跨模态 3 维—2 维区域对应模块,分别将点云模态和图像模态提取的特征向量重新投影到一个公共的特征空间中,并基于最大化与模态无关的互信息的思想设计对比学习损失函数。
由于点云的不规则结构,针对 3D 对象分类、分割和检测等不同任务的大规模点云数据集的手动注释通常很费力。自我监督学习在没有任何人类标签的情况下运行,是解决这个问题的一种有前途的方法。我们在现实世界中观察到,人类能够将从 2D 图像中学到的视觉概念映射到理解 3D 世界。受这一见解的鼓舞,我们提出了 CrossPoint,这是一种简单的跨模式对比学习方法,用于学习可转移的 3D 点云表示。它通过在不变空间中最大化点云和相应渲染的 2D 图像之间的一致性来实现对象的 3D2D 对应,同时鼓励点云模态中变换的不变性。我们的联合训练目标结合了模态内部和模态之间的特征对应关系,从而以自我监督的方式集成了来自 3D 点云和 2D 图像模态的丰富学习信号。实验结果表明,我们的方法在各种下游任务(包括 3D 对象分类和分割)上优于以前的无监督学习方法。此外,消融研究验证了我们的方法在更好地理解点云方面的效力。
图 1. 所提议方法的图示。给定一个对象的 3D 点云及其从随机相机视点渲染的 2D 图像,CrossPoint 强制执行 3D-2D 对应,同时通过自监督对比学习保持模型对仿射和空间变换的不变性。这有利于通用点云表示,然后可用于 3D 对象分类和分割。请注意,左侧显示的 2D 图像是直接从可用的 3D 点云渲染的 [68]。
图 2. 所提出方法 (CrossPoint) 的整体架构。它由两个分支组成,即:点云分支通过对点云增强施加不变性来建立模内对应关系,图像分支通过在渲染的 2D 图像特征和点云之间引入对比损失来简单地制定跨模态对应关系原型特征。 CrossPoint结合两个分支的学习目标联合训练模型。我们丢弃图像分支,仅使用点云特征提取器作为下游任务的主干。
我们工作的目标是捕获 3D 对象和 2D 图像之间的对应关系,以建设性地学习可转移的点云表示。如图所示。
如图 1 所示,我们将点云的增强版本和相应的渲染 2D 图像彼此靠近地嵌入到特征空间中。在现实世界中,人类擅长将从 2D 图像中学到的视觉概念映射到理解 3D 世界。例如,如果一个人通过图像观察到某个物体,他/她就能够轻松识别该物体。认知科学家认为 3D-2D 对应是儿童视觉学习过程的一部分 [9, 48]。同样,在机器人和自动驾驶等现实世界应用中,了解这种 3D-2D 对应关系的模型将极大地促进对 3D 世界的有效理解。我们的方法特别遵循以下共同目标:将相同点云的增强版本紧密地嵌入到特征空间中,同时保留它们与原始 3D 点云的渲染 2D 图像之间的 3D-2D 对应关系。
联合模态内和跨模态学习目标强制模型获得以下所需属性:(a)将点云和图像模态中出现的组成模式关联起来,例如对象的细粒度部分级属性; (b) 通过对增强施加不变性来获取点云的空间和语义属性的知识; (c) 将渲染的 2D 图像特征编码为增强点云特征的质心,从而促进与变换无关的 3D-2D 对应。此外,与 SimCLR [7] 类似,CrossPoint 不需要用于负采样的存储体。尽管有记忆库,但丰富的增强和硬阳性样本的制定已被证明可以促进对比学习[25,77]。我们假设模态内设置和跨模态对应中所采用的变换提供了足够的特征增强。特别是,渲染的 2D 图像特征可以作为制定更好的表示学习的硬性肯定。
我们通过多个下游任务验证了我们方法的通用性。具体来说,我们在合成[63]和现实世界[57]对象数据集中执行形状分类。尽管在合成对象数据集 [6] 上进行了预训练,但 CrossPoint 在分布外数据中的性能证明了联合学习目标的重要性。此外,消融研究证明了模式内和跨模式目标的按组件的贡献。我们还采用多个广泛使用的点云网络作为我们的特征提取器,从而证明了我们方法的通用性。
3.提出的方法
在这项工作中,我们通过引入模内和跨模态对比学习目标的融合来改进无监督3D点云表示学习。本节首先介绍所提出方法的网络架构细节(第 3.1 节)。然后我们描述了在模态内(第 3.2 节)和跨模态(第 3.3 节)中制定的对比学习损失函数设置。最后,我们提出我们的总体培训目标(第 3.4 节)。该方法的概述如图2所示。
3.1.准备工作
假设我们有一个数据集,D = {(Pi ,Ii)} |D| i=1,其中 Pi ∈ R N×3 和 Ii ∈ R H×W×3,其中 Ii 是 3D 点云 Pi 的渲染 2D 图像。请注意,Ii 是通过从随机相机视点捕获 Pi 获得的 [6]。我们的目标是以自我监督的方式训练点云特征提取器 fθP (.),以便有效地转移到下游任务。为此,我们使用图像特征提取器 fθI (.)、多层感知器 (MLP) 投影头 gφP (.) 和 gφI (.) 分别用于点云和图像。
3.2.模态内实例判别
受图像模态对比预训练成功的启发[7,20,37],我们制定了模态内实例判别(IMID),通过执行自监督对比学习来强制一组点云几何变换 T 的不变性。给定输入 3D 点云 Pi ,我们构造其增强版本 P t1 i 和 P t2 i 。我们通过按顺序随机组合 T 的变换来组合 t1 和 t2。我们使用旋转、缩放和平移等变换。除此之外,我们还利用空间变换,例如抖动、归一化和弹性变形。无论增强如何,相应的变换矩阵参数都是随机初始化的。
点云特征提取器 fθP 将 P t1 i 和 P t2 i 映射到特征嵌入空间,并且使用投影头 gφP 将所得特征向量投影到应用对比损失的不变空间 R d 。
我们将 P t1 i 和 P t2 i 的投影向量分别表示为 z t1 i 和 z t2 i ,其中
。目标是最大化 z t1 i 与 z t2 i 的相似度,同时最小化与小批量点云中所有其他投影向量的相似度。我们利用 SimCLR [7] 中提出的 NT-Xent 损失作为此阶段的判别实例。请注意,随着自监督对比学习的最新进展,我们的方法不使用任何记忆库 [5,15,23]。我们的模态内实例辨别损失函数 Limid 可以描述为:
其中 N、τ 和 s(:) 分别是小批量大小、温度系数和相似度函数。我们使用余弦相似度作为相似度函数。
3.3.跨模态实例判别
除了点云模态内的特征对齐之外,我们还引入了跨点云和图像模态的辅助对比目标来学习判别特征,从而产生更好的 3D 点云表示学习能力。正如第 2 节中所讨论的,一些工作旨在学习跨模式设置中的可转移点云表示。然而,据我们所知,在点云模态中执行实例区分的同时执行 3D-2D 对应的联合学习目标尚未得到很好的探索。我们用第4.2节中的实验结果进行了实证验证我们的联合目标优于现有的无监督表示方法,从而促进 3D 点云的有效表示学习。
为此,我们首先使用视觉主干 fθI 将 Pi 的渲染 2D 图像 Ii 嵌入到特征空间中。我们选择常用的 ResNet [21] 架构作为 fθI 。然后,我们使用图像投影头 gφI 将特征向量投影到不变空间 R d 。投影图像特征定义为 hi,其中 hi = gφI (fθI (Ii))。与之前的跨模态方法 [38, 73] 相比,我们没有明确地对两种模态(点云和图像)执行 IMID。相反,我们在点云上实现 IMID,并利用图像模态来更好地理解点云。我们提出了一个学习目标,专门引起对 3D 点云理解的偏见,当与图像理解相比时。为此,我们计算投影向量 z t1 i 和 z t2 i 的平均值,以获得 Pi 的投影原型向量 zi 。
在不变性空间中,我们的目标是最大化 zi 和 hi 的相似度,因为它们都对应于相同的对象。我们的跨模态对齐强制模型从更难的正样本和负样本中学习,从而比仅从模内对齐学习增强了表示能力。损失函数 Lcmid 的公式为:
其中 s、N 和 τ 指的是与等式 1 中相同的参数。
3.4.总体目标
最后,我们在训练期间获得作为 Limid 和 Lcmid 组合的最终损失函数,其中 Limid 对点云变换施加不变性,而 Lcmid 注入 3D-2D 对应关系。
标签:CrossPoint,模态,Contrastive,2D,Learning,图像,点云,我们,3D From: https://blog.51cto.com/u_16282361/7621834