首页 > 其他分享 >论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio

时间:2023-10-19 17:06:29浏览次数:48  
标签:Resolutio Segmentation via 训练 特征 样本 学习 点云 我们

Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolution Attention

基于对比自我监督和多分辨率注意力的小样本点云语义分割

摘要

本文提出了一种适用于现实世界应用的有效的小样本点云语义分割方法。现有的点云小样本分割方法在很大程度上依赖于具有大注释数据集的完全监督预训练,这导致学习的特征提取对那些预训练的类有偏差。然而,由于小样本学习的目的是处理未知/看不见的类,因此预训练中的这种类特定特征提取不适合推广到新的类中进行小样本学习。此外,由于注释困难,点云数据集几乎没有大量的类。为了解决这些问题,我们提出了一个用于小样本学习预训练的对比自监督框架,旨在通过类不可知的对比监督来消除特征提取偏差。具体来说,我们为3D点云实现了一种新的对比学习方法,该方法具有可学习的增广器,以实现逐点区分,从而通过自我监督增强具有管理过拟合的预训练。此外,我们开发了一个多分辨率注意力模块,同时使用最近点和最远点来更有效地提取局部和全局点信息,并采用了中心集中的多原型来减轻类内稀疏性。进行了全面的实验来评估所提出的方法,这表明我们的方法达到了最先进的性能。此外,还对实际的CAM/CAD分割进行了案例研究,以证明我们的方法在实际应用中的有效性。

一、引言

点云语义分割是计算机视觉中的一项重要任务,它有利于智能制造、自动驾驶、机器人操纵等许多实际应用。由于其复杂性和非结构化特性,点云分割学习通常需要更多的资源,包括注释数据集、计算硬件等。尽管现有的完全监督方法已经证明了它们的能力[1]-[6],但这些方法的一个问题是,它们严重依赖于大规模的注释数据集,对于许多现实世界的应用来说,这些数据集是不切实际或成本高昂的。此外,在完全监督学习下训练的模型对新类的泛化能力相对较差。由于许多实际应用需要以数据高效的方式进行学习,小样本点云语义分割[7]-[9]由于其有效性和实用性而越来越受欢迎。

元学习和度量学习是小样本学习的常用分支,主要遵循预训练、训练和测试范式[10],[11]。通过采用小样本学习,点云分割模型通常能够从相对较小的注释数据集中更有效地学习,并具有更好的泛化性能。WPSNet[12]提出了一种用于点云分割的可学习相干点变换器,该变换器可以预测平滑的几何变换场,以使模板3D形状朝着输入形状变形。多视图比较方法也被开发用于少数拍摄点云语义分割[13]。最近,attMPTI[7]提出了一种引人注目的多原型转导方法,该方法可以捕捉点之间的几何相关性和语义相关性。我们之前的工作[14]采用T-Net[2]来增强具有中心损失的模型理解能力。然而,它在复杂场景中的性能仍然有限。

传统上,小样本点云分割通常使用完全监督学习进行预训练,其中增强的特征投影与那些预训练的类高度耦合,导致类特定的特征偏差。因此,这种有偏见的特征提取可能对小样本泛化有害,因为它的目的是处理看不见/未知的类。此外,全监督预训练通常需要在与少数镜头任务接近的领域中的大规模注释数据集,这对于许多真实世界的任务来说可能实际上是不可行的。为了解决这些弱点,我们采用对比自监督技术[15]进行少镜头云分割,以消除这种特征提取偏差,从而使学习的编码器投影可以更通用universal,提取更好、更通用better and more general的特征,用于进一步的小样本学习。此外,由于我们的方法是自我监督的,它在很大程度上消除了为预训练目的准备注释数据集的负担。

在这项工作中,我们提出了基于可学习增强因子的对比学习,以实现有效的自我监督预训练,其中学习目标是在两个备选视图中区分各个点。与2D图像增强不同,点云增强以非结构化和无序格式处理数据。考虑到这些特征,我们在对比学习中集成了PointAugment[16]的可训练增广器,该增广器可以自动优化增广,以在形状和点级别上利用更好的非结构化变化和变形。因此,在没有特定类别指导的情况下,自监督特征提取在点级别上的区分能力得到了加强,这有利于以下的小样本自适应。

此外,我们提出了一个用于小样本学习的多分辨率注意力(MRA)模块,以更好地捕捉局部和全局信息。尽管注意力机制[17]、[18]在点云任务中被广泛使用,但大多数方法直接将注意力用于所有点,这包括来自冗余背景的过度分散注意力的信息,并影响性能。当分割小对象时,这个问题尤其严重,因为大的背景点很容易淹没前景特征。基于这一发现,我们设计了一个只关注局部最近邻居和全局最远点的MRA块。由于有选择性的点注意力,我们的方法还节省了计算内存,并获得了更好的性能。

最后,这项工作的贡献可以总结为,

•我们提出了一个具有对比自监督预训练的小样本点云语义分割框架,它不仅可以减轻类特定偏差的影响,而且可以显著降低对注释大规模预训练数据集的要求。

•提出了一种计算效率高的MRA块,它能够更有效地引导注意力,并减少分心背景信息的影响。

•我们提出了一种基于中心的多原型生成过程,该过程可以减少类内距离,扩大类间距离,从而确保类内的密集分布和类间的区分。

二、相关工作

A.点云语义分割

点云语义划分可以被视为一个逐点分类问题,需要考虑点对点差异和拓扑分布。PointNet[1]首先表达了一种端到端的深度神经网络,它可以直接处理原始点云并获得合理的性能,而不是将点云转换为体素网格或多视图图像。然而,PointNet缺乏提取局部几何特征的能力。PointMLP[19]使用残差多层感知器(MLP)块和几何仿射模块提取局部特征。而DGCNN[4]提出了Edgeconv块来增强捕获局部特征的能力。随着注意力机制的日益普及,分层转换器[6]通过基于注意力的块来解决这个问题。在我们的工作中,我们提出了一种MRA块,它不仅可以提取局部最近邻特征,还可以保留全局键形特征。

小样本学习

小样本学习是一个解决样本稀缺问题的研究领域。它旨在训练一个模型,该模型能够在没有大量标记数据的情况下推广到新的类[20]。已经提出了几种方法来解决小样本问题,例如,迁移学习[21]将经验从具有丰富标记数据的源任务转移到可用数据稀缺的目标任务。元学习[22],[23]训练可以跨任务提取元知识的元学习者。在这些方法中,度量学习因其简单有效而引人注目。基于度量学习的方法通常具有这样的范式,即它计算每个支持样本的表示,以将信息传播到查询特征,并将每个查询实例分配给与自身具有最大相似性的支持类。小样本学习也能够与其他学习算法(如增量学习[24])协作,以实现更好的泛化能力。在点云小样本域中,attMPTI[7]在特征空间中用多个原型表示每个类,并应用非参数方法基于支持特征预测查询实例的类。在我们的工作中,我们提出了一种对比自监督,以通过预训练阶段增强小样本学习的特征提取能力,并提出了一个具有基于度量清除的原型和标签传播的MRA模块,以促进小样本自适应。

三、 方法

A.问题公式化

根据之前的工作[7],本工作中要解决的小样本点云语义分割是一个N-way K-shot分割学习问题。给定一个支持集

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云

,总共有n个类要分割,每个第n个类包含多个k个支持点云Ps及其相应的标签Ys,我们的学习任务是通过S获得一个最优网络Fθ*(·),该网络可以对查询集执行分割任务

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_02

其中Ps∈RM×f包含M个点,具有f个通道的特征,包括xyz坐标、RGB通道等,Yq和

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_03

,L是损失函数。根据常见的实践,小样本点云分割的学习过程通常分为两个阶段,即预训练阶段和小样本学习阶段。点云数据集D=Dtrain∪Dtest包含两个不重叠的子集Dtrain和Dtest,它们分别具有类集Ztrain和Ztest,其中Ztrain∩Ztest=∅。

预训练阶段旨在获得更好的基点云特征提取器,从而有助于后续的小样本学习。通常,在预训练中采用完全监督学习,以获得更好的特征提取器初始化。小样本学习阶段采用标准集学习进行训练和测试,其中每个集由N×K个支持点云和N个查询点云组成,形成N向K镜头集。在小样本学习阶段的预训练阶段和训练部分,具有类集Ztest的测试数据集Dtest都不可用于训练监督。

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_04

图1。我们的框架包括预训练和小样本学习阶段。在预训练阶段,使用可训练增广器来生成输入点云的增广视图,其中逐点对比损失被设计用于自监督编码器。在预训练阶段之后,将只使用编码器。在小样本学习阶段,编码器将输入点云映射到特征空间,多分辨率注意力(MRA)块提取注意力特征并将其与输入连接。通过支持特征,基于中心的多原型生成块提取原型,并确保特征空间中的密集分布。然后,标签网络将原型和查询特征作为输入,并进行基于图的标签传播。最后,在具有查询集的基本事实标签的评估块中计算损失函数。

B.框架概述

图1说明了我们提出的用于小样本点云语义分割的框架。在这项工作中,我们的关键思想是通过预训练阶段提高特征提取能力,以获得更好的提取器初始化,用于小样本学习,其中提出了一种对比自监督学习方法来实现这一目的。自监督编码器投影Eα(·)被认为对预训练类的偏差较小,从而提取更好、更通用的特征用于进一步的小样本学习。

在小样本学习阶段,我们的流水线包含五个部分,如图1所示。首先,预训练的基于DGCNN的编码器Eα将查询和支持点云投影到特征空间中,表示为

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_05

在这项工作中,我们提出了一种MRA块,以更好地提取具有计算效率的局部和全局信息,表示为

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_06

它采用将原始特征与MRA的输出连接起来的残差结构,并表示连接运算。接下来,我们在MRA特征空间中为每个类采样多个原型,以更好地表示它们的复杂数据分布。由于表示同一类的多个原型是不规则的,可能具有较大的类内距离,我们使用居中块来确保原型在特征空间中具有密集分布。通过学习支持样本的原型,在标签网络中完成查询样本的预测,该网络以Xq和Xs的多原型为输入。通过标签传播,网络传递每个点的预测。最后,评估网络计算我们网络的整体损失函数L,并通过梯度下降更新网络参数。

C.与可学习增强子的对比自我监督

我们在预训练阶段提出了一种基于可学习增元的对比自我监控技术,以消除由于传统的直接针对特定类别的完全监督预训练而产生的特征偏差。独特的是,我们的自我监督使用了一个可训练的点云增强器来获得两个备选视图,以进行更有效的对比学习。受[16]的启发,增广器首先将原始点云(xyz)P∈RM×3投影到高维特征空间中,得到

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_07

,其中Ca3表示增广器的特征维数。同时考虑了点级别和形状级别的增强。形状级扩充训练MLP网络以产生变换矩阵Ts。点级扩充是产生位移噪声Np∈RM×3的可训练MLP。

对于形状级增强,我们首先在~P上使用最大池来获得特征向量Fs∈R1×Ca,将其与高斯分布噪声合并,并将其馈送到MLP以获得Ts。对于点级增强,直接将Fs的N个拷贝与~P一起馈送到我们的网络以获得Np。

最后,我们用于对比学习的增强点云可以表示为,

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_08

其中⊗指的是矩阵乘法。增强器还具有多个不可训练的随机增强层,例如平移和抖动,以增强增强。

与实例层面的标准对比学习不同,我们提出的点云对比学习是在点层面进行区分。具体而言,将两个备选视图

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_09

馈送到具有分类头的编码器Eα中,以获得两个分割输出

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_10

,其中Nc是预训练中的总类数。对比损失被公式化为将相同的点从O到O’区分为,

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_11

其中oi和O’i分别是O和O’中的第i个点特征。

D.多分辨率注意力和多原型模块

提出了多分辨率注意力模块,以更好地增强局部和全局特征提取,具有计算效率和有效性的优势。我们认为,对于局部信息,最近的点最重要,因为它们最有可能共享同一类。对于全局信息,应该对关键点进行全局采样,以表示整个场景/身体,而不是在某个级别的“更大”窗口中进行限制。因此,我们的关键思想是利用最近点和最远点作为多分辨率注意力的核心概念。

具体来说,考虑查询点云P∈RM×f中的一个查询点Pi∈R1×f,我们的方法找到了它的K最近邻居(KNN)集,表示为

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_12

,其中N(·)表示KNN运算,NK是最近邻居的数量。相反,采用最远点采样(FPS)算法来获得全局关键点,即

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_13

,其中F(·)表示与Pi相关的FPS运算,NF是最远点的数量。因此,我们可以将Pi论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_14的特征表示为

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_15

其中C表示特征维度。

在后续的多分辨率注意力机制中,第 i 个点的查询、键和值映射 Q、K 和 V 生成为:

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_16

其中Netq(·)、Netk(·)和Netv(·)分别表示相应的提取器映射,Xi q是编码器输出Xq的第i个特征。以单头为例,多分辨率注意力计算过程可以写为,

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_17

其中Ai是第i个点注意力图,而论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_18是多分辨率注意力块输出特征,

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_19

。查询点云的最后一个特征可以通过对论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_20论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_21的级联来获得,

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_22

类似地,可以以相应的方式获得支撑特征论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_23

由于编码器训练不好,支持特征可能是分散的,这将导致更大的错误分类概率。此外,我们希望使支持功能远离其他不同类别的中心。

因此,我们采用中心损失[25]来保证同一类的紧密分布和不同类在特征空间中的稀疏分布。损失函数为:

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_24

,其中

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_25

是第N类的第i个支撑点的特征,Cn是特征空间中n类的中心,η是一个超参数,以避免分母变为0,默认设置为1。最后,可以使用标准方法[26]生成紧凑的中心正则化多原型

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_26

E.标签网络

标签网络用于基于特征X’q和支持集

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_27

的原型来预测查询点云中每个点的类。标签传播算法的基本思想是利用样本之间的图关系,从标记节点的信息中预测未知节点的标签。对于N向K-shot问题,图的大小为

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_28

|Q|表示查询集中点云的数量,X’∈RZ×Z表示所有节点的特征矩阵。我们还定义了特征矩阵W∈RZ×Z,其中其每个值计算为

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_29

其中X’i是X中的第i个特征,σ是两个节点之间距离的标准差。我们按照[27]得到最优预测矩阵F和预测输出映射H,

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_30

其中D是对角矩阵,其值是W的相应行的和。γ∈(0,1)是概率系数。L∈RZ×(N+1)是参考矩阵,L行表示原型是一个热标签,其他表示未标记点(查询点)是初始零。该块的损失函数是交叉熵损失,

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_31

其中,地面实况标签Y i j表示查询集的第i个点云中的第j个点,函数δ(·)定义为:

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_32

因此,我们框架的训练阶段的完整损失函数为

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_33

式中,λ是调整定心和集中强度的系数。

四、 实验

A.实现细节

网络结构如图1所示。在预训练阶段,采用S3DIS[28]和ShapeNet[29]来计算预训练对不同数据集的影响,我们只需添加一个MLP网络作为我们的分类器进行预测。

我们的批量大小设置为16,初始学习率设置为0.001,预训练时期设置为120。增强器是在ShapeNet数据集上预先训练的。基于DGCNN的编码器的k-NN数被设置为200。在少镜头学习阶段,为了计算效率,MRA块的深度被设置为1,我们还将居中强度系数λ设置为0.1,标签传播参数γ被设置为0.9,以确保性能。此外,MRA块中的k-NN数量和fps比率分别被设置为250和0.4。在用预训练的编码器初始化特征提取器权重之后,我们将Adam优化器设置为特征提取器模块的初始学习率为0.0005,对于其他模块,学习率设置为0.001。

将两个子集S0和S1分开,以标准方式进行测试[7],我们在两个子集上用100集和40000次迭代来训练我们的模型。

B.基线

对于基线,我们选择attMPTI[7]和典型的微调网络[30]作为我们的比较模型。AttMPTI是一个简单但有效的网络,它从支持特性中提取原型,并使用基础标签传播来预测查询样本。对于微调网络,我们冻结用于微调网络的预训练特征提取器的权重,并且只更新其基于MLP的分割器中的参数,以避免过拟合。在这项工作中,我们在本工作中进行的所有实验的所有数据集中只使用xyzXYZ而不使用RGB。

C.比较结果

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_特征提取_34

表一显示了我们的框架和基线之间的结果比较。它表明,我们的模型在所有不同的小样本设置中都优于基线,代价是由于特征级联,我们的框架训练比微调网络和attMPTI慢一点。我们还测试了表I中分层变压器的窗口注意力,表示为Ours+VWA,这表明它低于我们的方法。这与我们的假设一致,即窗口关注可能会丢失一些全球信息。微调网络的性能不令人满意,尤其是在双向单镜头任务上,这是因为来自特征提取器的嵌入特征不足以训练微调网络的分割器,并且由于数据的稀缺,分割器很难很好地学习特征。这一结果也表明了注意力机制的重要性,它有助于学习更具代表性的嵌入空间。普通注意力块可能会将查询点和背景点之间的冗余注意力特征投影到特征空间。

D.消融研究

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_35

我们进行了消融研究,以验证我们方法中每个组件的有效性,表II说明了我们的实验结果。我们在S3DIS S0数据集上进行了评估,该数据集具有2-way 1-shot小样本设置。通过从最终模型中移除每个组件进行验证,即实验VIII。与实验I相比,实验II显示了对比预训练的改进。显然,它提高了分割性能。实验III和实验IV中的结果表明,使用基于定心的多原型或MRA块的性能

单独训练比使用对比预训练要低。

这种比较表明了经过良好预训练的编码器在小样本语义分割中的重要性。

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_36

表III显示了我们对比自我监督预训练的有效性。在没有任何其他额外操作的情况下,我们只采用我们的对比自监督预训练来进行2-way 1-shot小样本语义分割中的attMPTI,结果表明它显著提高了小样本分割的性能。特别是,表III表明,它在很大程度上有助于克服小数据集预训练情况下的过拟合问题。因此,我们的对比自监督预训练是一个通用的即插即用模块,它与许多其他点云小样本语义分割框架兼容。

E.实用CAD/CAM分割的案例研究

为了证明我们的方法在现实世界小数据任务中的实际有效性,我们从EIF 3D CAD[31]中准备了一些快照数据集,并在上面评估了我们的算法,这是高级自动化工作流程中的重要一步,尤其是在CAD/CAM过程中。该数据集名为phcf,是一个CAD/CAM三维语义分割任务,包括四种类型的特征,即口袋、孔、倒角和圆角。然而,由于点云之间的形状相似,由于缺乏复杂性,该数据集在训练中很容易被过度拟合。表IV显示了重复5次的不同方法的最佳和平均结果,可视化如图3所示。从结果中可以看出,我们的方法在处理现实世界中数据稀缺的任务时更有效,因为这些数据集往往是小规模的,在监督中很容易被过度拟合。

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_37

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_数据集_38

论文阅读:Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolutio_点云_39

值得注意的是,表III还显示,在没有额外的大规模数据集的情况下,我们的方法仅在使用同域数据集(phcf)的对比预训练方面显著改进。由于我们的自我监督不需要注释数据集,这大大方便了现实世界中的小样本任务对近域数据集进行有效的预训练,最终提高了分割精度





标签:Resolutio,Segmentation,via,训练,特征,样本,学习,点云,我们
From: https://blog.51cto.com/u_16282361/7940693

相关文章