论文阅读：Few-shot 3D Point Cloud Semantic Segmentation

标签：Segmentation shot Point 样本语义分割原型点云我们

摘要

许多现有的3D点云语义分割方法是完全监督的。这些完全监督的方法严重依赖难以获得的大量标记的训练数据，并且在训练后不能分割新的类别。为了缓解这些局限性，我们提出了一种新颖的注意力感知的多原型过渡性小样本点云语义分割方法，以分割给定的少数标记的例子的新类别。具体来说，每个类别由多个原型代表，以模拟标记点的复杂数据分布。随后，我们采用了一种过渡性的标签传播方法来利用已标记的多原型和未标记的点之间以及未标记的点之间的关系。此外，我们设计了一个注意力感知的多层次特征学习网络，以学习捕捉点之间的几何依赖性和语义相关性的鉴别特征。在两个基准数据集上，我们提出的方法与基线相比，在不同的几张照片的点云语义分割设置中（即2/3-way 1/5-shot）显示出明显和一致的改进。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集

引言

点云语义分割是一个基本的计算机视觉问题，其目的是估计场景的三维点云代表中每个点的类别。三维语义分割的结果可以使各种现实世界的应用受益，包括自动驾驶、机器人技术和增强/虚拟现实。然而，由于点云的非结构化和无序化特点，点云语义分割是一项具有挑战性的任务。最近，一些完全监督的三维语义分割方法[7, 8, 10, 11, 17, 24, 28, 31]已经被提出，并在一些基准数据集上取得了可喜的表现[1, 2]。然而，他们的成功在很大程度上依赖于大量的标记训练数据的可用性，而这些数据的收集是耗时和昂贵的。此外，这些方法遵循封闭集假设，即训练和测试数据来自相同的标签空间。然而，封闭集假设并没有严格遵守动态的现实世界，在那里训练后很容易出现新的类别。因此，这些完全监督的方法在只有少数例子的情况下，对新类的概括性很差。

尽管现有的几项工作采用自学习[26]、弱学习[6, 27]和半监督学习[14]来缓解完全监督的三维语义分割中的数据饥渴瓶颈，但这些方法仍然处于封闭集假设之下，对新类的泛化能力被忽略了。越来越流行的小样本学习是一个很有前途的方向，它允许模型只用几个例子就能概括到新的类别。在小样本的点云分割中，我们的目标是训练一个模型来分割给定的几个标记的点云的新类别，如图1所示。我们采用常用的元学习策略，即偶发训练[22]，通过类似的小样本任务的分布来学习，而不是只有一个目标分割任务。每一个片段任务由一些有标签的样本（支持集）和无标签的样本（查询集）组成，模型利用从支持集学到的知识对查询进行分割。由于训练的小样本任务和测试任务之间的一致性，该模型被赋予了更好的泛化能力，使其不容易对罕见的支持样本进行过度拟合。尽管有偶发训练的好处，小样本的点云分割仍然面临着两个主要挑战，即如何。1）从稀少的支持中提炼出能够代表新类别分布的鉴别性知识；2）利用这些知识来有效地进行分割。

在本文中，我们提出了一种新颖的注意力感知的多原型过渡推理方法，用于小样本点云的语义分割。具体来说，我们的方法能够对支持集的点云中的点的复杂分布进行建模，并通过在小样本约束下提取的判别性特征进行归纳推理进行分割。我们受到原型网络[21]的启发，该网络用一个单一的原型代表每个类别，该原型是通过平均支持中已标记样本的嵌入而得到的。我们推测，由于点的复杂数据分布，这种单模分布假设在点云分割中可能被违反。特别是，在同一语义类别中，点的几何结构可以有很大的不同。因此，我们建议用多个原型来代表每个类别，以更好地捕捉复杂的分布。此外，重要的是要学会辨别性的特征，以用于小样本的三维点云语义分割设置。为此，我们精心设计了一个注意力感知的多级特征学习网络，通过捕捉点之间的几何依赖性和语义关联性来学习点的特征。随后，我们用学习到的特征空间中的多个原型，以过渡的方式进行分割步骤。与传统的原型网络[21]相比，我们的归纳推理不仅考虑了未标记的查询点和多原型之间的关系，而且还利用了未标记的查询点之间的关系，将未标记的实例与类原型相匹配。

这项工作的主要贡献是。1）我们首次研究了有前途的少镜头三维点云语义分割任务，它允许一个模型在给定几个甚至一个例子的情况下分割新的类别。2）我们提出了一种新的注意力感知的多原型过渡性推理方法。我们设计的注意力感知的多层次特征学习，以及多原型和未标记的查询点之间的亲和力利用，使我们的模型能够获得高度的区分性特征，并在小样本的情况下完成更精确的分割。3）我们在S3DIS和ScanNet数据集上进行了全面的实验，证明了所提出的方法在不同的（即2-/3-方式1-/5-shot）小样本的点云分割设置中比基线的性能更优越。具体来说，我们的方法在S3DIS和ScanNet数据集上，在具有挑战性的3-way 1-shot设置中比微调基线分别提高了52%和53%。

三维语义分割

许多基于深度学习的方法[7, 8, 10, 11, 17, 24, 28, 31]被提出来，以解决使用完全监督的三维语义分割，即点级真实世界。PointNet[17]是第一个设计端到端的深度神经网络来分割原始点云，而不是它们的转换代表，如体素网格和多视图图像。尽管PointNet简单高效，但它忽略了嵌入在相邻点中的重要局部信息。DGCNN[24]通过设计EdgeConv模块来解决这个问题，该模块可以捕获局部结构。在我们的工作中，我们利用DGCNN作为我们特征提取器的骨干，提取局部几何特征和语义特征。尽管这些完全监督的方法取得了很好的分割性能，但它们对大量训练数据的要求使它们无法在许多训练数据昂贵或难以获得的现实世界中使用。此外，这些方法只能对训练过程中看到的一组预先定义的类进行分割。为了缓解这些局限性，我们探索了三维语义分割的少量学习方向。这使得模型能够通过看到几个标记的样本来分割新的类别。

小样本学习

小样本学习的目标是开发一个分类器，该分类器能够通过很少的例子（例如，在一个样本下是一个例子）概括到新的类别。为了解决这个具有挑战性的小样本学习，一些元学习方法[4, 5, 15, 18, 19, 21, 22]已经提出从学习任务的集合中学习可转移的知识，并取得了重大进展。特别是基于度量的方法[5, 21, 22]，由于其在推理过程中直接推断出未见过的类的标签的有效性而备受关注。基于度量的方法的关键思想是学习一个好的度量函数，它能够产生一个相似性嵌入空间，代表有标签和无标签的样本之间的关系。匹配网络[22]和原型网络[21]是两个有代表性的基于度量的方法。这两种方法都是利用深度神经网络将支持度和查询集映射到一个嵌入空间，然后应用非参数方法根据支持度来预测查询的类别。具体来说，匹配网络利用加权近邻方法，通过其所有的支持样本代表一个类别，而原型网络利用原型方法，通过其支持样本的平均值代表一个类别。这两种非参数方法在应用于小样本的点云语义分割时，成为复杂到简单的数据分布建模的两个极端。这是因为在点云对应的一个类别的支持样本可能包含大量的点。在本文中，我们用多个原型代表点云中介于两个极端之间的每个类别，并以归纳的方式进行分割。

小样本图像分割

前面提到的所有方法都集中在小样本图像的分类任务上。直到最近，才有几项工作[3, 12, 16, 20, 23, 29, 30]开始研究通过将这些元学习技术扩展到像素级的图像分割的小样本学习。大多数现有的方法[3, 16, 23, 30]利用基于度量的技术来解决支持和查询分支之间的一对多的匹配问题，其中每个类别的支持样本被表示为一个全局向量。相反，Zhang等人[29]认为该问题是多对多的匹配，其中支持分支被表示为一个图，支持样本的特征图中的每个元素都是一个节点。然而，这些小样本图像分割方法通过使用基于卷积神经网络（CNN）的架构来学习图像特征，由于点云的不规则结构，这不适用于点云数据。此外，一个好的嵌入空间的属性对于点云（参见第3.2.1节）和图像是不同的。考虑到这些差异，我们设计了一个注意力感知的多级特征学习网络，并提出了一种新颖的注意力感知的多原型归纳推理方法，用于小样本的三维点云语义分割的任务。

问题定义

我们将小样本的点云语义分割的训练和测试与小样本学习中常用的情节范式[22]相统一。具体来说，我们在一组从数据集中采样的称为训练类集Ctrain的小样本任务上训练我们的模型，然后我们通过在另一组从不同的数据集中采样的称为新类Ctest的任务上评估训练后的模型来测试，其中Ctest ∩ Ctrain = ∅.每个小样本任务，也就是一个情节，被实例化为一个N路K样本的点云语义分割任务。在每个N-way K-shot情节中，我们得到一个支持集，表示为S = {(P 1 s ,k , M1,k) K k=1, ...,(P N,k s , MN,k) K k=1}，其中有K对支持点云P n,k s及其对应的二进制掩码Mn,k，用于N个独特的类中的每一个。每个点云P∈RM×(3+f0)包含M个与坐标信息∈R 3和附加特征∈R f0相关的点，例如颜色。我们还得到一个查询集，表示为Q = {(P i q , L i )} T i=1，其中包含T对查询点云P i q和其相应的标签L i∈RM×1。注意，真实标签L只在训练期间可用。N-way K-shot点云语义分割的目标是学习一个模型fΦ(Pq, S)，该模型可以预测基于S的任何查询点云Pq的标签分布H∈RM×（N+1）。形式上，我们的训练目标是通过计算找到fΦ(Pq, S)的最佳参数Φ∗：

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_02

其中Ttrain表示包含从Ctrain采样的所有情节的训练集，J(-)是损失函数，将在第3.2.4节定义。

3.2. 注意力感知的多原型过渡性推理方法

Attention-aware Multi-prototype Transductive Inference Method

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_03

图2说明了我们的注意力感知的多原型过渡性推理框架。它由五个部分组成。1）嵌入网络，学习支持和查询点云的判别特征；2）多原型生成，为N+1类（N个语义类和一个背景类）中的每一类产生多个原型；3）k-NN图的构建，在embedding空间内，编码跨组（支持-查询）和组内（支持-支持，查询-查询）关系。4）标签传播，沿着未标记的查询点形成的高密度区域在整个图中扩散标签；以及5）交叉熵损失函数，计算所有查询点的预测标签和真实标签之间的损失。

3.2.1 嵌入网络

嵌入网络是我们模型中最重要的部分，因为多原型生成和k-NN图的构建都依赖于所学的嵌入空间。我们期望这个空间拥有三个特性：它可以1）基于局部环境对点的几何结构进行编码；2）基于全局环境对点的语义信息及其语义相关性进行编码；3）快速适应不同的小样本任务。为此，我们设计了一个注意力感知的多层次特征学习网络，该网络包含了三个层次的特征：局部几何特征、全局语义特征和度量适应性特征。具体来说，我们的嵌入网络由三个模块组成：特征提取器、注意力学习器和度量学习器。我们采用DGCNN[24]，一个动态图CNN架构，作为我们特征提取器的骨干，分别产生局部几何特征（第一个EdgeConv层的输出）和语义特征（特征提取器的输出）。为了进一步探索全局范围内各点之间的语义相关性，我们在生成的语义特征上应用了一个自我注意网络（SAN）。SAN允许点状特征以灵活和自适应的方式聚合相应点云的全局背景信息。图3说明了SAN的结构。此外，我们引入了度量学习器，即多层感知器（MLP）层的堆叠，以使嵌入空间能够更快地适应不同的小样本任务，因为特征提取器是以较慢的学习速度更新的（参见第4.2节的训练细节）。度量学习器将支持集和查询集的所有点状特征映射到流形空间中，其中常见的距离函数（如欧氏距离或余弦距离）可直接用于测量点之间的接近性。最后，我们把学到的三个层次的特征串联起来，作为嵌入网络的输出。

3.2.2 多原型生成

对于支持集中的N+1个类中的每一个，我们生成n 个原型，以根据情节中的少数标记样本来模拟复杂的数据分布。我们将生成程序投射为一个聚类问题。虽然可以有不同的方法将支持点聚类到多个原型中，但我们采用了一个简单的策略：根据学习到的嵌入空间对种子点进行抽样和点对点分配。具体来说，我们使用基于嵌入空间的最远点抽样，从一个类别的支持点集合中抽出n个种子点的子集。直观地说，如果嵌入空间学得好，这个空间中最远的点可以内在地代表一个类的不同观点。让

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_04

，其中

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_05

，分别表示采样的种子和属于c类的所有mc支持点。我们计算点到种子的距离，并将最接近的种子的索引作为一个点的分配。形式上，c类的多原型μ c由以下方式给出。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_06

其中被划分为n个集合，使得被分配给

3.2.3 归纳推理

除了每个未标记的查询点和已标记的多原型之间的相似性关系外，我们还考虑了一对未标记的查询点之间的相似性关系，以便在我们的小样本点云语义分割任务中利用邻近查询点之间的 "平滑度 "约束2。为此，我们利用过渡推理来推理基于嵌入空间的跨组和组内关系。具体来说，我们提出使用归纳标签传播的方法，在有标签的多原型和无标签的查询点上构建一个图，然后用随机行走在图中传播标签。

k-NN图的构建。为了缓解大量的查询点，我们构建了一个k近邻（NN）图，而不是一个全连接的图，以提高计算效率。具体来说，我们把n×(N+1)个多原型和T×M个查询点作为大小为V=n×(N+1)+T×M的图的节点。我们通过计算每个节点与其嵌入空间中的k个最近的邻居之间的高斯相似度，构建一个稀疏的亲和矩阵，表示为A∈R V×V。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_07

其中vi代表节点特征，σ2是两个节点之间的距离方差。我们遵循文献[9]，让W = A + A ⊤，这保证了邻接矩阵是非负的和对称的。随后，我们对W进行对称归一化，得到S=D -1/2WD-1/2，其中D是对角线程度矩阵，其对角线值为W的相应行之和。此外，我们定义一个标签矩阵Y∈R V×(N+1)，其中对应于标签原型的行是一热的地面真实标签，其余为零。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_08

标签传播。

给定S和Y，标签传播迭代地通过图扩散标签，根据：

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_09

代表迭代t时预测的标签分布，α∈(0, 1)是一个参数，控制其邻接节点或初始标签的信息的相对概率。在[32]中，Zhou等人表明，序列{Zt}收敛于一个闭式解。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_10

我们采用闭式解来直接计算标签传播的预测值Z ∗。

3.2.4 Loss Function

一旦得到Z∗，我们首先取与T个查询点云对应的预测值，表示为

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_11

，其中

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_12

代表点云的预测。然后用softmax函数将z i中每个点的预测值归一化为一个概率分布

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_13

最后，我们计算出了以下几个方面的交叉熵损失 {H i } T i=1和地面真实标签{L i } T i=1为

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_14

其中Φ是我们的模型fΦ（Pq，S）的参数集。更确切地说，fΦ(Pq, S)=h(gΦ(Pq, Ps), M)是嵌入网络gΦ(.)以及多原型生成和归纳推理操作h(.)的复合函数。显然，J对参数Φ的最小化是由有标签的多原型和无标签的查询点之间的亲和性决定的，因为梯度必须通过无参数的h(.)流向嵌入网络gΦ(.)。

4. Experiments

我们在两个基准数据集上进行了实验，以评估我们方法的有效性。据我们所知，目前还没有关于少量拍摄的点云语义分割的研究。因此，我们设计了数据集的设置、实施细节和评估基线。

4.1. 数据集和设置

数据集

我们对两个数据集进行了评估：1）S3DIS[1]由272个具有不同风格的房间（如大厅、走廊、办公室、储藏室）的点云组成。点云的注释对应于12个语义类别和一个杂乱的类别。2）ScanNet[2]由1,513个来自707个独特室内场景的扫描点云组成。点云的注释对应于20个语义类别，外加一个未注释的空间。

设置。

为了将数据集定制为小样本的学习环境，我们根据类名的字母顺序将每个数据集中的语义类平均分成两个不重叠的子集。分割的细节列在补充材料的表1中。对于每个数据集，我们对相应的两个子集进行交叉验证，选择其中一个子集作为测试类集Ctest，而将其余子集作为训练类集Ctrain。由于原始房间的点数很大，我们遵循[17, 24]中使用的数据预处理策略，在xy平面上使用1m×1m的非重叠滑动窗口将房间分成若干块。因此，S3DIS和ScanNet分别给出了7,547和36,350个块。在每个区块中，M=2，048个点被随机抽样。训练集Ttrain是通过包括Ctrain中任何目标类的至少100个点的所有块来构建的。在训练过程中，我们使用以下程序从Ttrain中随机抽出一集：我们首先从Ctrain中随机选择N个类，其中N<Ctrain|；然后根据选择的N个类随机抽出一个支持集S和一个查询集Q。支持集中的掩码M和查询集中的标签L相应地从原始点注释中修改，以对应所选的类。测试集的形成方式与此类似，不同的是，我们从Ctest中穷举出N个类的所有组合，而不是随机地选择N个类。具体来说，我们为每个组合抽出100个情节，并将它们作为Ttest来评估我们实验中的每个方法。值得强调的是，同样的点云可以出现在Ttrain和Ttest中，但是由于感兴趣的类的不同，这个点云的注释是不同的。

评价指标。

对于评价指标，我们采用了在点云语义分割中广泛使用的指标，即平均交互作用于联盟（mean-IoU）。在我们的几率设置中，均值-IOU是通过对测试类集Ctest的平均化而得到的。

4.2. 实施细节

框架细节。

我们在图2（底部）中说明了嵌入网络的结构和配置。按照[32]，标签传播中的超参数α被设置为0.99。其他三个超参数（即多原型生成中的n，k-NN图构建中的k和σ）的设置将在第4.4节和补充章节B.1中讨论。

训练。我们在训练集Ttrain上对特征提取器模块进行预训练，在特征提取器的末端添加三个MLP层作为Ctrain的分割器。在预训练期间，我们将批次大小设置为32，并训练100个epochs。预训练的模型由Adam优化，学习率为0.001。在用预训练的权重初始化特征提取器后，我们用Adam优化器对特征提取器模块的初始学习率为0.0001，对度量学习器和注意力学习器模块的初始学习率分别为0.001。两种学习率在5000次迭代后都衰减了一半。在每次迭代中，随机抽出一个情节，支持和查询集中的所有点云都被高斯抖动和围绕Z轴的随机旋转所增强。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_15

4.3. 基线。

我们设计了四条基线来与我们的方法进行比较。

微调（FT）。

我们把我们预训练的分割网络的结构作为这个基线的主干。为了公平比较，我们对这个分割网络和我们的方法使用相同的预训练权重。按照文献[20]中的策略，我们在支持集的样本上对训练好的分割网络进行微调，并在每个N-way K-shot任务的查询样本上进行测试。为了避免过度拟合，我们只对最后三个MLP层进行微调。

原型学习（ProtoNet）。

我们将在少镜头图像分割[3, 23]任务中使用的原型网络[5]调整为少镜头点云分割。为了提取支持集和查询集的点状特征，我们使用了与我们的嵌入网络类似的架构，但用一个线性映射器取代SAN，将特征映射到与SAN相同的维度。同样地，特征提取器也是由相同的预训练权重初始化的。我们用一个由其支持点的平均特征给出的原型来表示每个类别。查询点的预测来自于它与原型的欧几里得距离的平方。

注意力觉察的原型学习（AttProtoNet）

这个基线是ProtoNet的升级版，其中自我注意机制被添加到嵌入网络中。换句话说，它使用与我们的嵌入网络相同的架构。

多原型归纳推理（MPTI）

这可以被认为是我们方法的一个退化版本，其中嵌入网络中的注意力学习者模块（SAN）被类似于ProtoNet的线性映射器所取代。

4.4. 结果和分析

与基线的比较。

表1和表2分别总结了我们的方法与S3DIS和ScanNet的基线比较的结果。不足为奇的是，使用更多的标记样本，即更大的K-shot导致了所有方法的显著改善。我们还观察到，由于其难度较高，3-way的性能通常低于2-way分割。从这两张表可以看出，我们提出的方法在所有的四个设置中，即在两个数据集上的2/3-way 1/5-shot，都持续且明显地超过了基线。特别是在S3DIS和ScanNet数据集上，我们的方法在具有挑战性的3-way 1-shot设置下分别比FT提高了约52%和53%。与ProtoNet相比，我们的方法在S3DIS和ScanNet上只使用一个样本，即单次拍摄时，分别获得10%和20%以上的改进。这些改进表明，我们提出的方法在推理过程中可以从非常有限的数据中获得更多有用的知识。与AttProtoNet相比，我们的方法的优越性显示了我们所提出的多原型过渡性推理机制的贡献。此外，AttProtoNet对ProtoNet的改进和我们的方法对MPTI的改进都表明了自我注意网络在利用点之间的语义关联方面的能力，这在推断点的语义标签方面非常重要。一个有趣的观察是，我们的方法的退化版本，即MPTI在单次拍摄设置下明显优于ProtoNet，但在五次拍摄下失去了增益。这可能是由于MPTI的天真多原型生成，如果嵌入空间没有被很好地学习，就很难提取大量支持点的准确多原型。这一现象也说明了纳入自我注意网络的重要性，它有助于学习一个更有代表性的嵌入空间。

多层次特征的消融研究。

我们研究了嵌入网络的各种设计的效果，因为它是我们方法中最重要的组成部分之一。我们把各级特征，即局部几何特征、全局语义特征和度量适应性特征分别表示为fgeometric、fsemantic和fmetric。我们选择一个或两个层次的特征作为我们的嵌入特征3，以估计它（它们）的贡献。表3中列出了六种变体的结果。从单个特征的角度来看，fsemantic和fmetric比fgeometric贡献更大。这是合理的，因为嵌入空间应该是语义的。通过结合任何两个层次的特征，我们在两个数据集上取得了不同的改进。最终，三个层次的特征的整合使我们在两个数据集上都获得了最好的性能。

超参数的影响。

在图4中，我们说明了三个超参数（即n、k、σ）在每个数据集的一个分割上对2-way 1-shot点云语义分割的影响。从图4(a)可以看出，增加每类原型的数量n可以获得更好的结果，但过大的n会导致过度拟合问题，对性能造成不利影响。如图4(b)所示，当选择较小的k，即k=50时，两个数据集的性能有轻微差异。然而，总体趋势是相似的，选择k=200在两个数据集上都能得到最好的结果。正如[13，25]中所报告的，在构建亲和矩阵时使用的高斯相似性函数中的σ（见公式3）对标签传播的性能起着一定的作用。我们根据经验发现，σ在不同的数据集中有不同的最佳值。具体来说，S3DIS上的σ=1和ScanNet上的σ=5分别使我们获得了最佳性能。

4.5. 定性结果

图5和图6显示了我们提出的方法在S3DID和ScanNet数据集上进行2路1张点云语义分割的定性结果。我们将我们的方法对一个查询点云的预测与基础事实和ProtoNet的预测进行比较。从图5中我们可以看出，S3DIS数据集在很多场景下都非常具有挑战性，例如，"与白墙和窗框非常相似的白柱"（图5第一行），"只有可见门框的门"（图5第二行），"上面有很多杂物的桌子"（图5最后一行）。由于只有一个标记的样本作为支持的限制，我们的方法对这些具有挑战性的场景的预测的准确性有所下降。尽管如此，我们的方法在所有情况下仍然比ProtoNet给出了更准确的分割结果（例如，我们的方法在图5中从上到下对每个场景中的 "天花板"、"地板"、"椅子"、"书架"、"桌子 "进行了很好的分割）。与S3DIS数据集相比，ScanNet数据集包含更多不同的房间类型，如浴室（见图6第一行和最后一行）、卧室/酒店（见图6第二行）、客厅/休息室（见图6第三行和第五行）等。我们提出的方法能够在这些新的房间类型中正确地分割大部分语义类，而ProtoNet给出的分割结果很差，将背景类和语义类混在一起。我们认为，我们的正确分割是整合了注意力感知的特征嵌入和多原型归纳推理的结果，它促进了邻接点之间的平滑性和不同语义类别之间的区分。

5. 总结

本文研究了未被开发但却很重要的几张点云语义分割问题。我们提出了一个新的解决方案：注意力感知的多原型归纳推理方法，该方法在各种几张照片的点云语义分割任务上取得了比基线明显和一致的改进。此外，这项工作还提供了关于少数照片的三维点云语义分割的几个关键见解。首先，学习编码几何和语义背景的鉴别性特征是基于度量的少数照片点云语义分割方法的核心。第二，三维点云的数据分布很复杂，不能用单模分布来充分建模。第三，利用嵌入空间的内在关系对于点云分割任务是必要的。未来的工作可以研究多原型的自适应生成，根据数据的复杂性有效地推断出原型的数量。

A. 补充材料

这个补充包含了S3DIS和ScanNet数据集的分割细节(部分A.1)，更多的框架细节，包括EdgeConv的架构(部分A.2.1)和三个超参数的设置(部分A.2.2).

A.1.数据集拆分

表4列出了S3DIS和ScanNet数据集的每个分割中的类名。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_16

A.2.更多框架详细信息

A.2.1 EdgeConv体系结构细节

图7说明了EdgeConv的架构和配置，它是特征提取器的一个基本块。为了执行图CNN，从输入的点级特征动态计算到EdgeConv。请注意，这个k-NN图不同于第3.2.3节中的k-NN图。我们在实验中设置了k= 20。点云中的每个点xi与其转换的邻点（xj−xi）连接，这是通过将xj转换为以xi为中心的局部系统得到的。因此，从输入张量N×fin产生一个N×k×2fin特征张量，并进一步传递到两个MLP层。最后，EdgeConv使用最大池算符将合成的特征张量聚合到k个相邻特征上，以生成输出的点级特征。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_点云_17

A.2.2超参数设置

如第4.4节所述，我们根据经验发现，σ的最优值在不同的数据集中是不同的。此外，我们还观察到在不同的少镜头设置下，每个类n的最佳原型数量有所不同。表4显示了n在不同的少镜头设置下的最佳值。可以看出，随着镜头次数的增加，n会变大。这是合理的，因为更多的镜头会导致每个类观察到更多的支持点，这需要更大的n来模拟更大的变化。从表5中，我们还观察到，随着“方式”数量的增加，n会变大。这可能是由于更困难的三路分割需要针对每个类的细粒度的多原型。我们为第3.2.3节中提到的k-NN图对两个数据集中的所有少镜头设置了k = 200。

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation_数据集_18

标签：Segmentation,shot,Point,样本,语义,分割,原型,点云,我们
From： https://blog.51cto.com/u_16234088/8497996

论文阅读：Few-shot 3D Point Cloud Semantic Segmentation

相关文章

赞助商

阅读排行