大家觉得有帮助记得及时关注和点赞!!!
目录
答 1在 ScanNet 和 ScanNet200 隐藏测试集上进行评估
抽象
基于当代 3D 分割基准(如 ScanNet)的先进模型 使用和标记数据集提供的 3D 点云,这些点云是通过对感应的多视图 RGB-D 图像进行后处理获得的。 它们通常在域内进行训练,放弃了大规模的 2D 预训练,并优于以摆姿势的 RGB-D 多视图图像为特色的替代方案。 使用姿势图像的方法与后处理的 3D 点云的方法之间的性能差距 助长了 2D 和 3D 感知需要不同模型架构的信念。在本文中,我们挑战了这一观点,并且 提出 ODIN(全维站位分割), 一个可以分割和标记 2D RGB 图像和 3D 点云的模型,使用 transformer 架构 在 2D 视图内和 3D 交叉视图信息融合之间交替。 我们的模型通过所涉及的标记的位置编码来区分 2D 和 3D 特征操作,这些标记捕获 2D 补丁标记的像素坐标 和 3D 特征标记的 3D 坐标。 ODIN 在 ScanNet200、Matterport3D 和 AI2THOR 3D 实例分段基准测试中实现了最先进的性能,在 ScanNet、S3DIS 和 COCO 上也取得了有竞争力的性能。 当使用感应到的 3D 点云代替从 3D 网格采样的点云时,它的性能大大优于以前的所有作品。 当在可指导的具身代理架构中用作 3D 感知引擎时,它在 TEACh 对话中的动作基准上树立了新的最新水平。我们的代码和检查点可以在 https://odin-seg.github.io 项目网站上找到。
1介绍
图 1:全维位置分割 (ODIN) 是一种模型,可以将单个 RGB 图像或多视图姿势 RGB-D 序列分别解析为 2D 或 3D 标记的对象段。 左:给定一个摆姿势的 RGB-D 序列作为输入,ODIN 在视图内 2D 融合和跨视图 3D 融合之间交替。当输入是单个 RGB 图像时,将跳过 3D 融合图层。ODIN 在 RGB 和 RGB-D 输入之间共享其大部分参数,从而支持使用预先训练的 2D 主干。右:在每次 2D 到 3D 过渡时,ODIN 使用感应的深度和相机内在和外在将 2D 特征标记取消投影到其 3D 位置。
人们对将 2D 基础图像特征移植到 3D 场景理解的兴趣激增[21,37,47,14,48,8,23,46,40].一些方法使用感知深度将预训练的 2D 图像特征提升到 3D 特征云[37,47,40,8].其他人通过每个场景训练 2D 主干来渲染预训练主干的 2D 特征图,将 2D 主干提炼成可微的参数 3D 模型,例如 NeRF[23,46]. 尽管付出了这些努力,尽管 2D 主干网的强大功能不断增长[53,4],这是 ScanNet 等已建立的 3D 分割基准的最新技术[6]和 ScanNet200[41] 仍然由以下模型组成 直接在 3D 中操作,无需任何 2D 预训练阶段[44,28]. 既然 2D 预训练的明显功能,为什么在这些 3D 任务中产生改进如此困难?
我们观察到,部分问题在于这些 3D 基准测试评估背后的关键实施细节。 像 ScanNet 这样的基准测试实际上并不要求方法使用 RGB-D 图像作为输入,即使这是传感器数据。相反,这些基准测试首先将所有 RGB-D 帧注册到单个彩色点云中,并尽可能干净地重建场景,依靠手动调整的阶段进行光束法调整、异常值拒绝和网格划分,并要求模型标记输出重建。虽然在标记室内的任何物体之前扫描和重建房间肯定是可行的,但这种管道可能与具身视觉(和典型的 2D 视觉)的目标不一致,后者涉及处理实际传感器数据并考虑缺失或部分观察。 因此,我们假设如果我们强制 3D 模型将摆姿势的 RGB-D 帧作为输入,而不是预先计算的网格重建,方法排名将发生变化,并且 2D 预训练的影响将变得明显。我们修改后的评估设置还为新方法打开了大门,这些方法可以使用 RGB 或 RGB-D 传感器在单视图或多视图设置中训练和执行推理。
我们提出了 Omni-D 创新 IN立场分割 (ODIN)††††北欧神奥丁牺牲了他的一只眼睛来换取智慧,用一种感知方式换取了一种更重要的感知方式。我们的方法牺牲了对后处理网格的感知,以换取对摆姿势的 RGB-D 图像的感知。,一种用于 2D 和 3D 对象分割和标记的模型,可以解析单视图 RGB 图像和/或多视图摆姿势 RGB-D 图像。 如图 1 所示。 1、ODIN 在 2D 和 3D 阶段之间交替 在其架构中,在每个图像视图中融合 2D 信息,并在摆姿势图像视图中融合 3D 信息。在每次 2D 到 3D 过渡时,它使用深度图和摄像机参数将 2D 令牌取消投影到其 3D 位置。 在每次 3D 到 2D 过渡时,它会将 3D 令牌投影回其图像位置。我们的模型通过所涉及的标记的位置编码来区分 2D 和 3D 特征,这些标记捕获 2D 补丁标记的像素坐标和 3D 特征标记的 3D 坐标。在处理 2D 单视图输入时,我们的架构只是跳过 3D 图层,只对 2D 图层进行前向传递。
我们在 2D COCO 对象分割基准和 ScanNet 的 3D 基准上,在 2D 和 3D 实例分割以及 3D 语义分割中测试 ODIN[6]、ScanNet200[41]、Matterport3D[2]、S3DIS[1]和 AI2THOR[25,7]. 与使用预先计算的网格点云作为输入的方法相比,我们的方法在 ScanNet 和 S3DIS 上的性能略差于最先进的方法,但在 ScanNet200 和 Matterport3D 上表现更好。当使用真实传感器数据作为输入,并从所有方法的束重建中获得的姿态时,我们的方法表现得更好,在所有数据集中都大大优于之前的所有工作。 我们证明,我们的模型能够在 3D 和 2D 数据集上联合训练,从而提高了 3D 基准测试的性能,并在 2D COCO 基准测试中产生了有竞争力的分割精度。我们的消融表明,交错 2D 和 3D 融合操作优于我们首先在 2D 中处理,然后移动到 3D 或简单地使用 2D 特征绘制 3D 点的设计。为了实现我们更广泛的具体视觉目标,我们还将 ODIN 部署为 SOTA 具体代理模型的 3D 对象分割器[42]在模拟基准测试中 教[36]在设置中,可以访问模拟器中的 RGB-D 和姿势信息,并证明我们的模型树立了新的技术水平。 我们在 https://odin-seg.github.io 上公开提供我们的代码。
2相关工作
3D 实例分割
3D 实例分割的早期方法[22,15,3,30,49,58]将其语义分割输出分组到单个实例中。最近,Mask2Former[4]通过实例化对象查询实现了最先进的 2D 实例分割,每个查询都通过对输入图像的特征图进行点积来直接预测实例分割掩码。受其启发,Mask3D[44]放弃了先前 3D 模型的分组策略,使用 Mask2Former 的简单解码器头。MAFT[28]和 QueryFormer[34]通过合并更好的查询初始化策略和/或相对位置嵌入,对 Mask3D 进行了改进。虽然这种向类似 Mask2Former 架构的转变使 3D 实例分割架构更接近其 2D 对应架构,但输入和主干仍然非常不同:2D 模型使用预先训练的主干[16,33],而 3D 方法[44]对点云进行操作并使用基于稀疏卷积的主干[5],在小规模 3D 数据集上从头开始训练。在这项工作中,我们建议直接使用 RGB-D 输入和设计架构,这些架构可以利用强大的 2D 主干在 3D 基准测试中实现强大的性能。
3D 数据集和基准测试
大多数 3D 模型主要在点云上运行,避免使用基于图像的功能,部分原因是流行的基准测试设计。这些基准测试通过处理原始 RGB-D 传感器数据来生成点云,涉及手动和嘈杂的步骤,导致重建的点云和传感器数据之间错位。例如,ScanNet[6]进行复杂的网格重建步骤,包括束重建、隐式 TSDF 表示拟合、行进立方体、合并和删除含噪网格顶点,最后手动去除高错位的网格重建。网格重建过程引入的错位可能导致直接处理传感器数据的方法与在提供的点云上训练和测试的方法相比性能不佳。此外,一些数据集,如 HM3D[54]无法访问原始 RGB-D 数据。虽然网格重建有其应用,但许多实时应用程序需要直接处理传感器数据。
基于 2D 的 3D 分割
与实例分割文献不同,有几种语义分割方法,如 MVPNet[20]、BPNet[17]和 DeepViewAgg[40]直接使用传感器点云,而不是网格采样点云。虚拟多视图融合[26]放弃传感器 RGB-D 图像,转而从提供的网格渲染 RGB-D 图像,以防止 ScanNet 图像中的错位和低视场。与我们的方法类似, BPNet 和 DeepViewAgg 集成了各种特征尺度的 2D-3D 信息,并使用预先训练的特征初始化其 2D 流。具体来说,它们采用单独的 2D 和 3D U-Net 来处理相应的模态,并通过连接模块融合来自两个流的特征。我们的架构不是使用不同的流来特征化原始数据,而是实例化一个统一的 U-Net,该 U-Net 将 2D 和 3D 层交错在一起,并且可以使用单个统一的架构处理 2D 和 3D 感知任务。 值得注意的是,虽然这些工作只专注于语义分割,但我们的单一架构在语义和实例分割任务中都表现出色。
2D 基础模型的最新进展[39,24]促使人们努力将它们应用于 3D 任务,例如点云分类[38,56,52]、零样本 3D 语义分割[37,21,14]以及最近的 Zero Shot 实例分割[47].通常,这些方法利用 2D 基础模型来特征化 RGB 图像,将 3D 点云投影到这些图像上,使用深度进行遮挡推理,并通过均值池等简单技术集成所有视图的特征。值得注意的是,这些方法主要关注语义分割,强调像素级标注,而不是实例标注,后者需要跨视图推理来关联多个视图中的同一对象实例。OpenMask3D 的[47]是我们所知道的唯一一种方法,它尝试使用 2D 基础模型进行 3D 实例分割,方法是在 3D 点云上训练与类别无关的 3D 对象分割器,并使用 CLIP 功能对其进行标记。尽管它们在零镜头设置中有效,但它们通常比 SOTA 3D 监督方法落后 15-20%。某些工作不是依赖于基础模型中的特征[12,10]使用预先训练的 2D 模型创建 3D 伪标签。另一项工作涉及拟合神经辐射场 (NeRF),结合 CLIP 的功能[23,48]或来自最先进的 2D 分割器的每视图实例分割[46].这些方法需要昂贵的每个场景优化,禁止在所有测试场景上进行测试以与 SOTA 3D 判别模型进行比较。 Omnivore 没有将 2D 基础模型重新用于 3D 任务,而是 Omnivore[13]提议构建一个统一的架构,可以处理多种视觉模式,如图像、视频和单视图 RGB-D 图像,但它们只显示分类任务的结果。我们同样提出了一个统一的模型,能够执行单视图 2D 和多视图 3D 实例和语义分割任务,同时为我们的大部分架构使用预训练的权重。
图 2:ODIN 架构:我们模型的输入是单个 RGB 图像或多视图 RGB-D 姿势序列。我们将它们提供给 ODIN 的主干网,ODIN 的 2D 视图内融合层和 3D 交叉视图注意力层交错,以提取不同分辨率(比例尺)的特征图。这些特征图通过多尺度注意力操作交换信息。其他 3D 融合图层用于提高多视图一致性。然后,使用掩码解码器头初始化和完善可学习槽,这些槽涉及多尺度特征图并预测对象段(掩码和语义类)。
3方法
ODIN 的架构如图 1 所示。 2. 它采用单个 RGB 图像或一组摆姿势的 RGB-D 图像(即与深度图和相机参数关联的 RGB 图像),并输出相应的 2D 或 3D 实例分割蒙版及其语义标签。 为了实现这一点,ODIN 在 2D 视图内融合和基于 3D 注意力的交叉视图融合之间交替,如图 1 中的蓝色块和黄色块所示。 2. 分割解码头预测实例掩码和语义标签。值得注意的是,ODIN 在 RGB 和多视图 RGB-D 输入中共享其大部分参数。下面详细介绍了我们架构的组件。
内视图 2D 融合:我们从 2D 主干开始,比如 ResNet50[16]或 Swin Transformer[33],按照 Mask2Former 为 2D COCO 实例分割进行了预训练[4],这是一种最先进的 2D 分割模型。 当只有一个 RGB 图像可用时, 我们将其传递完整主干以获得多个比例的 2D 特征。当摆姿势的 RGB-D 序列可用时,此 2D 处理与 3D 舞台交错,如下所述。通过交错视图内和跨视图上下文化,我们能够利用来自 2D 主干的预训练特征,同时还可以跨视图融合特征,使它们具有 3D 一致性。
交叉视图 3D 融合:交叉视图融合的目标是使各个图像的表示在视图之间保持一致。 正如我们在消融中所示,交叉视图特征一致性对于 3D 实例分割至关重要:它使分割头能够意识到从多个视图观察的 3D 对象确实是单个实例,而不是每个视点中的单独实例。
1. 2D 到 3D 取消投影:我们使用针孔相机模型,使用最近邻深度和已知的相机内在和外在参数,将每个 2D 特征向量提升到相应的 3D 位置,从而将每个 2D 特征图取消投影到 3D。随后,生成的特征化点云进行体素化,其中 3D 空间离散化为体积网格。在每个占用的网格单元(体素)中,特征和 XYZ 坐标被平均合并,以得出新的 3D 特征标记集及其各自的 3D 位置。
2. 3Dk-具有相对位置的 NN 变压器:我们使用 3D 令牌融合信息k-具有相对 3D 位置嵌入的最近邻注意力。这类似于 Point Transformers[57,51],但我们只是使用原版的交叉注意力,而不是那些作品中提出的向量注意力。具体来说,在我们的方法中,每个 3D 代币都关注其k最近的邻居。此操作中的位置嵌入是相对于查询标记的位置的。我们通过使用 MLP 对令牌与其邻居之间的距离向量进行编码来实现这一点。查询的位置嵌入只是0向量。因此,我们有
查询POS位置 | =MLP(0); | (1) | ||
钥匙POS位置 | =MLP(p我−pj), | (2) |
哪里p我表示 3D 标记,形状为N×1×3和pj表示k每个p我形状N×k×3.通过这种方式,注意力操作对 3D 标记的绝对坐标是不变的,并且只取决于它们的相对空间排列。 虽然每个 3D 代币总是关注相同的kneighbors,它的有效感受野会跨层增长,因为当邻居进行自己的关注时,它们的特征会得到更新[11].
3. 3D到 2D 投影:在 3D 中将令牌置于上下文中后,我们将特征投影回其原始 2D 位置。我们首先将每个体素的特征复制到该体素内的所有点。然后,我们将这些点重塑回多视图 2D 特征图,以便它们可以由下一个 2D 模块处理。在此过渡中,特征向量保持不变;区别在于它们的解释和形状。在 2D 中,特征被塑造V×H×W×F,表示每个视点的特征图,并且在 3D 中它们的形状N×F,表示统一的要素云,其中N=V⋅H⋅W.
跨尺度融合和上采样:在多个单视图和交叉视图阶段之后,我们可以以不同的分辨率访问每张图像的多个特征图。我们在可变形的 2D 注意力的帮助下合并这些,类似于 Mask2Former[4],在三个最高分辨率的尺度上运行(1/32,1/16,1/8). 当我们有 3D 输入时,我们会在可变形注意之后的每个比例上应用一个额外的 3D 融合层,以恢复 3D 一致性。最后,我们在1/8分辨率特征图1/4resolution 并使用 skip 连接添加到1/4Feature Map 的 Backbone 的 Feature。
传感器深度到网格点云特征传输:对于 ScanNet 等 3D 基准测试[6]和 ScanNet200[41],目标是标记从网格派生的点云,而不是从传感器获取的深度图。因此,在这些基准测试中,不是对1/8resolution 特征映射设置为1/4,我们从1/8Resolution 特征映射到从网格中采样的提供的点云。这意味着:对于网格中的每个顶点,我们从计算出的 3D 特征进行三线性插值,以获得插值特征。我们还以类似方式从未投影的1/4Topology 特征图,用于 Additive Skip 连接。
共享 2D-3D 分割掩码解码器:我们的分割解码器是一个 Transformer,类似于 Mask2Former 的解码器头,它接受 2D 或 3D 特征图的上采样作为输入,并输出相应的 2D 或 3D 分割掩码及其语义类别。 具体来说,我们实例化了一组N负责解码单个实例的可学习对象查询。这些查询由 Query Refinement 块,它由对上采样特征的交叉注意组成,然后是查询之间的自我关注。除了位置嵌入之外,所有关注和查询权重都在 2D 和 3D 之间共享。我们在 2D 中使用傅里叶位置编码,而在 3D 中使用 MLP 对 3D 标记的 XYZ 坐标进行编码。优化后的查询用于预测实例掩码和语义类。对于掩码预测,查询使用最高分辨率的上采样特征执行令牌逐点积。对于语义类预测,我们对查询使用 MLP,将它们映射到类 logits。我们向读者推荐 Mask2Former[4]了解更多详情。
打开词汇类解码器:从以前的开放词汇检测方法中汲取灵感[19,29,61],我们引入了一个能够处理任意数量的语义类的替代分类头。此修改对于多个数据集上的联合训练至关重要。 与BUTD-DETR相似[19]和 GLIP[29],我们为模型提供一个检测提示,该提示通过将对象类别连接成一个句子(例如,“Chair.桌子。沙发。并使用 RoBERTa 对其进行编码[32].在 query-refinement 块中,查询在处理上采样的特征图之前还会关注这些文本标记。 对于语义类预测,我们首先在查询和语言标记之间执行点积操作,在检测提示中为每个标记生成一个 logit。然后,对与特定对象类的提示标记相对应的 logit 进行平均,以得出每个类的 logits。这可以处理多词名词短语,例如 “shower curtain”,其中我们对对应于 “shower” 和 “curtain” 的 logit 进行平均。 分割掩码由像素/点级点积预测,其方式与前面描述的方式相同。
实现细节:我们使用 Mask2Former 中的预训练权重初始化模型[4]接受 COCO 培训[31].随后,我们端到端地训练所有参数,包括来自 3D 融合层的预训练参数和新参数。在 3D 场景中训练期间,我们的模型会处理一系列N连续帧,通常包括 25 帧。在测试时,我们将场景中的所有图像输入到我们的模型中,ScanNet 中每个场景平均有 90 张图像。我们在所有实验中使用普通的闭词解码头,除了在 2D-3D 数据集上联合训练时。在那里,我们使用 open vocabulary 类解码器,它允许我们处理这些数据集中的不同标签空间。在训练过程中,我们对联合 2D 和 3D 数据集采用开放词汇掩码解码,否则采用普通封闭词汇解码。 训练一直持续到收敛到 2 个 NVIDIA A100 和 40 GB VRAM 上,3D 有效批量大小为 6,2D 有效批量大小为 16。对于 2D 和 3D 数据集的联合训练,我们交替对 2D 和 3D 批次进行采样,每个 GPU 的批次大小分别为 3 和 8。我们采用 Mask2Former 的策略,使用匈牙利匹配将查询与真实实例和监督损失进行匹配。 虽然我们的模型只针对实例分割进行了训练,但它可以像 Mask2Former 一样在测试时免费执行语义分割。我们指的是 Mask2Former[4]了解更多详情。
4实验
4.13D 基准测试评估
表 1:3D 基准测试评估 (§= 由我们使用官方代码库进行训练)。
(一)ScanNet 实例分段任务。
型 | 地图 | mAP50 抗体 | mAP25 抗体 | |
传感器 RGBD 点云 | 蒙版3D§ [44] | 43.9 | 60.0 | 69.9 |
ODIN-ResNet50 (我们的) | 47.8 | 69.8 | 83.6 | |
ODIN-Swin-B (我们的) | 50.0 | 71.0 | 83.6 | |
网格采样点云 | 软组[49] | 46.0 | 67.6 | 78.9 |
PBNet[58] | 54.3 | 70.5 | 78.9 | |
蒙版3D[44] | 55.2 | 73.7 | 83.5 | |
查询前[34] | 56.5 | 74.2 | 83.3 | |
MAFT[28] | 58.4 | 75.9 | - |
(二)ScanNet 语义分割任务。
型 | mIoU (mIoU) | |
传感器 RGBD 点云 | MVPNet[20] | 68.3 |
BPNet[17] | 69.7 | |
深视图聚合[40] | 71.0 | |
ODIN-ResNet50 (我们的) | 73.3 | |
ODIN-Swin-B (我们的) | 77.8 | |
渲染的 RGBD 点云 | VMVF[26] | 76.4 |
网格采样点云 | 点变换器 v2[51] | 75.4 |
分层变压器[27] | 74.3 | |
10 月成型机[50] | 75.7 | |
Swin3D-L 系列[55] | 76.7 | |
零点 | OpenScene[37] | 54.2 |
(三)ScanNet200 实例分段任务。
型 | 地图 | mAP50 抗体 | mAP25 抗体 | |
传感器 RGBD 点云 | 蒙版3D[44] § | 15.5 | 21.4 | 24.3 |
ODIN-ResNet50 (我们的) | 25.6 | 36.9 | 43.8 | |
ODIN-Swin-B (我们的) | 31.5 | 45.3 | 53.1 | |
网格采样点云 | 蒙版3D[44] | 27.4 | 37.0 | 42.3 |
查询前[34] | 28.1 | 37.1 | 43.4 | |
MAFT[28] | 29.2 | 38.2 | 43.3 | |
零点 | OpenMask3D 的[47] | 15.4 | 19.9 | 23.1 |
(四)ScanNet200 语义分割任务。
型 | mIoU (mIoU) | |
传感器 RGBD 点云 | ODIN-ResNet50 (我们的) | 35.8 |
ODIN-Swin-B (我们的) | 40.5 | |
网格采样点云 | LGround[41] | 28.9 |
CeCo (中原)[60] | 32.0 | |
八月[50] | 32.6 |
数据:首先,我们在 ScanNet 中的 3D 实例和语义分割上测试我们的模型[6]和 ScanNet200[41]基准。这些基准测试的目标是标记从从原始传感器数据重建的场景的 3D 网格中提取的点云。ScanNet 评估 20 个常见的语义类,而 ScanNet200 使用 200 个类,这更能代表现实世界中遇到的长尾对象分布。我们在此处报告了这些数据集的官方验证拆分结果,并在补充文件中报告了官方测试拆分的结果。
评估指标:我们遵循标准评估指标,即平均精度 (mAP) 用于示例分割,平均交并比 (mIoU) 用于语义分割。
基线:在实例分割中,我们的主要基线是 SOTA 3D 方法 Mask3D[44].为了进行全面比较,我们使用传感器 RGB-D 点云输入训练 Mask3D 和我们的模型,并在基准提供的网格采样点云上评估它们。我们还与以下近期和同时期的工作进行了比较:PBNet[58]、QueryFormer[34]和 MAFT[28].QueryFormer 和 MAFT 在类似 Mask3D 的架构中探索查询初始化和优化,因此与我们的具有互补的优势。与 ODIN 不同,这些方法直接处理 3D 点云并从头开始初始化它们的权重。 如前所述,直接使用 RGB-D 输入有几个优势,包括避免昂贵的网格构建过程,实现 2D 和 3D 感知的更紧密集成,以及利用预训练特征和丰富的 2D 数据。
在语义分割中,我们与 MVPNet 进行比较[20]、BPNet[17]和最先进的 DeepViewAgg[40]直接作用于传感器 RGB 或 RGB-D 图像和点云。我们还与 VMVF 进行比较[26]它对来自提供的网格渲染的 RGB-D 图像进行操作,使用启发式摄像机视图采样以避免遮挡,确保平衡的场景覆盖,并采用更宽的视野,但我们注意到他们的代码并未公开可用。与 ODIN 类似,所有这些方法都使用 2D 预训练的主干。我们还与 Point-Transformer v2 进行了比较[51]、分层变压器[27]、 OctFormer[50]和 Swin3D-L[55]直接处理网格采样的点云,而无需使用任何 2D 预训练。在 ScanNet200 语义分割基准测试中,我们与 SOTA OctFormer 进行了比较[50]和 CeCo[60],一种专门设计用于对抗 ScanNet200 中的类不平衡的方法。这些方法直接处理点云,不使用 2D 图像预训练权重。我们还与 LGround 进行比较[41]它使用 2D CLIP 预训练。我们还将 OpenScene 的基于零镜头 2D 基础模型的 3D 模型进行了比较[37]和 OpenMask3D[47].这种比较是不公平的,因为它们不在域内受到监督,但为了完整起见,我们将它们包括在内。 结果如表 1 所示。 我们得出以下结论:
传感器点云作为输入时性能下降(表 1(a)):Mask3D 的性能从网格点云输入时的 55.2% mAP 下降到传感器点云输入时的 43.9% mAP。这与之前的工作是一致的[26,40]在 ScanNet 上的 3D 语义分割中,将下降归因于相机姿势、深度变化和后处理步骤中的噪声引起的错位。
ODIN 在传感器点云输入下优于 SOTA 3D 方法,在基线使用网格采样点云时表现不佳(表 1(a)):我们的模型明显优于使用传感器点云输入的 SOTA Mask3D 模型,并且在 mAP25 指标上实现了与使用网格采样点云输入的方法相当的性能,但在 mAP 指标上则远远落后,由于 3D 网格和传感器点云之间的错位。
ODIN 在 ScanNet 上的语义分割中设置了新的 SOTA(表 1(b)),在所有设置上都优于所有方法,包括在传感器、渲染和网格采样点云上训练的模型。
ODIN 在长尾 ScanNet200 数据集(表 1(c))上设置了新的实例分割 SOTA,在所有设置上都优于 SOTA 3D 模型,包括在网格采样点云上训练的模型,尤其是在 mAP25 指标中大幅领先,同时专门使用传感器 RGB-D 数据。这突出了 2D 特征的贡献,尤其是在 3D 数据可用的情况下检测类分布的长尾。我们在附录 ( Sec. A.3) 中显示了 head 、 common 和 tail 类的更详细结果。
ODIN 在 ScanNet200 上设置了新的语义分割 SOTA(表 1(d)),其性能优于使用网格点云的 SOTA 语义分割模型。
表 2:AI2THOR 语义和实例分割。
型 | 地图 | mAP50 抗体 | mAP25 抗体 | mIoU (mIoU) |
---|---|---|---|---|
蒙版3D[44] | 60.6 | 70.8 | 76.6 | - |
ODIN-ResNet50 (我们的) | 63.8 | 73.8 | 80.2 | 71.5 |
ODIN-Swin-B (我们的) | 64.3 | 73.7 | 78.6 | 71.4 |
4.2模拟中多视图 RGB-D 的评估
使用 AI2THOR[25]具有 ProcThor 程序化房屋的模拟环境[7],我们收集了 1500 个场景(1200 次训练,300 次测试)的 RGB-D 数据,这些场景的大小与 ScanNet 相似(更多详细信息见附录、附录 B)。 我们训练和评估我们的模型和 SOTA Mask3D[44]在未投影的 RGB-D 图像上。如表 2 所示,我们的模型比 Mask3D 的性能高出 3.7% mAP,在直接可比的 RGB-D 设置中表现出强大的性能。 它表明,当前的实际基准测试可能会限制由于未对准而将 RGB-D 传感器点云特征化的模型。我们希望这能鼓励社区也专注于直接收集、标记和基准测试 RGB-D 传感器数据。
4.3具体指令跟随
表 3:具体指令遵循。SR = 成功率。GC = 目标条件成功率。
教 | 阿尔佛雷德 | |||||||
看 不见 | 明显 | 看 不见 | 明显 | |||||
锶 | 气相色谱 | 锶 | 气相色谱 | 锶 | 气相色谱 | 锶 | 气相色谱 | |
影片[35] | - | - | - | - | 30.7 | 42.9 | 26.6 | 38.2 |
助手[42] | 15.8 | 14.5 | 11.6 | 19.4 | 37.4 | 55.0 | 26.8 | 41.2 |
HELPER + ODIN(我们的) | 18.6 | 18.6 | 13.8 | 26.6 | 47.7 | 61.6 | 33.5 | 47.1 |
表 4:来自 ScanNet 的传感器 RGB-D 点云和来自 COCO 的 2D RGB 图像的联合训练。
扫描网 | 可可 | |||
---|---|---|---|---|
地图 | mAP50 抗体 | mAP25 抗体 | 地图 | |
蒙版3D[44] | 43.9 | 60.0 | 69.9 | ✗ |
面具2前[4] | ✗ | ✗ | ✗ | 43.7 |
ODIN(在 2D 中训练) | ✗ | ✗ | ✗ | 43.6 |
ODIN(在 3D 中训练) | 47.8 | 69.8 | 83.6 | ✗ |
ODIN(联合培训) | 49.1 | 70.1 | 83.1 | 41.2 |
表 5:ScanNet 数据集上的消融。
(一)跨视图情境化。
型 | 地图 | mIoU (mIoU) |
---|---|---|
ODIN (我们的) | 47.8 | 73.3 |
无 3D 融合 | 39.3 | 73.2 |
无交错 | 41.7 | 73.6 |
(二)预训练特征的效果。
型 | 地图 | mIoU (mIoU) |
---|---|---|
ODIN (我们的) | 47.8 | 73.3 |
仅预先训练的主干 | 42.3 | 72.9 |
没有预先训练的特征 | 41.5 | 68.6 |
(三)冻结 Backbone 的效果。
型 | ResNet50 系列 | 斯温-B | ||
---|---|---|---|---|
地图 | mIoU (mIoU) | 地图 | mIoU (mIoU) | |
ODIN (我们的) | 47.8 | 73.3 | 50.0 | 77.8 |
带冷冻主干 | 46.7 | 74.3 | 46.2 | 75.9 |
我们在 TEACh 的实施设置中应用 ODIN[36]和阿尔弗雷德[45]其中代理可以访问 RGB、深度和摄像机姿势,并且需要分别从对话片段和指令中推断和执行任务和行动计划。这些代理在动态的家庭环境中运行,负担不起昂贵的网状构建步骤。 在这两种情况下,很好地检测对象对于任务成功都至关重要。先前的 SOTA 方法[42,36]运行按视图的 2D 实例分段模型[4,9]并使用有关空间和外观接近度的简单时间推理来链接检测到的实例。相反,ODIN 会处理其最后一个N以自我为中心直接在 3D 中查看和分割对象实例。我们配备 HELPER[42],这是一种最先进的具体模型,以 ODIN 作为其 3D 对象检测引擎。我们使用任务成功率 (SR) 进行评估,前者检查整个任务是否成功执行,使用目标条件成功率 (GC) 检查所有事件中满足子目标的比例[45,36].我们对 “valid-seen” (类似于训练集的房屋) 和 “valid-unseen” (不同的房屋) 分割进行评估。在表 3 中,我们观察到以 ODIN 作为 3D 对象检测器的 HELPER 的性能明显优于使用原始 2D 检测和链接感知管道的 HELPER。
4.4消融和变异
我们在表 4 和表 5 中的 ScanNet 数据集上进行了消融实验。我们的结论是:
2D-3D 联合训练助力 3D 感知我们将 ScanNet 的传感器 RGB-D 点云和 COCO 的 2D RGB 图像上的 ODIN 联合训练与在 2D 和 3D 数据上独立训练的变体进行了比较,所有这些都是从预训练的 COCO 权重初始化的。由于 ScanNet 和 COCO 中有不同的类,因此我们使用开放词汇语义类解码头,而不是普通的闭词汇头。表 4 中的结果表明,联合训练在 3D 中产生了 1.3% 的绝对改进,并导致 2D 中也有类似的下降。这个实验表明,单个架构可以在 2D 和 3D 任务上都表现良好,从而表明我们可能不需要在任一领域设计截然不同的架构。然而,2D 性能的下降表明,架构设计有可能进一步改进,以保持 2D 域的性能。尽管如此,这个实验强调了使用 2D 数据集进行联合训练对 ODIN 中 3D 分割的好处。 请注意,由于计算限制,我们在任何其他实验中都不会在 2D 和 3D 数据集上进行联合训练。
交叉视图融合对于实例分割至关重要,但对于语义分割则不重要(表 5(a)):删除 3D 交叉视图融合层会导致实例分割的 mAP 下降 8.5%,对语义分割没有任何显着影响。流行的基于 2D 的 3D 开放词汇作品[21,37]如果没有强大的交叉视图融合,只关注语义分割,因此无法发现这个问题。第 3 行显示,当跨视图 3D 融合发生在所有视图内 2D 图层之后,而不是交错视图内和跨视图融合时,mAP 下降了 6.1%。
2D 预训练权重初始化有帮助(表 5(b)):仅使用预训练权重初始化图像主干,而不是所有层(3D 融合层除外),导致 mAP 下降 5.5%(第 2 行)。从头开始整个模型会导致 6.3% mAP 的更大下降(第 3 行)。这强调了与 2D 模型共享尽可能多的参数以利用最大可能的 2D 预训练权重的重要性。
更强的 2D 主干有帮助(表 5(c)):使用 Swin-B 而不是 ResNet50 可以显着提高性能,这表明 ODIN 可以直接从 2D 计算机视觉的进步中受益。
微调包括预训练参数在内的所有内容会有所帮助(表 5(c)):当我们微调所有参数时,ResNet50 和 Swin 的性能会显著提高。直观地说,解冻主干可以让 2D 图层更好地适应交叉视图融合特征。因此,我们在所有实验中都保持我们的主干不冻结。
直接向 3D 模型提供 2D 特征没有帮助:将 XYZ+RGB 作为 Mask3D 输入的 2D 特征连接起来,可产生 53.8% 的 mAP 性能,与 53.3% 相当†††我们不使用昂贵的 Mask3D 的 DB-SCAN 后处理,因此它获得了 53.3% 的 mAP,而不是他们论文报告的 55.2%的基线模型,其中只有 XYZ+RGB 作为输入。
4.5其他实验
我们在 A.1 节中展示了对 ScanNet 和 ScanNet200 隐藏测试集的评估、结果以及与 S3DIS 基线的比较[1]和 MatterPort3D[2]Sec. A.2 中的数据集和 2D 感知的性能提升,以及 Sec. A.4 中上下文视图的增加。
4.6局限性
我们的实验揭示了 ODIN 的以下限制: 首先,与其他性能最佳的 3D 模型一样,它取决于准确的深度和相机姿势。不准确的深度或摄像机姿势会导致性能急剧下降(类似于其他 3D 模型,如 Mask3D)。在我们未来的工作中,我们的目标是探索将深度和相机姿态估计与语义场景解析统一起来,从而使 3D 模型对噪声更具弹性。 其次,在本文中,我们将范围限制在探索统一架构的设计上,而不通过联合训练不同的 2D 和 3D 数据集来扩大 3D 学习。我们的目标是在未来探索这一点,以实现对野外场景的强烈泛化,类似于当前的基础 2D 感知系统。我们的结果表明,在两种模态上联合训练 ODIN 时,2D 和 3D 分割性能之间存在竞争。探索使 2D 和 3D 训练更具协同性的方法为未来的工作提供了一条有前途的途径。
5结论
我们介绍了 ODIN,这是一种用于 2D 和 3D 实例分割的模型,可以解析 2D 图像和 3D 点云。ODIN 将 2D 图像和 3D 特征云表示为一组标记,它们的位置编码不同,分别表示 2D 标记的 2D 像素坐标和 3D 标记的 3D XYZ 坐标。我们的模型在图像内特征化和交叉视图特征化之间交替。它在 ScanNet200 和 AI2THOR 实例分割基准测试中实现了 SOTA 性能,优于在传感器点云上运行的所有方法,并且实现了与在网格采样点云上运行的方法相比的性能。 我们的实验表明,ODIN 优于其他模型,这些模型只是用 2D 图像特征增强 3D 点云模型,以及我们模型的烧蚀版本,这些模型不在 2D 和 3D 信息融合之间交替,不在 2D 和 3D 之间进行协同训练,也没有预训练 2D 主干。
6确认
作者感谢 温-Hsuan Chu、Mihir Prabhudesai 和 Alexander Swerdlow 对这项工作初稿的宝贵反馈。特别感谢 Tsung-Wei Ke 在整个项目中进行的深入讨论。 我们感谢 Microsoft Turing 团队在本项目的初始开发阶段为我们提供 GPU 资源。这项工作得到了 ONR 奖 N00014-23-1-2415、Sony AI、DARPA Machine Common Sense、Amazon 教师奖和 NSF CAREER 奖的支持。
附录 A实验
表 6:对已建立的 3D 基准测试集进行评估。
(一)在 ScanNet 上比较实例分割任务。
输入 | 型 | 地图 | mAP50 抗体 | mAP25 抗体 |
---|---|---|---|---|
传感器 RGBD 点云 | ODIN-Swin-B (我们的) | 47.7 | 71.2 | 86.2 |
网格采样点云 | 软组[49] | 50.4 | 76.1 | 86.5 |
PBNet[58] | 57.3 | 74.7 | 82.5 | |
蒙版3D[44] | 56.6 | 78.0 | 87.0 | |
查询前[34] | 58.3 | 78.7 | 87.4 | |
MAFT[28] | 59.6 | 78.6 | 86.0 |
(二)语义分割任务的 ScanNet 比较。
输入 | 型 | mIoU (mIoU) |
---|---|---|
传感器 RGBD 点云 | MVPNet[20] | 64.1 |
BPNet[17] | 74.9 | |
深视图聚合[40] | - | |
ODIN-Swin-B (我们的) | 74.4 | |
渲染的 RGBD 点云 | VMVF[26] | 74.6 |
网格采样点云 | 点变换器 v2[51] | 75.2 |
分层变压器[27] | 74.7 | |
10 月成型机[50] | 76.6 | |
Swin3D-L 系列[55] | 77.9 | |
零点 | OpenScene[37] | - |
(三)在 ScanNet200 上比较实例分割任务。
型 | 地图 | mAP50 抗体 | mAP25 抗体 | |
---|---|---|---|---|
传感器 RGBD 点云 | ODIN-Swin-B (我们的) | 27.2 | 39.4 | 47.5 |
网格采样点云 | 蒙版3D[44] | 27.8 | 38.8 | 44.5 |
查询前[34] | - | - | - | |
MAFT[28] | - | - | - | |
零点 | OpenMask3D 的[47] | - | - | - |
(四)在 ScanNet200 上用于语义分割任务的比较。
输入 | 型 | mIoU (mIoU) |
---|---|---|
传感器 RGBD 点云 | ODIN-Swin-B (我们的) | 36.8 |
网格采样点云 | LGround[41] | 27.2 |
CeCo (中原)[60] | 34.0 | |
八月[50] | 32.6 |
答 1在 ScanNet 和 ScanNet200 隐藏测试集上进行评估
我们将 ODIN 提交给 ScanNet 的官方测试基准[6]和 ScanNet200[41].根据之前的工作,我们在训练和验证场景的组合上训练 ODIN。与某些采用 DBSCAN 等额外技巧的方法不同[44]、集成模型[27]、其他专用增强[51],其他数据集的额外预训练[55]、更精细的网格大小[50]并且多次向前通过属于同一体素的点,我们的方法避免了任何此类花里胡哨。
结果如表 6 所示。主要论文中讨论的这些数据集的验证集的所有结果结论在这里都适用。在 ScanNet 基准测试中,ODIN 在语义分割和实例分割的 mAP25 指标上实现了接近 SOTA 的性能,但由于传感器和网格采样点云之间的错位,ODIN 在 mAP 指标上的表现要差得多。在 ScanNet200 基准测试中,ODIN 在语义分割和实例分割的 mAP50/mAP25 指标上设置了新的 SOTA,同时在 mAP 指标上实现了接近 SOTA 的性能。值得注意的是,ODIN 是第一种对传感器 RGB-D 数据进行操作以进行例如分割的方法,并且与在网格采样点云上运行的模型相比,其性能具有竞争力。
答 2S3DIS 和 Matterport3D 的评估
我们还在 Matterport3D 上对 ODIN 进行了基准测试[2]和 S3DIS[1]数据。
马特波特:Matterport3D 包括 90 个建筑规模的场景,进一步划分为单独的房间,包括 1554 个培训室和 234 个验证室。该数据集提供从每个房间到为该房间捕获图像的摄像机 ID 的映射。在丢弃 158 个培训室和 18 个没有有效相机映射的验证室后,我们只剩下 1396 个培训室和 158 个验证室。例如,对于分割结果,我们训练最先进的 Mask3D[44]model 的 (丢弃无效房间后减少的集合)。对于语义分割,我们在简化的集合上进行训练和测试,而基线数字则从 OpenScene 中获取[37]论文,根据原始数据进行训练和测试。鉴于丢弃的数据量较小,我们预计不会有显著的性能差异。Matterport3D 的官方基准测试在 21 个类别上进行测试;但是,OpenScene 还对 160 个类进行评估,以与长尾分布上最先进的模型进行比较。我们遵循它们并在这两种设置中报告结果。
S3DIS: S3DIS 包含 6 个建筑规模的场景,通常分为 5 个用于训练,1 个用于测试。该数据集提供原始 RGB-D 图像、捕获的全景图像以及从重建原始传感器数据后获得的网格渲染的图像。与 Matterport3D 不同,S3DIS 不提供未失真的原始图像;因此,我们使用提供的渲染 RGB-D 图像。S3DIS 中的一些房间在 RGB-D 图像和点云之间存在重大错位,我们通过整合 DeepViewAgg 中的修复来部分解决这一问题[40]并介绍我们自己的调整。尽管进行了这些修复,但某些场景在 RGB-D 图像和提供的网格采样点云之间的重叠仍然非常低。为了缓解这种情况,我们查询来自其他房间的图像,并验证它们是否与为房间提供的点云重叠。这在一定程度上有助于解决低重叠问题。
官方 S3DIS 基准测试评估了 13 个类别。由于数据集的大小较小,一些模型会在其他数据集(如 ScanNet)上进行预训练,如 SoftGroup 中所示[49]和 Structured3D 数据集[59],由 21,835 间客房组成,由 Swin3D-L 完成[55].与Mask3D相似[44],我们报告了从头开始训练和从 ScanNet 上训练的权重开始的设置的结果。
与 ScanNet 和 ScanNet200 一样,S3DIS 和 Matterport3D 都对收集的 RGB-D 数据进行后处理,以构建网格,从中采样和标记点云。因此,我们训练 Mask3D[44]我们的模型使用 RGB-D 传感器点云数据,并在基准提供的点云上进行评估。此外,我们通过在网格采样点云上训练和测试模型变体来探索模型变体,以进行比较分析。
结果如表 7 所示。我们得出以下结论:
表 7:在 Matterport3D 上进行评估[2]和 S3DIS[1]数据。
(一)实例分割任务在 Matterport3D 上的比较。
21 | 160 | ||||
---|---|---|---|---|---|
输入 | 型 | 地图 | mAP25 抗体 | 地图 | mAP25 抗体 |
传感器 RGBD 点云 | 蒙版3D[44] | 7.2 | 16.8 | 2.5 | 10.9 |
ODIN-ResNet50 (我们的) | 22.5 | 56.4 | 11.5 | 27.6 | |
ODIN-Swin-B (我们的) | 24.7 | 63.8 | 14.5 | 36.8 | |
网格采样点云 | 蒙版3D[44] | 22.9 | 55.9 | 11.3 | 23.9 |
(二)Matterport3D 语义分割任务的比较。
21 | 160 | ||||
输入 | 型 | mIoU (mIoU) | mAcc | mIoU (mIoU) | mAcc |
传感器 RGBD 点云 | ODIN-ResNet50 (我们的) | 54.5 | 65.8 | 22.4 | 28.5 |
ODIN-Swin-B (我们的) | 57.3 | 69.4 | 28.6 | 38.2 | |
网格采样点云 | 纹理网[18] | - | 63.0 | - | - |
DCM-Net 网络[43] | - | 67.2 | - | - | |
闵可夫斯基网[5] | 54.2 | 64.6 | - | 18.4 | |
零点 | OpenScene[37] | 42.6 | 59.2 | - | 23.1 |
(三)实例分割任务的 S3DIS Area5 比较。 (†= 使用其他数据)
型 | 地图 | mAP50 抗体 | mAP25 抗体 | |
---|---|---|---|---|
RGBD 点云 | 蒙版3D[44] | 40.7 | 54.6 | 64.2 |
蒙版3D[44] † | 41.3 | 55.9 | 66.1 | |
ODIN-ResNet50 (我们的) | 36.3 | 48.0 | 61.2 | |
ODIN-ResNet50 系列†(我们的) | 44.7 | 57.7 | 67.5 | |
ODIN-Swin-B†(我们的) | 43.0 | 56.4 | 70.0 | |
网格采样点云 | 软组[49] † | 51.6 | 66.1 | - |
蒙版3D[44] | 56.6 | 68.4 | 75.2 | |
蒙版3D[44] † | 57.8 | 71.9 | 77.2 | |
查询前[34] | 57.7 | 69.9 | - | |
MAFT[28] | - | 69.1 | 75.7 |
(四)语义分割任务的 S3DIS 比较。 (†= 使用其他数据)
输入 | 型 | mIoU (mIoU) |
RGBD 点云 | MVPNet[20] | 62.4 |
VMVF[26] | 65.4 | |
深视图聚合[40] | 67.2 | |
ODIN-ResNet50 (我们的) | 59.7 | |
ODIN-ResNet50 系列†(我们的) | 66.8 | |
ODIN-Swin-B†(我们的) | 68.6 | |
网格采样点云 | 点变换器 v2[51] | 71.6 |
分层变压器[27] | 72.0 | |
Swin3D-L 系列[55] † | 74.5 |
ODIN 在所有设置上都优于 Matterport3D 实例分割基准上的 SOTA 3D 模型(表 7(a))
ODIN 在 Matterport3D 语义分割基准上树立了新的水平(表 7(b)):我们的模型在 21 和 160 类设置中都取得了卓越的性能。它也在很大程度上优于 OpenScene[37]在这两个设置上。OpenScene 是一种零样本方法,而 ODIN 是在域内受监督的,因此这种比较是不公平的。然而,OpenScene 指出,他们的零镜头模型在 160 个类设置中优于完全监督模型,因为他们的模型对稀有类很鲁棒,而监督模型在分割长尾时可能会受到严重影响。概念融合[21])也得出了类似的结论。有了这个结果,我们指出了在 3D 中进行监督的可能性,同时通过简单地利用强大的 2D 预训练权重初始化,也可以对长尾保持鲁棒性。
在 S3DIS 实例分割基准测试(表 7(c)中,在基线 Mask3D 从 ScanNet 预训练检查点开始的设置中,我们的模型在 RGBD 点云设置中优于它们,但与网格采样点云方法相比,获得的性能较低,并且在所有模型从头开始训练的设置中进行比较。
在 S3DIS 语义分割基准测试(表 7(d))中,使用 ScanNet 权重初始化训练的 ODIN 优于所有基于 RGBD 点云的方法,同时在网格采样点云上实现了有竞争力的性能。当从头开始训练时,它比其他基线差得多。鉴于 S3DIS 的数据集大小有限,只有 200 个训练场景,我们观察到严重的过拟合。
答 3ScanNet200 详细结果
表 8:实例分段的 ScanNet200 详细结果 (§= 由我们使用官方代码库训练)
输入 | 型 | 都 | 头 | 常见 | 尾巴 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
地图 | mAP50 抗体 | mAP25 抗体 | 地图 | mAP50 抗体 | mAP25 抗体 | 地图 | mAP50 抗体 | mAP25 抗体 | 地图 | mAP50 抗体 | mAP25 抗体 | ||
传感器 RGBD 点云 | 蒙版3D§ [44] | 15.5 | 21.4 | 24.3 | 21.9 | 31.4 | 37.1 | 13.0 | 17.2 | 18.9 | 7.9 | 10.3 | 11.5 |
ODIN-ResNet50 (我们的) | 25.6 | 36.9 | 43.8 | 34.8 | 51.1 | 63.9 | 23.4 | 33.4 | 37.9 | 17.8 | 24.9 | 28.1 | |
ODIN-Swin-B (我们的) | 31.5 | 45.3 | 53.1 | 37.5 | 54.2 | 66.1 | 31.6 | 43.9 | 50.2 | 24.1 | 36.6 | 41.2 | |
Mesh Sampled 点云 | 蒙版3D[44] | 27.4 | 37.0 | 42.3 | 40.3 | 55.0 | 62.2 | 22.4 | 30.6 | 35.4 | 18.2 | 23.2 | 27.0 |
扫描网 200[41]将其 200 个对象类分为三组(Head、Common 和 Tail),每组分别包含 66、68 和 66 个类别。在表 8 中,我们提供了这些分片的 ScanNet200 结果的详细细分。我们观察到,与在网格采样点云上训练的 SOTA Mask3D 模型相比,ODIN 在 Head 类上实现了较低的性能,而在 Common 和 Tail 类上的性能明显更高。这突出了有效利用 2D 预训练特征的贡献,尤其是在 3D 数据可用的情况下检测类分布的长尾。
图 3: 2D mAP 性能随使用的上下文视图数量的增加而变化
图 4:详细的 ODIN 架构组件:左侧是 3D RelPos Attention 模块,该模块将来自所有视图的深度、相机参数和特征图作为输入,将特征提升到 3D 以获得 3D 令牌。每个 3D 令牌都用作查询。每个 3D 标记的 K-Nearest Neighbors 成为相应的键和值。3D 代币会关注它们的邻居的 L 层并自我更新。最后,只需将 3D 特征云重塑为 2D 多视图特征图,即可将 3D 标记映射回 2D 特征图。中间是查询优化块,其中查询首先关注文本标记,然后是视觉标记,最后进行自我注意。文本功能是可选的,仅用于开放词汇解码器设置。右侧是分割掩码解码器头,查询只需使用视觉标记执行点积即可解码分割热图,可以对其进行阈值处理以获取分割掩码。在 Open-Vocabulary 解码设置中,查询还执行带有文本标记的点积,以解码单个单词的分布。在封闭的词汇解码设置中,查询只需通过 MLP 来预测类的分布。
答 4性能随视图数的变化
我们使用 AI2THOR 数据集检查视图数量对分段性能的影响,特别关注 2D mAP 性能指标。通过改变给定查询 RGB 图像周围的上下文图像的数量来执行评估。从没有任何上下文的单视图 (N=0) 开始,我们将 N 增加到 5、10、20、40、60,最后将场景中的所有图像视为上下文。ODIN 接受这些N+1RGB-D 图像作为输入,预测每个图像的每像素实例分割,并评估查询图像的 2D mAP 性能。结果如图 2 所示。 3,显示 2D mAP 随着视图数量的增加而持续增加。这一观察结果强调了在可行的情况下使用多视图 RGB-D 图像优于单视图 RGB 图像的优势。
答 5推理时间
我们通过使用 40 GB VRAM A100 对整个验证集中每个模型的前向传递时间求平均值来评估 Mask3D 和 ODIN 的推理时间。当直接馈送网格采样的点云时,Mask3D 实现了 228 毫秒的推理时间。当提供传感器点云作为输入时,推理时间增加到 864 毫秒。使用传感器点云的 Mask3D 比使用网格点云慢,因为在相同的体素大小 (0.02m) 下,与网格点云(平均 64k)相比,传感器点云(平均 110k)占用的体素更多,因为网格清理有时会丢弃大部分场景。从传感器点云到网格点云的特征传输增加了额外的 7 毫秒。在传感器点云上运行的 ODIN-SwinB 的推理时间为 960 毫秒。
附录 B其他实施细节
我们架构的详细组件及其描述如图 2 所示。 4.
更多实现细节如下:
增强: 对于 RGB 图像增强,我们从 Mask2Former 中实现了大规模抖动增强方法[4]、将图像大小调整为0.1和2.0.我们在增强后相应地调整内部函数,并将颜色抖动应用于 RGB 图像。训练涉及一组连续的Nimages,通常设置为 25。我们以 50% 的概率随机抽样k来自该系列的图片[1,N]而不是使用全部N图像。此外,与其始终如一地采样N连续的图片,我们随机跳过kimages 中,其中k范围从 1 到 4。
对于 3D 增强,我们采用 Mask3D[44]方法,将随机 3D 旋转、缩放和抖动噪声应用于未投影的 XYZ。由于在最初的实验中观察到性能略有下降,因此省略了 Mask3D 的弹性失真和随机翻转增强。
图像分辨率我们使用256×256对于 ScanNet,512×512用于 ScanNet200 和 AI2THOR。在我们的AI2THOR实验中,我们发现采用更高的图像分辨率可以增强对较小物体的检测,而对检测较大的类似 ScanNet 的物体没有明显影响。这一观察结果在 ScanNet 中得到了证实,我们在 ScanNet 中进行了实验512×512图像分辨率,并且没有观察到任何明显的好处。
插值在我们的模型中,插值被用于各种实例,例如从1/8th 分辨率设置为1/4th.在涉及深度的情况下,我们将特征图取消投影到 3D 并执行三线性插值,而不是直接在 2D 特征图上应用双线性插值。对于深度贴图的上采样/下采样,我们使用最近的插值。事实证明,三线性插值对于获得准确的特征图至关重要,尤其是在桌子和地板边缘等 2D 对象边界处。这是因为 nearest depth interpolation 可能会从桌子或地板捕获深度。利用特征图的三线性上采样可确保如果上采样深度来自地板,它会从地板点而不是表格点插入特征。
细分的使用: 一些数据集(例如 ScanNet 和 ScanNet200)提供点云的超级体素化,通常称为分割。许多 3D 方法不是直接分割所有输入点,而是预测这些段上的输出。具体来说,Mask3D[44]对输入点进行特征化,然后对属于线段的点的要素进行均值汇集,从而每个线段生成一个要素。在之前的工作之后,我们也以类似的方式利用细分。我们观察到,利用分段对于获得良好的 mAP 性能至关重要,而它对 mAP25 性能没有明显影响。我们怀疑这种现象可能是由这些数据集的标注过程引起的。人类的任务是标记路段而不是单个点,确保路段中的所有点共享相同的标签。将区段与我们的模型一起使用可确保整个区段使用相同的类进行标记。值得注意的是,在 AI2THOR 中,我们的方法和基线不使用这些段,因为它们不可用。
事后输出传输与特征传输: ODIN 将传感器点云作为输入,并在 Benchmark 提供的点云上生成分段输出。在此过程中,我们将传感器点云特征化,并将这些功能从传感器点云传输到 benchmark 提供的点云。随后,我们在这个基准提供的特征云上预测分割输出,并使用数据集中提供的标签监督模型。另一种方法包括分割和监督传感器 RGB-D 点云,然后将分割输出传输到基准点云进行评估。我们试验了这两种策略,发现它们产生了相似的结果。但是,由于许多数据集仅在点云上提供分割输出,因此对于后一种策略,将标签传输到 RGB-D 图像需要仔细考虑。这是因为与 RGB-D 传感器点云相比,所提供的点云更稀疏,并且深度噪声和未对齐等因素可能会导致标签传输质量低下。因此,我们在所有实验中都选择了前一种策略。
深度 孔填充: 传感器收集的深度图通常在对象边界和光亮/透明表面周围有孔。我们执行简单的 OpenCV 深度修复来填补这些漏洞。我们尝试使用基于神经的深度完成方法和 NERF 深度修复,但没有观察到显着的好处。
AI2THOR 数据收集: AI2THOR[25]是一个具体模拟器,代理可以在其中在房屋内导航、执行操作并捕获场景的 RGB-D 图像。我们从 ProcTHOR 加载结构生成的房屋[7]AI2THOR模拟器中,并将代理随机放置在模拟器提供的可导航点。代理围绕其初始位置执行单个随机旋转,并捕获 RGB-D 帧。重复此过程,代理在另一个随机位置生成,直到所有可导航点都用尽或最大值N=120frames 的 Frames 中。虽然 ProcTHOR 提供 10,000 个场景,但我们只随机选择 1,500 个场景来匹配 ScanNet 的大小。此外,我们会保留少于100对象,因为我们的模型最多使用100对象查询。
图 5:各种 3D 和 2D 数据集的定性结果
标签:视图,2D,RGB,点云,ODIN,3D From: https://blog.csdn.net/hao_wujing/article/details/145231921