【一文看懂深度补全】Deep Depth Completion from Extremely Sparse Data: A Survey

标签：Completion 深度图补全方法编码器 RGB 深度 Data

【综述】从稀疏的数据中进行深度补全：Deep Depth Completion from Extremely Sparse Data: A Survey

参考文献：

摘要

深度补全旨在从深度传感器（例如 LiDAR）捕获的极度稀疏的深度图中预测密集的逐像素深度。这在自动驾驶、3D 重建、增强现实和机器人导航等各种应用中起着至关重要的作用。近年来，基于深度学习的解决方案在该任务中取得了显著成功，并主导了这一领域的发展趋势。本文首次提供了全面的文献综述，帮助读者更好地把握研究趋势，并清晰地了解当前的进展。我们从网络架构、损失函数、基准数据集和学习策略的设计角度对相关研究进行了调查，并提出了一种新颖的分类方法来对现有方法进行分类。此外，我们在包括室内和室外数据集的三个广泛使用的基准上对模型性能进行了定量比较。最后，我们讨论了现有工作的挑战，并为未来的研究方向提供了一些见解。

1. 引言

获取正确的逐像素场景深度在场景理解[54]、自动驾驶[100]、机器人导航[75]、同时定位与建图[35]、智能农业[23]和增强现实[19]等任务中发挥着重要作用。因此，它在过去几十年中一直是一个长期研究目标。通过单目深度估计算法从单幅图像直接估算场景深度是一种具有成本效益的方法[27]、[32]、[42]、[61]。然而，视觉方法通常会产生较低的推理精度和较差的泛化能力，因此在实际部署中较为脆弱。

另一方面，深度传感器提供了具有真实场景比例的准确而稳健的距离测量，因此更适用于需要安全保障和高性能的应用[26]、[76]、[100]，例如自动驾驶汽车。事实上，使用 LiDAR 测量深度可能仍是工业应用中获取可靠深度的最可行方法。然而，无论是 LiDAR 还是常用的 RGBD 相机（如 Microsoft Kinect），都无法提供密集的逐像素深度图。如图 1 所示，Kinect 捕获的深度图存在小孔，LiDAR 捕获的图则显著稀疏。因此，在实际操作中有必要填补空缺像素。

在这里插入图片描述

图 1. 不同传感器捕获的深度图比较。中间显示的是原始稀疏深度图，左侧是 Kinect 在室内场景下捕获的，右侧是 LiDAR 在户外街道上捕获的。显然，LiDAR 捕获的图更加稀疏。底部显示的是从原始稀疏图完成的深度图。

由于不同传感器捕获的深度图之间存在明显差异，因此深度补全的问题和解决方案通常取决于传感器。例如，在许多工作中，这一问题被称为深度增强[48]、[74]、[97]，深度修补[66]、[81]和深度去噪[28]、[97]，目标是从密集的原始深度图中推断缺失的深度值并消除异常值（通常，密度超过 80% ，如 [76] 中所述）。本文特别关注极度稀疏数据的完成任务，例如 LiDAR 捕获的深度图，其中稀疏性通常超过 95%。这个问题在相关文献中被单独研究和处理，由于稀疏输入的低密度，这个问题更具挑战性。为简化起见，本文将极度稀疏数据的深度补全称为深度补全。

近年来，基于深度学习的方法在这一任务中展示了强大的性能，并引领了发展趋势。先前的工作表明，一个具有多个卷积层的网络[109]，或一个简单的自动编码器[113]可以完成缺失的深度。此外，通过利用 RGB 信息，深度补全可以进一步改进。这类典型方法[54]、[98]是使用双编码器分别从稀疏深度图及其对应的 RGB 图像中提取特征，随后使用解码器融合它们。

为了推进深度补全的边界，最近的方法倾向于使用复杂的网络结构和复杂的学习策略。除了用于从多模态数据（例如图像和稀疏深度）中提取特征的多分支结构外，研究人员还开始将表面法线[88]、亲和矩阵[13]、残差深度图[34]等整合到他们的框架中。此外，为了应对监督像素的缺乏，一些工作引入了利用多视图几何约束[76]和对抗性正则化[58]。这些努力极大地推动了深度补全任务的进展。

尽管基于学习的方法取得了巨大进展，但据我们所知，目前缺乏全面的综述。本文旨在通过层次分析和分类现有方法，描绘基于学习的深度补全的发展，并为读者提供对深度补全的直观理解。通常，我们希望回答以下问题：

为实现高精度深度补全，先前方法的共同特征是什么？
与无引导方法相比，RGB 引导方法的优缺点是什么？
由于大多数先前的工作采用了视觉和 LiDAR 数据，最有效的多模态数据融合策略是什么？
当前的挑战是什么？

考虑到上述问题，我们调查了从 2017 年 1 月到 2022 年 5 月的相关工作（撰写时）。图 2 根据提出的分类法可视化了所选方法的时间线，底部和顶部分别展示了无引导和五种类型的 RGB 引导方法。可以看到，尽管早期的研究以无引导的方式处理深度补全，我们观察到 2020 年之后发表的研究逐渐被 RGB 引导方法主导。在本文中，我们从网络结构、损失函数、学习策略和基准数据集的角度调查了先前的研究。我们特别强调了具有新颖算法提议或显著性能提升的方法，并适当地提供了它们技术贡献的可视化描述以促进澄清。此外，我们提供了现有方法在最流行的基准数据集上的定量比较。通过对先前研究的深入分析，我们希望读者能够对深度补全有一个清晰的理解。

在这里插入图片描述

贡献概述

据我们所知，这是第一篇关于深度补全的综述。我们进行了深入且全面的回顾，包括无引导和 RGB 引导方法。
我们提出了一种新的分类法来对先前的方法进行分类，并可视化了它们的主要特征，包括网络结构、损失函数和学习策略。
文章涵盖了基于深度学习的深度补全的最新进展，并在基准数据集上进行了性能比较，为读者提供了最先进的方法。
通过分析每种类型方法的准确性和模型复杂度，我们总结了它们的优缺点。
我们提供了几个有待解决的问题和很有前途的未来研究方向。

2. 基于深度学习的深度补全

在本节中，我们首先给出深度补全任务的常见表述。接着，我们概述提出的分类方法。注意到一些方法具有共同的特征，我们通过共同考虑网络结构和主要技术贡献对它们进行分组。

2.1 问题表述

在深度补全任务中，具有参数 W W W 的深度神经网络 N N N 通过下式对给定的稀疏深度图 Y ′ ∈ Y ′ Y' \in Y' Y′∈Y′ 预测一个密集的深度图 Y ^ ∈ Y ^ \hat{Y} \in \hat{Y} Y^∈Y^：

Y ^ = N ( Y ′ ; W ) \hat{Y} = N(Y'; W) Y^=N(Y′;W)

无引导深度补全：在方程（1）中，深度补全仅使用稀疏输入进行，而没有来自不同模态数据的指导。因此，这种方法被称为无引导深度补全。这些方法在第 3 节中详细回顾。

RGB 引导深度补全：在许多研究中，同时利用稀疏深度图及其对应的 RGB 图像作为输入。在这种情况下，任务被表述为：

Y ^ = N ( Y ′ , I ; W ) \hat{Y} = N(Y', I; W) Y^=N(Y′,I;W)

其中 I I I 表示与 Y ′ Y' Y′ 对齐的 RGB 图像。由方程（2）表示的任务被称为 RGB 引导深度补全，这将在第 4 节中详细解释。

网络 N N N 的参数 W W W 通过解决以下优化问题来训练网络：

W ^ = arg ⁡ min ⁡ W L ( Y ^ , Y ; W ) \hat{W} = \arg\min_W L(\hat{Y}, Y; W) W^=argminWL(Y^,Y;W)

其中 Y Y Y 表示真实深度图的集合， L L L 是一个损失函数，通常定义为在训练网络 N N N 时通过反向传播对预测值与真实值之间的逐像素差异进行惩罚。根据具体的学习策略，还会适当地应用其他损失函数，例如无监督的光度损失、对抗性损失以及深度图的正则化项。第 5 节将对学习目标和损失函数进行深入讨论。

2.2 分类方法

本文通过共同考虑网络结构和主要技术贡献，提出了一种详细的分类方法。现有方法首先被分类为无引导方法或 RGB 引导方法。然后，它进一步被分类为更具体的子类别。

表 1 给出了所提出的分类方法的概述，并描述了识别类别的主要因素。

在这里插入图片描述

如表所示，无引导方法有三个子类别，包括 1）使用稀疏感知 CNN 的方法，2）使用归一化 CNN 的方法，和 3）利用辅助图像进行训练的方法。引导方法包括五个子类别，其中一些还具有更具体的分类。对于前两类，即早期融合和晚期融合模型，融合策略是我们分类方法中考虑的主要因素。对于后三类，即显式 3D 表示模型、残差深度模型和基于空间传播网络（SPN）的模型，融合策略不是其类型识别的主要因素，因为它们具有独特的特征，并且先前的方法中同时使用了早期融合和晚期融合。

对于每种类别的方法，我们还在相关章节中讨论了它们的优缺点。对于大多数方法，我们发现它们在准确性上的优势往往在模型复杂性上是劣势，反之亦然。幸运的是，大多数方法在标准基准数据集上提供了定量结果。这些研究使我们能够公平地分析和比较它们的性能。

3. 无引导深度补全

给定一个稀疏深度图，无引导方法旨在通过深度神经网络模型直接完成它。现有方法大致可以分为三组：1）使用稀疏感知 CNN 的方法，2）使用归一化 CNN 的方法，和 3）利用辅助图像进行训练的方法。

3.1 稀疏感知 CNN

总体见解：在卷积操作过程中使用二进制掩码来识别有效和缺失的元素，使标准 CNN 能够更好地处理稀疏深度输入。

Uhrig 等人 [109] 提出了第一个基于深度学习的无引导方法。他们首先验证了普通卷积无法处理稀疏输入，因为它们通常会导致马赛克效应，并提出了一种新的稀疏卷积操作。接着，他们引入了一个由 6 层 CNN 组装的稀疏卷积。稀疏卷积使用二进制有效性掩码区分有效值和缺失值，并仅在有效数据中执行卷积。有效性掩码的值通过最大池化由其局部邻居决定。这种首个基于深度学习的方法优于非学习方法，并显示了深度学习在该任务中的潜力。此外，它激发了许多后续研究。

然而，稀疏卷积不适合直接应用于能够充分利用多尺度特征的经典编码器-解码器网络。Huang 等人 [48] 引入了三种稀疏性不变（SI）操作，包括 SI 上采样、SI 平均和 SI 拼接，并构建了一个基于编码器-解码器的 HSMNet。通过为 HSMNet 添加一个小分支，他们还演示了使用 RGB 输入的应用。

Chodosh 等人 [14] 将深度补全表述为一个多层卷积压缩感知问题，并提出了一种端到端多层字典学习算法。通过将压缩感知应用于深度成分分析（DeepCA）目标 [82]，并通过 ADMM（乘法器交替方向法）进行优化。通过反向传播使用少数卷积层学习过完备字典。

3.2 归一化 CNN

总体见解：将二进制有效性掩码替换为连续的置信度图可以提高完成性能。

稀疏感知方法需要有效性掩码来识别缺失值以执行卷积。如 [22]、[54]、[112] 中所述，有效性掩码会由于在 CNN 的早期层中的饱和问题而降低模型性能。为了解决这个问题，受归一化卷积[59]的启发，Eldesokey 等人 [22] 引入了生成连续不确定性图的归一化卷积神经网络（NCNN）。其本质区别在于，使用 NCNN 获得的特征被连续的不确定性图而非二进制有效性掩码加权。此外，通过 SoftPlus 函数 [31] 将卷积滤波器约束为非负，以加速收敛。

尽管 NCNN 仍将稀疏掩码作为初始输入，它会在中间层中生成一个连续的置信度图以指示有用信息。在实际操作中，由于 LiDAR 投影误差，存在干扰测量。初始稀疏置信度输入不能排除这些噪声输入。为了解决这个问题，Eldesokey 等人 [21] 进一步开发了一种自监督方法，以估计连续输入置信度图，通过网络抑制干扰测量。NCNN 也在 [45]、[112] 中应用于 RGB 引导的深度补全。

3.3 使用辅助图像进行训练

总体见解：通过引入深度重建的辅助任务，可以智能且隐式地利用 RGB 信息进行无引导深度补全。

为了克服语义线索的缺乏，Lu 等人 [73] 在他们的框架中引入了一个辅助学习分支。他们不是直接使用图像作为输入，而是仅使用稀疏深度图作为输入，并同时预测重建图像和密集深度图。RGB 图像仅在训练阶段作为学习目标使用，以鼓励获取更多补充的图像特征。类似的方法也见于 [133]，其中 RGB 和法线用于辅助训练。在 [113] 中，使用一个自动编码器在潜在空间中生成 RGB 数据，然后自动编码器从中预测最终深度。此方法是无监督的，不使用更密集的深度图作为真实值，与 [73] 相比表现较差。尽管这些方法在训练中是 RGB 引导的，但它们旨在在推理中执行无引导深度补全。因此，我们将它们归类为无引导方法。

3.4 讨论

作为早期尝试解决深度补全的工作，稀疏感知方法 [109] 相比标准卷积提高了准确性。然而，与后续工作 [21]、[48]、[73] 相比，性能仍然较差。这种低准确性的主要原因有两个：首先，该工作中使用的有效性掩码在空间上不是尺度不变的，因此只能应用于简单组装了几个卷积层的网络，即由于模型容量低而缺乏辨别力。其次，网络中从掩码获得的有效性信息在经过几层卷积后往往会消失。

扩展工作 [48] 使 SI（稀疏性不变）上采样、SI 平均/求和和 SI 拼接特征图成为可能，因此允许使用分层编码器-解码器网络，相比 [109] 实现了显著的准确性提升（RMSE 提高 41.5%）。方法 [14] 与 [48]、[109] 不同，因为它将深度补全表述为一个字典学习问题，并且具有需要最少模型参数的优势。

归一化 CNNs [21]、[22] 主要针对使用二进制有效性掩码导致的有效性丢失问题。归一化卷积 [22] 提供了相当大的性能改进（20.8%），而进一步考虑消除输入稀疏深度图中的异常值 [21] 则带来了显著提升（40.0%）。与 HSMNet [48] 相比，[21] 中提出的方法的一个优势是它使用仅有 0.67M 参数的轻量级网络实现了可比的性能。

使用辅助图像的方法通过引入额外的深度到 RGB 生成任务，巧妙地将 RGB 引导引入无引导方法。RGB 信息隐式地聚合到使用共享编码器的深度补全模块中。方法 [73] 显著提升了准确性，并且是目前无引导方法的最先进方法。此外，这种使用 RGB 图像的策略在推理阶段不会增加参数的数量。然而，由于它采用了基于 Inception [103] 的编码器并选择使用较大的核尺寸，其网络比 [21] 中提出的那些更复杂（11.67M vs 0.67M）。此外，使用额外的 RGB 信息来指导模型训练会降低无引导方法在实际应用中的泛化准确性。

4. RGB 引导深度补全

无引导方法通常在性能上不如 RGB 引导方法，并且容易出现模糊效应和物体边界的变形。这种较差的性能归因于对自然场景的先验信息不足。正如 [46] 所研究的，自然场景的深度图可以分解为平滑的表面和它们之间的锐利不连续性；后者在深度图中形成阶梯边缘。这种结构是深度图的关键特性。然而，当深度图极度稀疏时，诸如邻近物体和锐边等先验信息显著缺失；因此，即使用 CNNs 恢复完整的深度图也是极为棘手的。

因此，利用 RGB 信息作为额外的输入是直接且合理的。RGB 图像提供了场景结构的信息，包括纹理、线条和边缘，以补充稀疏深度图的缺失线索，并鼓励平滑区域内的深度连续性和边界处的不连续性。此外，它们还包括一些单目线索，例如消失点[43]，以促进深度估计。这些优势补充了稀疏深度图。

与无引导方法相比，RGB 引导方法通常具有三个优势：i) 它们在准确性上通常优于无引导方法；ii) 它们对不同稀疏性水平更加鲁棒；iii) 它们获得的深度图在感知上更为正确。对于 i) 和 ii)，我们可以参考图 3 所示的实验结果。如观察到的那样，利用 RGB 数据提高了无引导模型在每个稀疏性水平上的准确性，并且当深度样本数量减少时，准确性下降较慢。对于 iii)，图 4 中给出了定性比较的示例。可以看出，RGB 引导的完成在物体边界处鼓励了不连续性，同时在物体内部保持了平滑性。

图 3. 无引导和 RGB 引导深度补全在 KITTI 数据集上的 RMSE。来源 [77]。

在这里插入图片描述

图 4. 无引导和 RGB 引导深度补全的定性比较，其中 MS 和 SO 分别表示多尺度结构和稀疏不变操作。来源 [48]。

到目前为止，提出了不同类型的方法，它们主要可以分为五类：1）早期融合模型，2）晚期融合模型，3）显式 3D 表示模型，4）残差深度模型，以及 5）基于空间传播网络（SPN）的模型。

4.1 早期融合模型

早期融合方法在将稀疏深度图和 RGB 图像传递通过深度模型之前直接将它们拼接 [17]、[77]、[88]，或在模型的第一个卷积层融合多模态特征 [51]、[70]、[123]。早期融合的先前方法可以分为两类：1）使用编码器-解码器网络的方法和 2）两阶段的粗略到细化预测。

4.1.1 编码器-解码器网络

总体见解：基于编码器-解码器网络（EDN）的早期融合方法简单直接，在模型简洁性方面表现良好，但在准确性方面表现不佳。

此类方法利用传统的编码器-解码器网络（EDN）来解决逐像素回归问题。早期的一个工作见于 [77]，Ma 等人提出从稀疏深度图和其对应的 RGB 图像中完成深度补全。为此，他们直接将 RGB 图像和稀疏深度图拼接，然后输入到一个基于 ResNet-50 网络 [38] 构建的编码器-解码器网络中。该工作还验证了 RGB 引导的深度补全比无引导方法在不同稀疏度水平上更准确和稳健。

为了更好地保证预测与测量值的一致性，Qu 等人 [89] 将最后的卷积层替换为最小二乘拟合模块。在此模型中，从倒数第二层获得的特征被视为一组基，基的权重通过对有效像素深度的最小二乘拟合获得。如论文 [89] 中所讨论，由于缺乏足够深度点的监督，该方法无法处理极度稀疏的输入。

受空间自适应去归一化（SPADE）[87] 的启发，Dmitry 等人 [96] 提出了为归一化特征学习空间依赖的比例和偏差的方案。他们引入了一种新的解码器，该解码器由带有调制分支的 SPADE 块组装而成。调制分支以有效性掩码作为输入，预测多尺度调制信号。这些调制信号在每个空间尺度上发送到解码器中的多个 SPADE 块，以更新特征。该方法在室内深度增强和室外深度补全上均已得到验证。

除了直接拼接外，一些方法 [51], [76], [135] 使用了两个独立的卷积单元，分别从 RGB 和深度输入中提取特征作为编码器-解码器网络第一层的输入。然后，这些多模态特征被拼接并发送到网络的其余部分以获得完整的深度图。

4.1.2 粗略到细化预测

总体见解：两阶段的粗略到细化方法的性能高度依赖于第一阶段粗略预测中预估深度图的质量。

一些方法采用两阶段的粗略到细化预测（C2RP）来实现更准确的深度估计。这类方法首先在粗略预测阶段估计一个粗略的深度图，然后通过该粗略深度图和 RGB 图像应用第二次细化预测。例如，Dimitrievski 等人 [17] 将可学习的形态学操作符（两个对谐均值滤波层 [79]）集成到一个基于 U-net [91] 的框架中。在形态学操作之后，预测的粗略深度图和 RGB 图像通过一个 U-net 获得细化输出。同样，Hambarde 等人 [36] 提出了 S2DNet，该网络由两个金字塔网络组成：S2DCNet 和 S2DFNet。S2DCNet 执行第一次粗略预测，而 S2DFNet 执行第二次细化。

与上述方法不同，一些方法提出在粗略预测阶段生成多个图。例如，Chen 等人 [10] 基于有效性掩码的欧氏距离变换生成了一个具有最近邻插值的稠密图和一个深度点的先验距离图。稠密图作为粗略预测图，如 [17] 所探讨，而距离图则作为类似于有效性掩码的作用，但在 SACNN 中方式不同。正如 [10] 所示，包含距离图有助于训练稳定性。最近，Hedge 等人 [39] 提出了 DeepDNet。假设 CNN 更善于从均匀数据而不是随机分布数据中学习特征。因此，他们首先通过基于四叉树的预处理将原始稀疏输入转换为网格稀疏深度图。然后，通过对网格稀疏图分别应用最近邻插值和双三次插值生成两个粗略图。这种从随机到均匀的转换在 NYU-v2 数据集的合成深度图上获得了比 [10] 略好的表现。然而，其在更现实场景中的有效性，如 KITTI，仍不明确。

在 [70] 中，深度补全被分解为相对深度估计和尺度恢复问题。在第一阶段，他们没有预测具有真实尺度的粗略深度图，而是通过隔离绝对深度值的影响来从单个 RGB 图像估计尺度不变的相对深度图。在第二阶段，使用相对深度图、稀疏图和 RGB 图像作为输入进行尺度预测。最终深度图是相对深度图与其尺度图的乘积。如 [70] 所讨论的，这种设计在尺度空间中重新表述了完成任务，因此在处理稀疏性方面更加稳健。

从粗略预测进行修正的思路在后续研究中也被频繁利用，例如那些构建在 SPNs 和残差深度学习框架上的研究。

4.1.3 讨论

早期融合在其简单性方面具有优势，例如基于相同网络构建时，EDN 不会显著增加模型复杂性。然而，从当前情况来看，早期融合模型相对简单，因为多模态数据融合仅在输入层进行，特征提取完全依赖于黑盒 CNNs。我们发现早期融合模型通常不如能够学习特定领域和相关特征的晚期融合模型表现。

C2RP 是对 EDN 的技术改进。它通过增加一个编码器-解码器网络来进行预测细化，但以计算效率为代价。对于基于 C2RP 的方法，我们发现只有 S2DNet [36] 和 [70] 比单阶段预测方法 [51], [89], [112] 表现更好。尽管一些使用 C2RP 的方法使用了形态学操作符 [17]、最近邻插值 [10], [39] 和双三次插值 [39] 进行粗略预测，预密化的深度图由于稀疏输入的高稀疏性而质量较低。S2DNet [36] 和 [70] 都选择使用编码器-解码器网络进行粗略预测，能够在第一阶段学习到更准确的深度图，从而相应地改进最终的细化性能。然而，与其他应用细化的方法相比，例如残差模型和 SPN 模型，细化缺乏空间约束。

如这些分析所示，从单阶段回归到两阶段预测的改进已经描绘清晰。我们发现，这种趋势普遍存在于现有方法中，即准确性的提升在很大程度上依赖于增加模型复杂性或牺牲推理效率。

4.2 晚期融合模型

晚期融合模型通常使用两个子网络提取特征：从 RGB 图像中提取特征的 RGB 编码器网络和从稀疏深度输入中提取特征的深度编码器网络。融合在两个子网络的中间层进行。大多数先前的方法通过不同的网络结构利用了晚期融合策略。具体而言，它们分为三种类型：1）双编码器网络，2）双编码器-解码器网络，和 3）全局和局部深度预测。

4.2.1 双编码器网络

总体见解：双编码器网络（DENs）采取分而治之的策略，分别从 RGB 图像和稀疏深度图中通过两个独立的编码器学习领域特定的特征。然后，DENs 将它们融合以形成关联特征表示并通过解码器输出。

基于双编码器网络（DEN）的方法通常使用 RGB 编码器和深度编码器来提取多模态特征。然后，这些特征被聚合并输入到解码器中。在 [54] 中，Jaritz 等人基于修改的 NASNet [145] 引入了一个双分支编码器网络，其中从所有编码器提取的中间特征被直接拼接然后输出到解码器中。值得注意的是，Jaritz 等人验证了对于大型网络来说，有效性掩码对性能的提高不是必要的。在 [93], [98] 中，特征不是直接按通道拼接，而是从 RGB 编码器和深度编码器中提取的特征通过逐元素求和进行融合。

最近，探索了更复杂的融合策略。Fu 等人 [25] 改进了 RGB 和深度特征的简单拼接，采用了从条件神经过程 [30] 改编的归纳融合。Zhong 等人 [141] 建议使用 RGB 和深度信息之间的相关性。为此，他们提出了 CFCNet，通过应用深度典型相关分析 [128]，提取多模态输入中最语义相关的特征，即稀疏深度点和其对应的 RGB 图像像素之间的关系。

上述方法仅在单一空间尺度上融合来自 RGB 分支和深度分支的输出特征。它们忽略了在多个空间尺度上融合 RGB 和深度特征的必要性。多尺度特征融合利用浅层的高分辨率特征来避免结构损失，同时利用深层的低分辨率特征来提升预测性能。多项研究 [78], [142] 已表明多尺度特征融合在密集预测任务中的重要作用。为了建立分层联合表示，Zhang 等人 [137] 提出了多尺度适应融合网络（MAFN）。MAFN 的主要贡献是适应融合模块（AFM），它整合了从 RGB 和深度模态中提取的特征，并传递到邻域注意模块以增强其局部邻居的关系信息。AFM 应用于 RGB 和深度分支在多个尺度之间的融合，如图 5 所示。

在这里插入图片描述

图 5. 多尺度适应融合网络（MAFN）的示意图。框架是一个双编码器网络，从 RGB 编码器和深度编码器中提取的特征在多尺度上通过适应融合模块（AFM）进行融合。来源 [137]。

Li 等人 [63] 引入了一个级联沙漏网络，该网络包括一个用于从图像中提取特征的分支（图像编码器）和三个用于在不同尺度（1/4、1/2、1）提取深度特征的沙漏分支。从图像编码器在不同尺度上获得的特征图通过跳跃连接与对应的深度特征合并。真实值被下采样到不同尺度以利用多尺度监督。这样的设计显著降低了模型复杂性并提高了推理效率。

为了更好地处理稀疏性，许多工作试图利用额外的约束来指导学习过程。一种常见的解决方案是应用时序相邻帧之间的对极约束 [15], [24], [100], [118], [119], [120], [121]，或立体图像对 [98], [129]。另一种约束是对抗性损失，它源于使用生成对抗网络（GAN）[33] 进行的对抗训练。尽管这些约束为深度补全任务提供了无监督的指导，但它们在训练期间需要额外的输入或其他指导网络。

4.2.2 双编码器-解码器网络

总体见解：将双编码器网络扩展到双编码器-解码器网络进一步提升了模型性能。

如上所述，基于 DEN 的方法通常由 RGB 编码器、深度编码器和解码器组成。融合在两个编码器之间进行。双编码器-解码器网络（DEDN）是对双编码器网络的改进。一个基本的 DEDN 包含两个编码器-解码器网络。相似地，一个接收图像输入，另一个接收稀疏深度输入。图像网络也称为引导网络。对于基于 DEDN 的方法，融合通常在图像分支的解码器和深度分支的编码器之间的多个尺度上进行。

作为图 6 中展示的代表性方法，GuideNet [104] 旨在学习更有效的 RGB 和深度特征融合。受引导图像滤波 [37] 和双边滤波 [107] 的启发，GuideNet 引入了引导卷积，该卷积自动从图像特征中生成空间变化的卷积核，并将它们应用于深度特征。引导卷积被应用于多尺度图像特征。为了降低计算复杂度，受 MobileNet-V2 [94] 的启发，引导卷积被分解为通道卷积和跨通道卷积。

在这里插入图片描述

图 6. GuideNet 的架构。框架是一个双编码器-解码器网络，其中引导卷积从 RGB 特征中学习融合核并将其应用于深度特征。来源 [104]。

受 [104] 和 [109] 的启发，Schuster 等人 [95] 提出了稀疏空间引导传播（SSGP），该方法结合了图像引导的空间传播和稀疏卷积。SSGP 不仅适用于深度补全，还适用于其他插值问题，例如光流和场景流。由于 SSGP 旨在推广到多种视觉任务，其模型设计缺乏对深度补全的专注，导致其性能不如 GuideNet。最近，Yan 等人 [127] 提出了 RigNet，通过一种新颖的重复设计来处理模糊的物体边界并更好地恢复场景结构。在 RigNet 中，用于提取图像特征的分支是通过一个重复的沙漏网络（RHN），即多个编码器-解码器网络，来生成感知清晰的图像特征。用于提取深度特征的分支也是一个堆叠了重复引导模块（RG）的沙漏网络。RG 的作用类似于引导卷积 [104]，并构建在动态卷积 [8] 上。由于 RG 重复执行动态卷积，文中 [104] 提出的卷积分解效率变低。因此，他们设计了一种高效的引导算法，通过全局平均池化将通道卷积的核尺寸从 3×3 减小到 1×1。RigNet 取得了卓越的表现，目前在 KITTI 深度补全数据集 [109] 上排名第二。

4.2.3 全局和局部深度预测

总体见解：全局和局部深度预测（GLDP）通过使用全局深度预测网络和局部深度估计网络，利用了早期融合和晚期融合的优势。

在一些先前的工作中，RGB 和 LiDAR 数据被称为全局信息，而 LiDAR 数据被称为局部信息。全局和局部深度预测（GLDP）方法使用全局网络从全局信息中推断深度（全局信息相当于 RGB 图像和稀疏深度的早期融合），并使用局部网络从局部信息中估计深度。最终的密集深度图是通过合并全局和局部网络的输出获得的。

为了利用全局和局部特征，文献 [110] 中预测了全局深度和局部深度图，以及相关的置信度图。在每个分支中预测的置信度图被用作交叉引导以细化另一个分支预测的深度图。类似的方法也在 [62] 中提出，Lee 等人做出了两个改进。首先，为了扩展感受野，他们设计了一个残差空洞空间金字塔（RASP）块来替代传统的残差块。其次，不同于 [110] 直接使用置信度图通过逐元素相乘来细化深度图，他们引入了一个新的引导模块，应用了通道和像素级的注意力操作。同样的框架也用于解决从极度稀疏深度补全任务，例如在 [72] 中探索的单线深度图的完成。

4.2.4 讨论

晚期融合模型在网络架构设计和多模态数据融合方面比早期融合模型更加复杂。此外，它们通常在准确性上表现更好。

由于 RGB 和深度被认为是晚期融合模型的独立输入，因此需要两个独立的卷积模块来进行特征提取。因此，使用现有研究中提出的双编码器网络（DENs）是非常直观的。然后，自然地，通过将双编码器网络扩展到双编码器-解码器网络（DEDNs），可以进一步提高性能。其次，我们还可以看到从简单到复杂的进化过程，同时探索开发特征融合策略的过程。从早期工作的直接拼接 [54] 或求和 [93], [98] 到更近的工作中应用语义相关性 [141]、注意机制 [137] 和空间变化核 [104] 的多模态特征融合方法；从单一空间尺度 [25], [54], [93], [98], [141] 到更常见的多尺度 [63], [104], [127], [137]。

对于三种类型的晚期融合模型，GLDP 和 DEDN 都被认为是早期方法在模型设计方面的改进。GLDP 是早期融合方法与一个额外的网络的结合，该网络从稀疏深度输入预测密集深度图，而 DEDN 是对 DEN 的改进，为 RGB 和稀疏深度图输入分别应用了独立的编码器-解码器网络。诚然，如果在相同的骨干网络上构建，DEDN 将比 DEN 表现更好。另一方面，尽管 DEDN 在基准数据集上击败了 GLDP，它们往往使用更加复杂的网络和更多的参数，例如 GuideNet 拥有 62.6M 参数，而 GLDP 方法（包括 [110] 和 [62]）分别只有 2.5M 和 5.4M 参数。总的来说，[63], [110] 实现了最佳的准确性-效率折衷。

4.3 显式 3D 表示模型

大多数先前的 RGB 引导深度补全研究在隐式但无效的方式中学习 3D 几何关系。通常，这种困难来自于常规 2D 卷积无法捕捉来自稀疏输入中的 3D 几何线索，其中观测到的深度值是不规则分布的。因此，另一类先前的方法推动了显式 3D 表示（E3DR）。这类方法可分为：1）使用 3D 感知卷积的方法，2）中间表面法线表示，和 3）从点云学习几何表示的方法。

4.3.1 3D 感知卷积

总体见解：由于深度点与其空间邻居相关，并且稀疏输入中有许多不规则分布的缺失点，因此应用 3D 感知卷积于深度点的最近邻可以帮助消除缺失值的扰动，而不是标准卷积。

在 2D-3D FuseNet [9] 中，从 RGB 分支和深度分支提取的特征通过几个 2D-3D 融合块融合，这些块共同学习 2D 和 3D 表示。2D-3D 融合块使用多尺度分支在 2D 网格空间中使用常规卷积操作提取外观特征，并通过在 3D 空间中对中心点的 K 最近邻应用两个连续卷积 [114] 学习 3D 几何表示。随后研究中普遍采用了从空间上接近的 K 最近邻学习的思路。

例如，在 ACMNet [140] 中，最近邻是通过比较空间差异以类似方式确定的。不同于 [9]，非网格卷积通过图传播实现。如图 7 所示，ACMNet 具有一个 DEDN 结构，其中编码器由协同注意引导的图传播模块（CGPMs）组成，解码器是对称门控融合模块（SGFMs）的堆栈。CGPM 自适应地在图像和深度编码器中应用基于注意的图传播，用于多模态特征提取，而 SGFMs 在两个解码器之间应用对称交叉引导，用于多模态特征融合。

在这里插入图片描述

图 7. ACMNet 的示意图，其中编码器使用多个协同注意引导的图传播模块（CGPMs）进行多模态特征提取，解码器使用多个对称门控融合模块（SGFMs）进行多模态特征融合。来源 [140]。

Xiong 等人 [122] 为深度补全提出了一个图模型，并引入了基于图神经网络（GNN）的深度补全算法。注意，在 [9], [140] 中，最近邻的 3D 图仅为有效点构建，而在 [122] 中，它是为从具有 DEDN 架构的基线模型预增强的密集深度图中的每个点构建的。此外，值得一提的是，该方法还研究和比较了在基准 NYU-v2 数据集上合成稀疏深度图的不同采样策略。结果表明，准随机采样 [84] 显著优于随机采样2。这些发现有助于在室内数据集上进行深度补全任务的不同采样策略实验。

4.3.2 中间表面法线表示

总体见解：表面法线通常用作中间表示，并且对室内深度增强有效。直观上，它也适用于室外深度补全吗？

一些工作利用表面法线作为深度图的中间 3D 表示，并引入了使用表面法线引导的完成方法。如 [47], [136] 研究，表面法线是一种合理的中间表示，可以促进室内深度增强。然而，正如 Qiu 等人 [88] 指出，在室外场景中从法线重建深度对噪声和遮挡更加敏感；在这种情况下如何利用表面法线仍然是一个开放问题。为了解决这个问题，他们提出了 DeepLIDAR，一个由颜色路径和表面法线路径组成的双分支网络，如图 8 所示。两个分支都生成密集深度图。最终的深度图通过基于注意的权重对两个路径的输出进行融合获得。在表面法线分支中，表面法线被用作生成深度图的中间表示。

在这里插入图片描述

图 8. DeepLIDAR 的流程图，其中表面法线被用作深度图的中间表示。来源 [88]。

在 [88] 中提出的方法中，表面法线的使用非常直接。如 [123] 所讨论，深度和表面法线之间的关系可以通过相机坐标系中的切平面方程建立。根据这一直觉，Xu 等人 [123] 提出了平面原点距离，强制深度和表面法线之间的一致性，以规范深度补全。与 [88] 不同，该方法还估计了建模为拉普拉斯分布的置信度图，以减轻噪声的影响，并应用了一个细化网络。受益于深度和法线的一致性，他们实现了与 [88] 相比仅使用约 20% 参数的可比性能。

4.3.3 从点云学习

总体见解：我们可以通过直接从点云学习显式地提取 3D 线索，因为它是 3D 结构的可靠先验。

最近，一些研究直接从点云学习几何表示。例如，Du 等人 [20] 提出首先通过边缘卷积 [115] 从点云中学习几何感知嵌入。然后，利用一个 DEN 从 RGB 图像和几何嵌入中执行深度补全。Jeon 等人 [55] 也使用点云作为输入。通过将注意机制纳入双边卷积 [102]，他们设计了一个基于注意的双边卷积层（ABCL）编码器，用于从 3D 点云中提取特征。他们的框架还实现了一个 DEN，其中使用点云编码器提取 3D 特征，并使用图像编码器从 RGB 图像和稀疏深度输入中提取 2D 特征。

如 [20], [55] 所示，将点云集成到深度补全中显著提升了模型在不同环境中的泛化准确性。相比 [55]，方法 [20] 取得了竞争结果，尽管其框架更简单和轻量。

4.3.4 讨论

总体来说，采用 E3DR 的方法在性能上优于大多数没有显式 3D 表示的方法，如 EDN、C2RP 和 DEN。对于这三种显式 3D 模型，采用 3D 感知卷积（3DAC）的方法（例如 2D-3D FuseNet [9] 和 ACMNet [140]）在准确性和效率上优于使用中间表面法线表示（ISNR）和从点云学习（LfPC）。这并不令人意外，因为 3D 感知卷积仅作用于空间上接近的有效深度点，因此受缺失值的影响较小，有助于减少冗余。

总体而言，2D-3D FuseNet 在模型复杂性上优于 ACMNet，但在准确性上表现不佳。文献 [122] 中使用的网络由 DEDN 和 GNN 模块组成。因此，我们认为其模型复杂性高于 [9], [140] 中提出的那些。然而，由于实现细节（包括参数数量、官方 KITTI 测试集结果等）不明确，我们无法详细比较它们。尽管如此，如 [122] 所示，我们发现该方法表现与 [123] 类似，而后者不如 [9], [140]。

另一方面，ISNR 展示了与 3DAC 和 LfPC 可比的性能，同时模型复杂性最高。这是因为即使在室外场景中表现出小的表面法线误差，观察到的噪声也会导致较大的距离误差。尽管通过在 [88] 中应用基于注意的掩码或在 [123] 中建模置信度掩码来减少噪声效应，但使用中间法线表示本质上将此困难引入到深度补全中。此外，为监督生成可信的目标法线在室外环境中也更加具有挑战性。当前方法在考虑其复杂性和性能时未显示出许多优势。未来还需进一步努力利用表面法线。例如，我们可以使用 [130] 中提出的更具抗噪性的虚拟法线损失来规范场景结构。

LfPC 通过直接从 3D 点云学习展示了另一种 3D 感知深度补全方法。点云是一种强大的先验，保留了 3D 物体信息，并且对遮挡和光照更具鲁棒性。LfPC 的一个明显优势是它在各种天气和光线条件下表现出比 ISNR [88] 和 E3DR [140] 更高的泛化准确性，如 [55] 所示。虽然已经为 RGB 和稀疏深度输入提出了多种网络设计，但当前将点云纳入的尝试仍然简单且不足，例如 [55] 和 [20] 都采用了常见的 DEN 框架。

4.4 残差深度模型

总体见解：推断的深度图应在整体结构上准确，在局部细节上真实。因此，可以将单阶段预测过程解耦为稠密图和残差图的估计。

残差深度模型（RDMs）预测深度图和残差图，它们的线性组合获得最终深度。通过预测残差图，模型可以细化模糊的深度预测，并在物体边界上获得更精细的结果。

这些方法通常采用类似的两阶段粗略到细化预测过程。在 [64] 中展示了一个简单的应用，其中首先将稀疏深度图完成到稠密图，然后预测残差图。最终通过逐元素相加生成最终深度图。Gu 等人 [34] 提出了 DenseLiDAR，这是一种类似的方法，如图 9 所示。在 DenseLiDAR 中，首先通过形态学操作预测一个伪深度图。然后，将伪深度图、RGB 图像和稀疏深度输入发送到 CNN 预测残差图。最终，伪深度图通过残差图进行修正，生成最终深度图。

在这里插入图片描述

图 9. DenseLiDAR 的流程图，其中深度补全被分解为粗略深度图和残差深度图的学习。来源 [34]。

对于其他方法，改进来自于提升粗略深度图或残差深度图的估计。例如，受核回归的启发，在 [67], [83] 中提出了一个可微分的核回归网络，替代了手工插值来从稀疏输入执行粗略深度预测。此外，FCFR-Net [68] 实现了一种基于能量的操作，用于多模态特征融合，以提升残差图学习。

为了处理不均匀分布和处理异常值问题，Zhu 等人 [144] 引入了一个新的基于不确定性的框架，该框架由两个网络组成：一个多尺度深度补全块和一个不确定性注意残差学习网络。与其他基于残差的方法一样，前者网络生成粗略预测，而后者网络执行细化。基于不确定性的框架通过在第一个完成阶段放松对高度不确定区域的约束来防止异常值的过拟合，并指导网络在细化阶段生成残差图。Zhang 等人 [138] 将晚期融合与残差学习结合，提出了一个基于 DEN 的多线索引导网络。与其他方法不同的是，最终的深度是稀疏输入和估计残差图的组合。

4.4.1 讨论

残差深度模型特别注重提升深度图的几何保真度。与 C2RP 不同，其中细化是直接从预预测的粗略图进行的，残差模型应用残差学习来预测残差图，并将其作为对稠密图的补偿。残差学习的优势通常反映在两个方面。首先，它可以被视为一种结构调节，并提升感知质量。其次，由于远距离区域通常产生较大的深度误差，近距离区域则有较小的深度误差，残差学习往往补充具有较大误差的像素，并保留接近零值的近区域或完全预估的像素。

总体而言，残差深度模型实现了良好的完成性能。FCFR-net [68] 和 [144] 分别在 KITTI 基准数据集挑战中排名第五和第九。注意，准确性并非完全归因于残差学习，还包括基于能量的多模态特征融合 [68] 和对异常值鲁棒的损失函数 [144]。由于这些方法的参数数量不明确，我们无法分析其复杂性。

4.5 基于 SPN 的模型

总体见解：SPN 通过基于相似度的细化显式地强制深度点与其邻居之间的空间相关性。

相似度矩阵，也称为相似性矩阵，表达了数据点之间的接近或相似程度。它用于在视觉任务中细化并获得精细的预测。在空间传播网络（SPN）[69] 中，学习相似度矩阵被表述为学习一组变换矩阵。按照 [69], [86] 的说法，SPN 的相似度细化过程由以下公式定义：

x t m , n = w c m , n x m , n t − 1 + ∑ i , j ∈ N m , n w i , j m , n x i , j t − 1 xt_{m,n} = wc_{m,n}x^{t-1}_{m,n} + \sum_{i,j \in N_{m,n}} w_{i,j}^{m,n}x^{t-1}_{i,j} xtm,n=wcm,nxm,nt−1+∑i,j∈Nm,nwi,jm,nxi,jt−1

其中 (m,n) 和 (i,j) 分别表示参考像素和邻居像素的坐标， N m , n N_{m,n} Nm,n 是参考像素在 (m,n) 位置的邻居像素集合。t 表示细化的迭代步数。 w c m , n wc_{m,n} wcm,n 和 w i , j m , n w_{i,j}^{m,n} wi,jm,n 分别是参考像素的相似度和 (m,n) 与 (i,j) 像素之间的相似度，其中 w c m , n = 1 − ∑ i , j ∈ N m , n w i , j m , n wc_{m,n} = 1 - \sum_{i,j\in N_{m,n}} w_{i,j}^{m,n} wcm,n=1−∑i,j∈Nm,nwi,jm,n。

由于深度点与其邻居相关，SPN 合理适用于深度回归问题，并且先前的一些研究基于 SPNs 开发了算法。Cheng 等人提出了开创性的卷积空间传播网络（CSPN）[13], [111]，这是第一个用于深度补全的 SPN 模型。与原始 SPN [69] 相比，CSPN 有两个主要改进。首先，在 SPN 中，一个点与来自最近行或列的三个局部邻居连接，而在 CSPN 中，使用 3 × 3 的局部窗口连接局部邻居。其次，CSPN 通过卷积操作有效地在各个方向上传播局部区域，而不是像 SPN 那样在不同方向上传播并与最大池化整合。深度点的最终值由通过相似度矩阵的扩散过程由其局部邻居决定。具体来说，文献 [77] 中提出的网络通过跳跃连接和一个额外的输出分支生成相似度矩阵。给定粗略预测的深度图和相似度矩阵，一个 CSPN 被插入到网络 [77] 中用于细化，如图 10 所示。包括核大小（局部邻居的大小）和迭代次数在内的超参数需要通过超参数搜索进行调整。

在这里插入图片描述

图 10. 基于 CSPN 的深度补全框架。CSPN 模块插入到网络中以修正粗略预测的深度图。来源 [111]。

为了解决确定核大小和迭代次数的困难，Cheng 等人进一步提出了 CSPN++ [12]，实现了上下文感知的 CSPN（CA-CSPN）和资源感知的 CSPN（RA-CSPN）。对于 CA-CSPN 的实现，首先定义了核大小和迭代次数的各种配置，并引入了两个额外的超参数来自适应地权衡不同的核大小和迭代次数。因此，CA-CSPN 消耗了大量计算资源。为了解决这个问题，RA-CSPN 通过最小化计算资源使用为每个像素选择最佳核大小和迭代次数。为此，将计算成本函数聚合到优化目标中，以平衡准确性和训练时间之间的权衡。

虽然 CSPN 和 CSPN++ 主要集中在现有编码器-解码器方法 [77] 的细化上，PENet [44] 利用了 SPN 和晚期融合模型的优势。PENet 使用了 DEDN 结构，其中一个网络从 RGB 图像和稀疏深度中进行预测，另一个网络从稀疏深度和一个预密化的深度图中进行预测。然后将 CSPN++ 应用于这些预测的融合深度图。

上述方法在相似度学习过程中使用固定的局部邻居进行空间传播。然而，这将涉及对不相关的局部邻居的使用。为了解决这个问题，Park 等人提出了一个非局部 SPN [86]，其中学习了具有相似度的非局部邻居和深度置信度图，并通过 K 个非局部邻居上的可变形卷积 [143] 实现传播。此外，他们还设计了置信度融合的相似度归一化模块，以鼓励更多相似度组合并减少不可靠深度值的负面影响。

在 [124] 中，提出了一种可变形空间传播网络（DSPN），该网络可以自适应地为每个像素生成不同的感受野和相似度矩阵。同样，文献 [65] 引入了基于注意的动态 SPN（DySPN），可以通过根据邻近像素的距离分离来学习自适应相似度矩阵。这种注意机制递归生成不同的注意图来细化相似度矩阵，并为深度补全带来了最新的最先进方法。DySPN 目前在 KITTI 深度补全基准上排名第一 [109]。

4.5.1 讨论

第一个 CSPN [13] 使用了固定的 3 × 3 局部邻居和固定的核大小。这两个问题往往涉及无关的像素，并分别限制了 SPNs 的表示能力，因此导致了过度平滑等效应。后续研究通过处理这两个问题改进了 CSPN，例如通过非局部 SPN [86] 选择非局部邻居，通过 CSPN++ 自适应地分配预定义的核大小 [12]，或通过 DySPN [124] 设计基于注意的自适应策略。

得益于这些努力，基于 SPN 的模型在准确性方面展示了相对于其他类型方法的明显优势。此外，基于相似度的细化不仅由于在深度空间中显式应用几何约束而更准确，而且也适用于现有的任何模型。

然而，如前所述，方法在准确性上的优势往往在复杂性上是劣势。基于 SPN 的模型不可避免地需要额外的卷积模块来实现 SPN，因此增加了模型复杂性。此外，由于多次迭代优化，相似度细化是耗时的。例如，CSPN 在 KITTI 基准上完成一个稀疏图需要一秒，这比大多数方法快 10-100 倍3。对于更近期的方法，它们在推理效率方面也不及其他两阶段方法，例如 DySPN 和非局部 SPN 分别消耗 0.16s 和 0.2s，而 FCFR-Net 和 DenseLiDAR 分别消耗 0.1s 和 0.02s。

5 模型训练的学习目标

由于深度补全和单目深度估计具有相同的目标输出，即预测密集深度图，因此它们共享相同的学习目标，例如深度损失、表面法线损失和光度损失。在本节中，我们描述了先前研究中使用的学习目标。表 2 中给出了一个简要概述，我们将在接下来的部分详细回顾常用的目标。

在这里插入图片描述

5.1 深度一致性

给定一个稀疏输入 Y ′ Y' Y′，预测的稠密图 Y ^ = N ( Y ′ ; W ) Ŷ = N(Y';W) Y^=N(Y

标签：Completion,深度图,补全,方法,编码器,RGB,深度,Data
From： https://blog.csdn.net/2401_87064292/article/details/141816355

【一文看懂深度补全】Deep Depth Completion from Extremely Sparse Data: A Survey

【综述】从稀疏的数据中进行深度补全：Deep Depth Completion from Extremely Sparse Data: A Survey

摘要

1. 引言

贡献概述

2. 基于深度学习的深度补全

2.1 问题表述

2.2 分类方法

3. 无引导深度补全

3.1 稀疏感知 CNN

3.2 归一化 CNN

3.3 使用辅助图像进行训练

3.4 讨论

4. RGB 引导深度补全

4.1 早期融合模型

4.1.1 编码器-解码器网络

4.1.2 粗略到细化预测

4.1.3 讨论

4.2 晚期融合模型

4.2.1 双编码器网络

4.2.2 双编码器-解码器网络

4.2.3 全局和局部深度预测

4.2.4 讨论

4.3 显式 3D 表示模型

4.3.1 3D 感知卷积

4.3.2 中间表面法线表示

4.3.3 从点云学习

4.3.4 讨论

4.4 残差深度模型

4.4.1 讨论

4.5 基于 SPN 的模型

4.5.1 讨论

5 模型训练的学习目标

5.1 深度一致性

相关文章

赞助商

阅读排行

【一文看懂深度补全】Deep Depth Completion from Extremely Sparse Data: A Survey

【综述】 从稀疏的数据中进行深度补全：Deep Depth Completion from Extremely Sparse Data: A Survey

摘要

1. 引言

贡献概述

2. 基于深度学习的深度补全

2.1 问题表述

2.2 分类方法

3. 无引导深度补全

3.1 稀疏感知 CNN

3.2 归一化 CNN

3.3 使用辅助图像进行训练

3.4 讨论

4. RGB 引导深度补全

4.1 早期融合模型

4.1.1 编码器-解码器网络

4.1.2 粗略到细化预测

4.1.3 讨论

4.2 晚期融合模型

4.2.1 双编码器网络

4.2.2 双编码器-解码器网络

4.2.3 全局和局部深度预测

4.2.4 讨论

4.3 显式 3D 表示模型

4.3.1 3D 感知卷积

4.3.2 中间表面法线表示

4.3.3 从点云学习

4.3.4 讨论

4.4 残差深度模型

4.4.1 讨论

4.5 基于 SPN 的模型

4.5.1 讨论

5 模型训练的学习目标

5.1 深度一致性

相关文章

赞助商

阅读排行

【综述】从稀疏的数据中进行深度补全：Deep Depth Completion from Extremely Sparse Data: A Survey