原文链接:https://arxiv.org/pdf/1910.06727v1.pdf
主要思想
深度补全任务旨在从稀疏的深度图中恢复较为密集的深度图。这项任务对自动驾驶领域越来越重要,受到CV界的广泛关注。大多数现有方法通过直接训练网络从稀疏深度图中学习密集深度图的映射参数,然而这种方式在利用3D几何约束和处理实际传感器噪声方面有困难。
本文提出了一个统一的CNN框架,用以规范深度补全任务并提高针对噪声的鲁棒性,主要思路:
1) 在diffusion module中对深度图和其表面法向建立几何约束
2) 预测稀疏激光雷达的置信度以减轻noise的影响。
具体来说,本文的编码解码backbone同时预测表面法线、粗略深度和激光雷达输入的confidence,然后输入到diffusion refinement module模块中,以获得最终的深度图补全结果。
本文提出的网络在KITTI深度补全数据集和NYU-depth-V2数据集上的实验表明,达到了SOTA。
创新点
1、假设三维场景由分段平面构成,从2D空间到3D空间完成深度图补全。具体来说,在平面原点距离空间中将深度和其曲面法向进行共轭,并通过一个递归diffusion module对其进行细化,该模块在深度补全过程中强制执行深度和曲面法向之间的约束。
2、基于这一观点,本文提出了一个统一的两级CNN框架,以实现从非常稀疏的输入(如激光雷达点云图)补全深度。为了提高实际传感器对噪声的鲁棒性,进一步引入了一个置信度预测(Confidence)分支来阻止噪声相关信息的传播。
3、本文提出的框架可以完成端到端的训练,大量的实验结果表明,模型在保持良好的泛化能力的同时达到了最新的性能。
网络结构
如下图所示,网络主要两个部分:预测网络和细化网络。其中又包括三个子模块:Prediction Network、Plane-origin Distance Transformation和Refinement Network。
针对Prediction Network:
1、输入为稀疏点云和对应的彩色图像
2、网络基于U-Net结构,利用共享的八位编码器和独立的解码器分别估计深度法线图、粗略深度图和稀疏深度置信度图
3、通过channel-wise concatention方式对Normal Prediction和Coarse Depth模块中的feature map进行操作,得到Guidance Feature G。
针对Plane-origin Distance Transformation:
平面原点距离转换,利用法线估计将稀疏输入和粗略深度映射转化为平面原点距离子空间。
针对Refinement Network:
细化网络主要对Coarse Depth进行优化,使用diffusion model重复地改进平面原点距离,强制执行分段平面约束并规范深度补全。该方法利用了深度与曲面法向之间的几何约束,在缺失区域表现得更好、更稳定。最后,通过反变换求出细化后的深度图,细化完成后并没有精度上的损失。
其中diffusion model结构如下所示:
通过循环迭代更新的方式精化plane-origin距离p,后期对p和Normal prediction进行反变换,即可完成深度图的补全任务。
实验结果
基于KITTI depth prediction dataset和NYU-Depth-v2 dataset下进行评估。
几种网络下深度补全对比实验:
KITTI数据集下的实验结果:
NYU-Depth-v2数据下的实验结果:
上述内容,如有侵犯版权,请联系作者,会自行删文。
标签:diffusion,深度图,补全,法向,稀疏,深度 From: https://blog.51cto.com/u_14439393/5733550