论文一作:Zhengxue Wang(授权) | 编辑:3DCV
添加微信:dddvision,备注:立体视觉,拉你入群。文末附行业细分群
由南京理工PCA Lab开发的深度图超分辨率方法SGNet(SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolution),针对仅通过空间域的图像引导方法难以恢复出清晰的深度图结构问题,提出了一种简单而有效的框架SGNet,使用梯度校准模块(GCM)和频率感知模块(FAM),分别在梯度域和频域传播RGB图像的高频分量来增强LR深度图的结构。SGNet在所有常用的数据集上均取得了SOTA结果!
1 前言
由于复杂的成像环境,获取到的深度图通常会存在边缘结构模糊问题。在过去的几年里,大量的图像引导方法用于深度图超分辨率(DSR),但这些方法大多数集中在空间域,无法恢复清晰的边缘结构。通过实验发现,梯度域和频域在表示高频结构信息方面有着天然的优势:一方面,图2 (c)-(f)表明,相对于边界模糊的low-resolution(LR)梯度特征, RGB梯度包含了清晰的结构信息;另一方面,从图2(h)-(j)可以看出,RGB和HR的频谱特征不仅包含了低频分量(中心区域),而且包含了丰富的高频信息(边角区域),而LR频谱特征缺失了大量的高频分量。基于以上观察,SGNet提出了梯度校准模块(GCM)和频率感知模块(FAM),专注于在梯度域和频域解决LR深度图结构模糊问题。
本文提出了一种简单有效的方法SGNet,其主要贡献如下:
-
除了空间域之外,引入了一种新的视角,即利用梯度域和频域来增强LR深度图结构。
-
提出了新颖的GCM和FAM,其中GCM利用梯度先验来自适应的校准和锐化LR结构,FAM迭代执行多个频谱差分模块(SDB)来传播RGB的高频分量到LR。
-
在大量的合成数据集和真实数据集上的实验表明,SGNet取得了SOTA结果。
2 相关背景
深度超分辨率。到目前为止,大量的深度图超分辨率方法被提出。例如,DKN提出了一种联合图像滤波的方法来自适应的调整每个像素的邻域及其权重。DCTNet通过半解耦的特征提取模块来提取共享的和特有的多模态特征,并利用离散余弦变换进行多模态特征融合。SUFT提出了一个对称不确定性感知的特征变换网络来选择对深度图恢复有利的RGB特征。然而,大多数这些方法仅关注于空间域,忽略了梯度域和频域捕获高频信息的特性。
梯度和频率学习。最近,一些方法开始尝试将梯度和频谱特征引入到深度学习中。SPSR提出了一个结构保留的单图像超分辨率方法,其通过在图像重建分支融合梯度先验知识提升图像恢复质量。SFITNet提出了一个整合空间域和频域信息的Pan-Sharpening方法来生成高分辨率多光谱图像。FA-VAE提出了一个频率增强的变分自编码器来恢复图像压缩过程中丢失的高频细节。受这些方法的启发,本文利用RGB图像的梯度和频谱信息在梯度域和频域中来引导LR深度图结构的恢复。
3 方法
3.1 问题描述
给定输入LR深度图 和HR RGB 图像 ,引导DSR目的是在ground-truth深度图 监督的条件下,预测HR深度图 。其中 , , 分别表示图像的高、宽和尺度因子。
3.2 网络结构
如图3所示,本文提出的SGNet主要包括两部分,即梯度校准模块(GCM)和频率感知模块(FAM)。首先将RGB图像 和上采样后的LR深度图 送入到GCM,利用RGB丰富的梯度信息在梯度域中引导LR梯度信息恢复,获得增强后的深度特征 。然后,FAM迭代执行多个频谱差分模块(SDB),其融合来自GCM增强后的深度特征 ,并在频域中传播RGB频谱信息到LR频谱。最后,同时利用梯度感知损失 、频率感知损失 和空间感知损失 约束整个训练过程。
3.3 梯度校准模块
如图3橙色区域所示,GCM首先利用一个梯度映射函数(公式1)将RGB图像 和LR深度图 像映射到梯度域,然后在梯度域中利用RGB的梯度特征对LR梯度特征进行校准和锐化,该过程由梯度感知损失 进行监督。最后将校准后的梯度特征 和深度特征进行融合,以获得梯度增强后的特征 ,并将该特征送入到FAM模块。从图4 (b)和(d)可以看出,本文提出的GCM成功地学习了清晰的梯度特征和深度特征。
3.4 频率感知模块
FAM如图3绿色区域所示,其递归的执行多个频谱差分模块来不断地在频域中优化深度特征。然后将不同阶段获取到的深度特征通过残差模块和上采样模块进行融合得到 ,最后结合由bicubic插值上采样后的深度图 , 得到最终预测的HR深度图 。
3.4.1 频谱差分模块
本文提出的频谱差分模块(SDB)如图5所示,其首先将来自GCM模块的梯度增强特征 与深度特征 进行融合,并利用离散傅里叶变换将RGB特征和深度特征映射到频域,获得RGB特征频谱 和深度特征频谱 ,然后对获取到的频谱特征进行分解,得到幅值和相位:
接下来,SDB分别计算RGB频谱特征和深度频谱特征的幅值减法和相位减法得到 和 ,并将其送入到卷积层分别进行幅值和相位的学习。此外,原始深度特征 的幅值和相位同样被送入到单独的卷积层,以保证深度图的低频分量也能够在频域中进行学习。最后,通过离傅里叶逆变换将融合后的幅值和相位映射到空间域,从而得到频域增强后的特征 。
此外,为了加强空间域和频域的联系,SDB利用可逆神经网络融合空间域特征 和频域增强后的特征 。如图6 (b)和(d)所示,SDB成功恢复了LR频谱的高频分量和学习了清晰的结构特征。
3.5 损失函数
本文使用了梯度感知损失 、频率感知损失 和空间感知损失 来监督梯度域和频域的训练。其中空间感知损失可表示为:
梯度感知损失如下式(13),其中 表示ground-truth深度图的梯度:
频率感知损失如下式(14),其包括幅值损失 和相位损失 ,其中 and 分别表示预测输出的幅值和相位, and 表示ground-truth深度图的幅值和相位:
总的损失为:
4 实验
4.1 实验设置
本文使用NYU-v2、Middlebury、Lu和RGB-D-D数据集来验证方法的性能。和以前的工作一样(DCTNet, SUFT),对于合成数据集,其首先通过bicubic插值获得LR深度图,然后在NYU-v2训练集上训练,并同时在4个数据集上进行测试。对于真实数据集,其使用RGB-D-D真实LR深度图作为输入进行训练和测试。本文选择以前方法(DKN, FDSR)使用的均方根误差(RMSE)作为评价指标。
4.2 和state-of-the-art方法的比较
本文进行了大量的实验,并和以前很多的方法在合成数据集(, , )和真实数据集上都进行了比较。
4.2.1 定量比较
从表1到表3可以看出,SGNet在NYU-v2、Middlebury、Lu和RGB-D-D四个合成测试集上都实现了state-of-the-art的性能。尤其是对于尺度因子为 和 的情况下,本文的性能要高出第二好的方法很多。
此外,表4给出了在真实RGB-D-D数据集上的实验结果,其中标有*的方法表示在真实RGB-D-D数据集上重新进行了训练,其他的则是使用在NYU-v2上的预训练模型直接在真实测试集上进行测试的结果,可以看出本文提出的方法在真实数据集上同样实现了state-of-the-art的性能。
4.2.2 视觉比较
图7,图8分别给出了在NYU-v2和RGB-D-D合成数据集上的可视化结果比较。可以看出本文提出的方法可以恢复出更清晰的结构,具有更少的误差。
图9给出了在真实RGB-D-D数据集上的可视化结果比较,可以看出本文提出的SGNet恢复的深度图具有更准确的结构信息。
4.3 消融实验
GCM和FAM的有效性。作者首先移除整个GCM模块,然后对于FAM中的SDB,作者移除了所有的频域操作,只保留图5的灰色区域,以此作为baseline模型。如图10所示,GCM和FAM均能带来性能的提升,当GCM和FAM同时使用时,性能达到最优。从图11的中间特征可视化可以看出,和baseline方法相比,GCM和FAM都能学习到更清晰的结构,当两者同时使用时,SGNet可以获得更准确的结构。
此外,作者还给出了GCM和FAM复杂度的分析,从表5可以看出GCM和FAM虽然会带来一点复杂度的提升,但是其带来的性能提升是更明显的。
SDB数量和不同损失函数的有效性。从图12(a)可以看出,随着FAM中SDB迭代数量的增强,RMSE会逐渐减小,为了平衡模型复杂度和性能,作者最终设置SDB数量为3。图12(b)可以看出,相较于只有空间感知损失 ,梯度感知损失 和频率感知损失 都会带来性能的提升,当三个损失函数同时使用时,性能达到最优。
5 总结
在本文中,作者专注于在梯度域和频域来利用RGB的高频分量增强LR深度结构。对于梯度域,作者设计了一个梯度校准模块来自适应的锐化LR模糊的结构。对于频域,作者提出了频率感知模块,其迭代的执行多个频谱差分模块来传播RGB的高频信息。此外,作者还引入了梯度感知损失、频率感知损失来约束在梯度域和频域的训练。在深度超分辨率数据集上的大量实验证明了SGNet的有效性。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程:
3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。
▲长按扫码学习3D视觉精品课程
3D视觉学习圈子
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉交流群
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
标签:深度图,梯度,分辨率,频域,RGB,LR,南京理工,3D From: https://blog.csdn.net/weixin_46788581/article/details/137120583