首页 > 其他分享 >南京理工最新突破!基于梯度和频率域的深度超分辨率新方法

南京理工最新突破!基于梯度和频率域的深度超分辨率新方法

时间:2024-03-31 18:59:53浏览次数:30  
标签:深度图 梯度 分辨率 频域 RGB LR 南京理工 3D

论文一作:Zhengxue Wang(授权) | 编辑:3DCV 

添加微信:dddvision,备注:立体视觉,拉你入群。文末附行业细分群

由南京理工PCA Lab开发的深度图超分辨率方法SGNet(SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolution),针对仅通过空间域的图像引导方法难以恢复出清晰的深度图结构问题,提出了一种简单而有效的框架SGNet,使用梯度校准模块(GCM)和频率感知模块(FAM),分别在梯度域和频域传播RGB图像的高频分量来增强LR深度图的结构。SGNet在所有常用的数据集上均取得了SOTA结果!

1 前言

由于复杂的成像环境,获取到的深度图通常会存在边缘结构模糊问题。在过去的几年里,大量的图像引导方法用于深度图超分辨率(DSR),但这些方法大多数集中在空间域,无法恢复清晰的边缘结构。通过实验发现,梯度域和频域在表示高频结构信息方面有着天然的优势:一方面,图2 (c)-(f)表明,相对于边界模糊的low-resolution(LR)梯度特征, RGB梯度包含了清晰的结构信息;另一方面,从图2(h)-(j)可以看出,RGB和HR的频谱特征不仅包含了低频分量(中心区域),而且包含了丰富的高频信息(边角区域),而LR频谱特征缺失了大量的高频分量。基于以上观察,SGNet提出了梯度校准模块(GCM)和频率感知模块(FAM),专注于在梯度域和频域解决LR深度图结构模糊问题。

本文提出了一种简单有效的方法SGNet,其主要贡献如下:

  • 除了空间域之外,引入了一种新的视角,即利用梯度域和频域来增强LR深度图结构。

  • 提出了新颖的GCM和FAM,其中GCM利用梯度先验来自适应的校准和锐化LR结构,FAM迭代执行多个频谱差分模块(SDB)来传播RGB的高频分量到LR。

  • 在大量的合成数据集和真实数据集上的实验表明,SGNet取得了SOTA结果。

图片

2 相关背景

深度超分辨率。到目前为止,大量的深度图超分辨率方法被提出。例如,DKN提出了一种联合图像滤波的方法来自适应的调整每个像素的邻域及其权重。DCTNet通过半解耦的特征提取模块来提取共享的和特有的多模态特征,并利用离散余弦变换进行多模态特征融合。SUFT提出了一个对称不确定性感知的特征变换网络来选择对深度图恢复有利的RGB特征。然而,大多数这些方法仅关注于空间域,忽略了梯度域和频域捕获高频信息的特性。

梯度和频率学习。最近,一些方法开始尝试将梯度和频谱特征引入到深度学习中。SPSR提出了一个结构保留的单图像超分辨率方法,其通过在图像重建分支融合梯度先验知识提升图像恢复质量。SFITNet提出了一个整合空间域和频域信息的Pan-Sharpening方法来生成高分辨率多光谱图像。FA-VAE提出了一个频率增强的变分自编码器来恢复图像压缩过程中丢失的高频细节。受这些方法的启发,本文利用RGB图像的梯度和频谱信息在梯度域和频域中来引导LR深度图结构的恢复。

3 方法

3.1  问题描述

给定输入LR深度图  和HR RGB 图像  ,引导DSR目的是在ground-truth深度图  监督的条件下,预测HR深度图  。其中  ,  ,  分别表示图像的高、宽和尺度因子。

3.2 网络结构

如图3所示,本文提出的SGNet主要包括两部分,即梯度校准模块(GCM)和频率感知模块(FAM)。首先将RGB图像  和上采样后的LR深度图  送入到GCM,利用RGB丰富的梯度信息在梯度域中引导LR梯度信息恢复,获得增强后的深度特征  。然后,FAM迭代执行多个频谱差分模块(SDB),其融合来自GCM增强后的深度特征  ,并在频域中传播RGB频谱信息到LR频谱。最后,同时利用梯度感知损失  、频率感知损失  和空间感知损失  约束整个训练过程。

图片

3.3 梯度校准模块

如图3橙色区域所示,GCM首先利用一个梯度映射函数(公式1)将RGB图像  和LR深度图 像映射到梯度域,然后在梯度域中利用RGB的梯度特征对LR梯度特征进行校准和锐化,该过程由梯度感知损失  进行监督。最后将校准后的梯度特征  和深度特征进行融合,以获得梯度增强后的特征  ,并将该特征送入到FAM模块。从图4 (b)和(d)可以看出,本文提出的GCM成功地学习了清晰的梯度特征和深度特征。

图片

图片

3.4 频率感知模块

FAM如图3绿色区域所示,其递归的执行多个频谱差分模块来不断地在频域中优化深度特征。然后将不同阶段获取到的深度特征通过残差模块和上采样模块进行融合得到   ,最后结合由bicubic插值上采样后的深度图  , 得到最终预测的HR深度图  。

图片

3.4.1 频谱差分模块

本文提出的频谱差分模块(SDB)如图5所示,其首先将来自GCM模块的梯度增强特征  与深度特征  进行融合,并利用离散傅里叶变换将RGB特征和深度特征映射到频域,获得RGB特征频谱  和深度特征频谱  ,然后对获取到的频谱特征进行分解,得到幅值和相位:

图片

接下来,SDB分别计算RGB频谱特征和深度频谱特征的幅值减法和相位减法得到  和  ,并将其送入到卷积层分别进行幅值和相位的学习。此外,原始深度特征  的幅值和相位同样被送入到单独的卷积层,以保证深度图的低频分量也能够在频域中进行学习。最后,通过离傅里叶逆变换将融合后的幅值和相位映射到空间域,从而得到频域增强后的特征  。

图片

此外,为了加强空间域和频域的联系,SDB利用可逆神经网络融合空间域特征  和频域增强后的特征  。如图6 (b)和(d)所示,SDB成功恢复了LR频谱的高频分量和学习了清晰的结构特征。

图片

3.5 损失函数

本文使用了梯度感知损失  、频率感知损失  和空间感知损失  来监督梯度域和频域的训练。其中空间感知损失可表示为:

图片

梯度感知损失如下式(13),其中  表示ground-truth深度图的梯度:

图片

频率感知损失如下式(14),其包括幅值损失  和相位损失 ,其中   and  分别表示预测输出的幅值和相位,  and  表示ground-truth深度图的幅值和相位:

图片

总的损失为:

图片

4 实验

4.1 实验设置

本文使用NYU-v2、Middlebury、Lu和RGB-D-D数据集来验证方法的性能。和以前的工作一样(DCTNet, SUFT),对于合成数据集,其首先通过bicubic插值获得LR深度图,然后在NYU-v2训练集上训练,并同时在4个数据集上进行测试。对于真实数据集,其使用RGB-D-D真实LR深度图作为输入进行训练和测试。本文选择以前方法(DKN, FDSR)使用的均方根误差(RMSE)作为评价指标。

4.2  和state-of-the-art方法的比较

本文进行了大量的实验,并和以前很多的方法在合成数据集(,  ,  )和真实数据集上都进行了比较。

4.2.1 定量比较

从表1到表3可以看出,SGNet在NYU-v2、Middlebury、Lu和RGB-D-D四个合成测试集上都实现了state-of-the-art的性能。尤其是对于尺度因子为  和  的情况下,本文的性能要高出第二好的方法很多。

图片

图片

图片

此外,表4给出了在真实RGB-D-D数据集上的实验结果,其中标有*的方法表示在真实RGB-D-D数据集上重新进行了训练,其他的则是使用在NYU-v2上的预训练模型直接在真实测试集上进行测试的结果,可以看出本文提出的方法在真实数据集上同样实现了state-of-the-art的性能。

图片

4.2.2 视觉比较

图7,图8分别给出了在NYU-v2和RGB-D-D合成数据集上的可视化结果比较。可以看出本文提出的方法可以恢复出更清晰的结构,具有更少的误差。

图片

图片

图9给出了在真实RGB-D-D数据集上的可视化结果比较,可以看出本文提出的SGNet恢复的深度图具有更准确的结构信息。

图片

4.3  消融实验

GCM和FAM的有效性。作者首先移除整个GCM模块,然后对于FAM中的SDB,作者移除了所有的频域操作,只保留图5的灰色区域,以此作为baseline模型。如图10所示,GCM和FAM均能带来性能的提升,当GCM和FAM同时使用时,性能达到最优。从图11的中间特征可视化可以看出,和baseline方法相比,GCM和FAM都能学习到更清晰的结构,当两者同时使用时,SGNet可以获得更准确的结构。

图片

此外,作者还给出了GCM和FAM复杂度的分析,从表5可以看出GCM和FAM虽然会带来一点复杂度的提升,但是其带来的性能提升是更明显的。

图片

SDB数量和不同损失函数的有效性。从图12(a)可以看出,随着FAM中SDB迭代数量的增强,RMSE会逐渐减小,为了平衡模型复杂度和性能,作者最终设置SDB数量为3。图12(b)可以看出,相较于只有空间感知损失  ,梯度感知损失  和频率感知损失  都会带来性能的提升,当三个损失函数同时使用时,性能达到最优。

图片

5 总结

在本文中,作者专注于在梯度域和频域来利用RGB的高频分量增强LR深度结构。对于梯度域,作者设计了一个梯度校准模块来自适应的锐化LR模糊的结构。对于频域,作者提出了频率感知模块,其迭代的执行多个频谱差分模块来传播RGB的高频信息。此外,作者还引入了梯度感知损失、频率感知损失来约束在梯度域和频域的训练。在深度超分辨率数据集上的大量实验证明了SGNet的有效性。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

图片

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

图片

▲长按扫码加入星球

3D视觉交流群

目前工坊已经建立了3D视觉方向多个社群,包括SLAM工业3D视觉自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

标签:深度图,梯度,分辨率,频域,RGB,LR,南京理工,3D
From: https://blog.csdn.net/weixin_46788581/article/details/137120583

相关文章

  • CCF-CSP真题《202309-3 梯度求解》题解
    题目string转longlong忘记处理负数卡了半天,服了#include<iostream>#include<cstdio>#include<cstring>#include<sstream>typedeflonglongll;usingnamespacestd;intn,m,temp;lla[302];stringf,x,b;llmod=1e9+7;structnode{ stringcon; n......
  • 机器学习实战-手把手教会你如何用梯度下降实现线性回归
    机器学习实战-利用梯度下降实现单变量线性回归文章目录前言一、导包二、处理异常并导入数据集1.处理异常2.导入数据集3.查看是否导入成功4.绘制人口-收益图,可视化查看三、使用梯度下降来实现线性回归,以最小化代价函数1.定义方法计算代价函数2.添加偏置项3.分离特征和......
  • 逻辑回归中交叉熵损失函数的梯度
    要给出逻辑回归中交叉熵损失函数最小化的梯度推导过程,我们首先定义损失函数和模型预测的形式。对于二分类逻辑回归,模型预测使用sigmoid函数,即:\[\hat{y}_i=\sigma(z_i)=\frac{1}{1+e^{-z_i}}\]其中,\(z_i=X_i\cdot\theta\)是模型对第\(i\)个样本的线性预测,\(X_i\)是样本......
  • 吴恩达2022机器学习专项课程(一) 4.1 梯度下降
    问题预览1.梯度下降算法的作用是?2.梯度下降如何计算线性回归的成本函数?3.所有的成本函数都是一个形状吗?4.在非凸形状中,梯度下降的更新过程是?5.在非凸形状中,不同的初值对最小化成本函数的影响是?6.什么是局部最小值?笔记1.梯度下降算法的作用梯度下降算法可以计算大多......
  • slam分辨率和图像分辨率的区别
            在SLAM(SimultaneousLocalizationAndMapping)中,地图分辨率通常是指地图能够区分空间中最小距离的能力。地图分辨率的值越小,分辨率越高,意味着它能描绘的空间细节越精细,因此地图也就越清晰。举个例子,在slam中,一个地图的分辨率值是0.5,另一个地图分辨率值是2:如......
  • 吴恩达机器学习实践笔记,第四章的多元梯度下降的实现
    https://blog.csdn.net/out_look520/article/details/107695529这个链接里面有需要的数据集,有需要的兄弟姐妹们自己解决哟,我下面的数据就是从那个博主那里拿的今天实践了一下多元梯度下降哈,其实道理和原来二元的一样,也是采用下面这个式子只是θ的数量多了一些而已,废话不多......
  • SAR图像辐射分辨率和等效视数(CSDN_20240323)
            辐射分辨率和等效视数,是基于面目标评价SAR图像质量的两项重要指标。在介绍辐射分辨率和等效视数之前,首先介绍SAR图像的均值和方差。均值图像均值指的是SAR幅度图的统计平均,该指标反映了地物目标的平均后向散射系数,具体定义如下:其中,M和N分别表示SAR图像的......
  • 常见优化器对比:梯度下降法、带动量的梯度下降法、Adagrad、RMSProp、Adam
    系列文章目录李沐《动手学深度学习》线性神经网络线性回归李沐《动手学深度学习》优化算法(相关概念、梯度下降法、牛顿法)李沐《动手学深度学习》优化算法(经典优化算法)文章目录系列文章目录一、梯度下降法(一)基本思想(二)梯度下降法的三种不同形式(三)优缺点二、带动量的......
  • 中国1KM分辨率月平均气温数据集1950-2023
       该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1950年1月-2023年6月。该数据集是根据全国2472个气象观测点数据进行插值获取,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。数据坐标系统使用WGS84。自......
  • 中国30米分辨率城市建成区数据集 (1972-2023年)
      城市建成区的提取是近年来遥感应用领域研究的热点内容。传统的研究方法主要包括都市化指数(urbanindex,UI)、归一化建筑指数(normalizeddifferencebuilt-upindex,NDBI)、归一化植被指数(normalizeddifferencevegetationindex,NDVI)等方法。这些指数不仅可以单......