首页 > 其他分享 >Point SLAM论文阅读

Point SLAM论文阅读

时间:2024-11-13 12:46:06浏览次数:3  
标签:场景 渲染 论文 Point SLAM 方法 RGBD

Point SLAM引用:
Sandström E, Li Y, Van Gool L, et al. Point-slam: Dense neural point cloud-based slam[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 18433-18444.

Point SLAM原文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Sandstrom_Point-SLAM_Dense_Neural_Point_Cloud-based_SLAM_ICCV_2023_paper.pdf

Abstract

本文提出了一种稠密神经即时定位与建图(SLAM)方法,针对RGB-D输入,将神经场景表示的特征锚定在点云内(该点云以输入依赖的数据方式进行迭代)。通过最小化基于RGB-D的重渲染损失,证明Tracking和Mapping都可以通过相同的基于点的神经场景表示实现。
与近期将场景特征锚定在稀疏网格中的稠密神经SLAM方法相比,Point SLAM的基于点的方法允许动态调整锚点密度以此适应输入的信息密度。这种策略能够在细节较小的区域减小运行时间和内存,并将更高的点密度分配给需要解析细节的区域。
Point SLAM方法在Replica、TUM-RGBD和ScanNet数据集上的跟踪、建图和渲染准确率方面,表现优于或与现有的稠密神经RGBD SLAM方法相当。

在这里插入图片描述

图1. Point SLAM的优势。由于神经特征的空间自适应锚定,Point SLAM能够比NICE-SLAM更有效地编码高频细节,从而在渲染、重构和跟踪准确率方面表现更优,同时达到具有竞争力的运行时间和内存使用率,第一行展示了特征锚点。对于NICE-SLAM,我们展示了位于规则网格上的非空体素的中心,而Point SLAM的锚点密度取决于深度和图像梯度。下一行描绘了生成的渲染结果,显示了在高频纹理区域(如花瓶、百叶窗、地板或毯子)上的显著差异。

1.Introduction

稠密视觉即时定位与地图构建(SLAM)是计算机视觉领域的一个长期存在的问题,稠密地图在增强现实和虚拟现实(AR, VR)、机器人导航与规划任务[17]、碰撞检测[7]、详细遮挡推理[46]以及场景内容的解释[72]中有着广泛的应用,这些对于场景理解和感知至关重要。

在SLAM过程中估计稠密地图时,传统上采用不同的场景表示,同时Tracking通常独立于估计的稠密地图,这导致了不必要的数据冗余和独立性。
相机追踪通常通过稀疏点云或深度图进行,例如通过帧到模型的追踪[36, 66, 6, 38, 21]以及结合环闭合[15, 77, 5]。
常见的稠密地图表示有:体素网格[36, 37]、体素哈希[38, 15, 21, 20]、八叉树[16, 49, 29]或点/表面云[77, 5, 48]。
学习的场景表示[42, 30, 8, 32]的引入,使得基于学习的在线映射方法[63, 64, 31, 18, 24, 41]和离线方法[43, 1, 57, 73]取得了快速进展。然而,这些方法中的大多数都需要真实值深度或3D数据来进行模型训练,并且在测试时可能无法泛化到未见过的真实世界场景。
为了消除训练和测试之间的差异,最近的SLAM方法依靠通过体积渲染的测试最优化。
对比传统的方法,神经场景表示具有吸引人的特性,适用于地图绘制,如改进的噪声和异常点处理[64],对未观察到的场景部分的更好的孔洞填充和修复能力[69, 79],以及数据压缩[42, 58]。
类似于DTAM [37]或BAD-SLAM [48],最近的神经SLAM方法[79, 69, 53]仅使用单一的场景表示来进行跟踪和建图,但它们依赖于常规的网格结构[79, 69]或单一的多层感知机[53]。
受BAD-SLAM [48]、NICESLAM [79]和Point-NeRF [67]的启发,Point SLAM所探讨的问题是:
基于点的神经场景表示能否用于实时SLAM中的跟踪和建图?

为此,引入Point SLAM,一种基于点的稠密RGB-D SLAM解决方法,实现数据自适应的场景编码。该方法的关键思想如下:

  • 与将特征点固定在规定的网格上不同, Point SLAM方法根据输入数据中的信息密度自适应地分布点,从而实现更好的内存与准确率之间的权衡。
  • 在渲染过程中,舍弃了基于表面元的溅射技术,采用光线行进的方式聚合神经特征点。同时,使用MLP解码器将这些特征转化为场景几何与颜色估计。
  • 在最小化RGB-D渲染损失时,交替执行Tracking和mapping。
  • 不同于基于网格的方法,Point SLAM不对自由空间进行建模,只对表面的少量点进行编码。
    在一系列室内RGBD数据集上评估了Point SLAM提出的方法,并在稠密神经RGBD SLAM的跟踪、渲染和建图方面展示了最先进的性能——参见图1以获取示例结果。
    总之,贡献包括:
  • 提出了Point-SLAM,这是一种能够实时运行的稠密RGBD SLAM方法,它在场景探索过程中以数据驱动的方式迭代地扩展点云,并在其中锚定神经特征。证明了所提出的基于神经点的场景表示可以有效地用于建图和跟踪。
  • 提出了一种动态点密度策略,该策略能够在计算和内存效率方面取得提升,并在重构速度、内存与准确率之间进行权衡。
  • Point SLAM方法在各种数据集上的跟踪、渲染和映射准确率方面显示出明显的优势。

2.Related Work

稠密视觉SLAM与建图
Curless和Levoy[13]的工作,为许多采用截断带符号距离函数(TSDF)的3D重构策略奠定了基础。后续发展包括KinectFusion [36]以及更具扩展性的技术,如体素哈希[38, 21, 40]、八叉树[49],以及通过稀疏图像特征实现的姿态稳健性[4]。进一步的扩展包括用于SLAM的跟踪[37, 48, 53, 79, 5, 70],BundleFusion [15]实现了回环检测。为了解决深度图噪声问题,RoutedFusion [63]引入一个融合网络,该网络输出体素网格的TSDF更新。
NeuralFusion [64] 和 DI-Fusion [18] 通过隐式学习场景表示扩展了这一概念,从而实现了更好的异常点处理。
许多近期的工作不需要深度输入,仅通过RGB相机就能实现稠密在线重构[35, 10, 3, 50, 54, 47, 23]。
最近,依赖于测试时间最优化的方法其对测试时间约束的适应性而变得流行。
由于依赖于test time optimization的方法对test time 约束具有适应性,该类方法逐渐流行。 例如,Continuous Neural Mapping[68]从一系列深度图进行不间断映射,学习场景的表达。
神经辐射场[32]启发了稠密表面重构[39, 59]和姿态估计[45, 25, 62, 2]的相关研究。这些研究成果促成了全稠密SLAM pipeline的诞生[69, 79, 53, 28],这些pipeline代表了当前最有望实现精确和鲁棒视觉SLAM的趋势。
[80]是关于在线RGBD场景重构的综述。与Point SLAM的工作相比,目前没有任何神经SLAM方法支持具有高逼真度的输入自适应场景编码。
与此同时,ESLAM [28] 通过轴对齐特征平面处理RGBD SLAM,而NICERSLAM [78]、NeRF-SLAM [45] 和 Orbeez-SLAM [12] 则专注于仅使用RGB的SLAM。

场景重建
在这里插入图片描述

图2:Point SLAM架构。给定一个估计的相机姿态,映射过程如下进行:首先向神经点云中添加一组稀疏的神经点,然后通过沿射线的体积渲染生成深度和颜色图像。对于每个采样的像素,在射线上采样一组点xi,并提取几何和颜色特征(分别为P g (xi)和P c(xi)),使用球形搜索半径r内的特征插值。每个神经点位置pk根据其到采样点xi的距离wk进行加权。特征与点坐标xi一起传递给占用和颜色解码器(分别为h和gξ),以提取占用率oi和颜色ci。通过施加深度和颜色重渲染损失到传感器输入的RGBD帧,神经点特征在映射过程中得到优化。在映射步骤之后,在地图固定的情况下优化相机的外参进行跟踪。

大多数稠密的三维重构工作可以分为三类:(1)基于网格的,(2)基于点的,(3)基于网络的。其中,基于网格的表示方法研究最多,并且可以进一步细分为使用稠密网格的方法[79, 36, 63, 64, 13, 54, 3, 24, 11, 77, 76, 66, 81]、分层八叉树[69, 49, 29, 6, 26]和体素哈希[38, 21, 15, 60, 33]以节省内存。

  • 网格的一个优势是邻域查找和上下文聚合快速且直接。
  • 作为网格的主要局限性,网格分辨率需要在重构之前预先指定,并且在重构过程中无法轻易调整,即使是对于八叉树结构也是如此。这可能导致次优的分辨率策略,即在复杂度较低的区域浪费内存,而在超出分辨率选择的区域无法解析细节。

基于点的表示方法为网格面临的问题提供了解决方案,并已成功应用于三维重构[65, 48, 5, 12, 21, 22, 9, 74]。

  • 类似于网格中的分辨率,点密度不需要事先指定,并且可以在场景中自然地变化。
  • 点集可以简单地集中在表面周围,以避免在模拟自由空间时浪费内存。

对于稠密SLAM,邻域搜索可以通过将三维搜索问题转化为二维搜索问题来加速,具体方法是将点集投影到一组关键帧上[65, 48]。
一种更优雅且更快的解决方案是将每个点注册在一个网格结构中[67]。在这项工作中,我们认为点提供了一种灵活的表示,可以受益于网格结构以实现快速的邻域搜索。
与之前的基于点或面的SLAM方法[65, 48, 5]不同,Point SLAM受益于神经隐式特征,通过体素阿尔法合成进行渲染。
将基于网络的方法用于稠密三维重构,通过coordinate-MLPs隐式建模全局场景,提供了连续的表示[1, 53, 59, 45, 41, 68, 71, 42, 30]。得益于其简单、连续且压缩的公式,基于网络的方法能够恢复高质量的地图和纹理,但由于以下两个主要原因,它们并不适合用于在线场景重构:

  • 不允许进行局部场景更新
  • 对于不断增长的场景大小,网络容量无法在运行时增加。

在这项工作中,Point SLAM采用了基于网络的方法所普及的神经隐式表示,但通过在三维空间中锚定神经点特征,实现了可扩展性和局部更新。
在上述三组之外的领域,一些研究探讨了其他表示方法,如参数化表面元素[56]和轴对齐特征平面[28, 43]。

  • 参数化表面元素通常难以构建灵活的形状模板
  • 因为特征平面的表示过于压缩,在处理包含多个表面的场景重建时遇到困难。

因此,认为这些方法不适用于稠密SLAM。相反,将场景空间建模为一组无序点,并附带相应的可优化特征。

3.Methon

本节详细介绍了Point SLAM如何将神经点云作为稠密RGBD SLAM的唯一表示进行部署。在估计的位姿下,点随着新场景的探索迭代增加(3.1)。
Point SLAM使用逐像素梯度的方法实现点密度的动态调整,使得系统能够解析精细的细节并在其他地方压缩表示。
3.2节中,进一步说明了深度和颜色渲染的执行方式,并通过这种方式最小化映射和跟踪的重新渲染损失(第3.3节)。在图2中,概述了Point SLAM的方法。

3.1.神经点云表示

用N个神经点定义神经点云:
在这里插入图片描述
其中,pi表示点的位置,为3维;fi,g为集合特征描述符,是32维;fi,c为颜色特征描述符,是32维。

拓展点策略
在每个建图阶段和给定的估计相机位姿下,均匀采样像素平面中的X个像素,在颜色梯度幅度最高的5Y个像素中取Y个像素。利用可用的深度信息,将像素反投影到三维空间中,并在半径r范围内搜索邻近点。如果没有找到领域点,沿着射线添加3个神经点。其中,这3个点以深度读数D为中心,分别偏移(1-ρ)D和(1+ρ)D(ρ∈(0,1),为超参数,用于表示预期的深度噪声);如果找到了相邻点,则不添加任何点。使用正态分布的初始化方法设定特征向量
这三个点形成了一个深度依赖的有限更新带,以模拟深度相机的常见噪声特性。随着更多帧的处理,我们的神经点云逐渐增长,以表示场景的探索,但在没有访问新场景部分时,收敛到一个有限点集。不同于基于体素的表示,这种方法在重构之前不需要指定任何场景边界。

动态分辨率
为了提高计算和内存分配效率,Point SLAM在场景中采用了点密度的动态调整。这种策略使得Point SLAM在细节较少的区域高效建模,在需要解析精细细节的地方施加高的密度。根据相机观察到的颜色梯度变化,改变最近邻搜索半径r,实现动态点密度。使用一个限幅线性映射来定义基于颜色梯度的搜索半径 r :
在这里插入图片描述

其中,∇I(u, v) 表示在像素位置 (u, v) 处的梯度大小。使用搜索半径的下限和上限 (rl, ru) 来控制压缩级别和内存使用量。关于参数选择的更多细节,请参阅补充材料。

3.2.渲染

为了渲染深度和颜色,采用了一种体渲染策略。给定一个原点为O的相机姿态,采样一组点xi:
在这里插入图片描述
zi表示点的深度,为1维,di表示射线方向,为3维。具体而言,在(1 − ρ)D和(1 + ρ)D之间均匀分布地采样5个点,其中D是待渲染像素处的传感器深度。而基于体素的方法,需要计算相机和表面之间空洞的空间,需要比Point SLAM更多的样本。例如,NICE-SLAM [79] 使用了48个样本(其中16个在表面附近,32个在相机与表面之间)。随着光线上的样本数量减少,Point SLAM在渲染过程中实现了计算速度的提升。
在采样得到点 x_i 之后,根据 [79] 中的方法,使用多层感知机(MLPs)对占据率 o_i 和颜色c_i 进行解码:
在这里插入图片描述
分别使用h和gξ表示几何和颜色MLP解码器。其中,ξ是g的可训练参数。使用与Nice SLAM相同的架构来构建h和g,并使用Nice SLAM提供的预训练且固定的中间几何解码器h。解码器的输入是三维点xi,对输入进行可学习的高斯位置编码,以此缓解MLP中的有限带宽问题,并关联特征。进一步的,用Pg(xi)和Pc(xi)表示点xi处提取的几何特征与颜色特征。
对于每个点xi,使用相应的逐像素查询,半径为2r,其中r是根据公式(2)计算的。在半径2r内,要求找到至少两个相邻点。否则,该点的占据状态将被设为零。使用最近的八个相邻点,并使用几何特征的反平方距离加权法,即:
在这里插入图片描述

对于颜色特征,受Point NeRF的启发,对提取的相邻点特征fkc施加了非线性预处理:
在这里插入图片描述
其中,F是一个由θ参数化的单层多层感知机,包含128个神经元和softplus激活函数。
为相对点向量(pk − xi)使用了与几何和颜色解码器相同的高斯位置编码。由此得到:
在这里插入图片描述
对于没有深度观测的像素,通过沿着深度30cm到1.2 Dmax(最大帧深度)的射线进行渲染。其中,在这个区间内采样25个样本。这个方法能够填补空洞,但无法填补任意大空洞,这容易导致较大的completion errors。
下文,将描述如何利用每个点的占据率oi和颜色ci,通过提渲染技术渲染每个像素的深度和颜色。首先,构建了一个权重函数,αi,如公式(8)中所述。该权重表示光线在点xi处终止的离散化概率:
在这里插入图片描述
渲染的深度是沿着每条射线的深度值的加权平均值,颜色也根据公式(9)进行等效计算:
在这里插入图片描述
同时计算沿射线的方差:
在这里插入图片描述
具体细节,详见Nice SLAM。

3.3.建图与跟踪

建图
在建图过程中,我们在RGBD帧中均匀渲染M个像素,并最小化重新渲染损失,使其与相机读数D(深度)和I(图片)一致。
在这里插入图片描述
该方法结合了几何L1深度损失和颜色L1损失,并使用超参数λm对给定的真实值ˆDm, ˆIm进行优化。在loss最小化的过程中,实现了几何特征fg、颜色特征fc、颜色解码器g中的ξ、几何解码器F中的θ的优化。
在每个映射阶段,我们首先仅使用深度项进行最优化,以便良好地初始化颜色最优化。然后,在剩余的60%迭代中加入颜色损失。
与NICE SLAM相同,利用一个关键帧数据库来正则化映射损失。从一组与当前帧的视锥体有显著重叠的关键帧中采样,并从这些关键帧中添加像素样本。详细见补充材料。

跟踪
在映射之外,通过优化每帧的相机外参{R,t}来进行跟踪。在整个帧中对Mt个像素进行采样,并使用简单的恒定速度假设来初始化新姿态,该假设通过第二最近姿态与最近姿态之间的相对变换来转换最近已知的姿态。
跟踪损失Ltrack结合了一个由λt加权的颜色项和一个由深度预测标准差加权的几何项:
在这里插入图片描述

疑问:文中给出了L tracking,深度部分的权重由标准差决定,颜色部分权重由λt控制。那么{R,t}是如何影响L tracking的,为什么最小化L tracking 可以优化{R,t}。这个{R,t}是指当前帧的还是所有采样帧的

3.4.曝光补偿

对于帧间曝光变化显著的场景,我们使用一个额外的模块来减少相应像素之间的颜色差异。受[44]启发,我们学习了一个每图像的潜在向量,该向量作为输入被馈送到具有参数φ的曝光多层感知机Gφ中。网络G在帧之间共享,并在运行时进行优化。它输出一个仿射变换(3×3矩阵和3×1平移),该变换用于在输入到跟踪或映射损失之前对公式(9)中的颜色预测进行变换。更多细节请参见补充材料。

4.实验

首先描述了实验设置,然后在与最先进的稠密神经RGBD SLAM方法在Replica [51]、真实世界TUM-RGBD [52]以及ScanNet [14]数据集上进行了评估。进一步的实验和细节在补充材料中提供。

实施细节
为了实现高效的最近邻搜索,我们使用了FAISS库[19],该库支持图形处理器处理。在Replica和TUM-RGBD上使用ρ = 0.02,在ScanNet上使用ρ = 0.04。我们设定rl = 0.02,ru = 0.08,gu = 0.15,gl = 0.01,β1 = − 2/3 ,β2 = 13/150。对于所有数据集,X = 6000。对于Replica,Y = 1000,而对于ScanNet和TUM-RGBD,Y = 0。
跟踪部分,在Replica上均匀采样1.5K个像素。在TUM-RGBD和ScanNet上,首先根据图像梯度幅值计算出前75,000个像素,然后从中抽取Mt = 5,000个样本。
映射部分,在Replica上均匀采样5K个像素,在TUM-RGBD和ScanNett采样10K个像素。
尽管指定了多次映射迭代,但Point SLAM采用了一种自适应方案,该方案考虑了新添加点的数量。映射迭代次数为 mi = mdi*n/300,其中 mdi 是默认映射迭代次数,n 是添加点的数量。我们将mi限制在[0.95md i , 2md i ]范围内。这种策略在添加少量点时加快了映射速度,并有助于优化包含许多新点的帧。为了网格化场景,我们在估计的轨迹上每五个帧渲染深度和颜色,并使用体素大小为1厘米的TSDF Fusion[13]。有关更多详细信息,请参阅补充材料。

评估指标
由marching crubing生成的网格,使用F分数进行评估。其中,F分数指Precision§和Recall®的调和平均值。对于所有评估们使用 1 cm 的距离阈值。进一步提供深度 L1 指标,如 [79] 所示。
对于跟踪精度,使用ATE RMSE[52]。对于渲染,提供峰值信噪比(PSNR)、SSIM[61]和LPIPS[75]。渲染指标是通过每5帧沿估计轨迹渲染全分辨率图像来评估参数的。除非另有说明,否则评估结果为种子 0、1 和 2 三次运行的平均指标。

数据集
Replica 数据集 [51] 包含各种室内场景的高质量 3D 重建。利用Sucar等人[53]收集的公开可用数据集,该数据集提供了RGBD传感器的轨迹。此外,证明了Point SLAM的框架可以通过使用 TUM-RGBD 数据集 [52] 和 ScanNet 数据集 [14] 来处理真实世界的数据。TUM-RGBD 的姿态是使用外部动作捕捉系统捕获的,而 ScanNet 使用 BundleFusion [15] 的姿态。

Baseline 方法
主要Point SLAM方法与现有的最先进的密集神经RGBD SLAM方法进行比较,如NICE-SLAM[79]、Vox-Fusion[69]和ESLAM[28]。我们使用开源代码重现Vox-Fusion[69]的结果,并将结果报告为Vox-Fusion *。
对于NICE SLAM,在Replica中使用40次跟踪迭代,以1cm的分辨率对场景进行网格的划分,以实现比较的公平。
在这里插入图片描述

图 3:Replica [51] 上的重建性能。图 3a:Point SLAM的方法能够胜过所有现有方法。最佳结果以第一个、第二个和第三个突出显示。图 3b:Point-SLAM 平均比现有方法产生更精确的重建,例如请注意 Office 0 上粗略木偶重建的保真度。

在这里插入图片描述

图 4:Replica [51] 上的渲染性能。由于神经点云的自适应密度,Point-SLAM 能够对更多的高频细节进行编码,并显着提高渲染的保真度。这也得到了表 2 中的定量结果的支持。

在这里插入图片描述

表 1:Replica[51]上的跟踪性能(ATE RMSE↓[cm])。平均而言,Point SLAM实现了比现有方法更好的跟踪。[69] 的灰色数字来自论文,这些论文来自我们无法重现的单个运行。我们在表中报告了所有其他方法的 3 次运行的平均值。Vox-Fusion∗ 表示重新创建的结果。

4.1.重建

图 3a 在几何重建精度方面将Point SLAM与 NICE-SLAM [79]、VoxFusion [69] 和 ESLAM [28] 进行了比较。Point SLAM在所有指标上都优于所有方法,并分别报告了 NICESLAM、Vox-Fusion 和 ESLAM 的深度 L1 指标的平均改进,分别为 85%、82% 和 63%。
图 3b 比较了 NICE-SLAM [79]、VoxFusion [69] 和Point SLAM到gt网格的网格重建。我们发现Point SLAM方法能够比以前的方法大得多地解决精细细节。将此归因于神经点云,它对点密度具有适应性(即靠近表面和大约精细细节),并在其他场景中节省内存。

4.2.跟踪

在这里插入图片描述

表 2:Replica [51] 上的渲染性能。Point SLAM在常用的渲染指标上优于现有的密集神经 RGBD 方法。对于NICE-SLAM[79]和Vox-Fusion[69],从[78]中获取数字。对于定性结果,见图 4。

在这里插入图片描述

表 3:TUM-RGBD [52](ATE RMSE ↓ [cm])上的跟踪性能。Point-SLAM 始终优于现有的密集神经 RGBD 方法(上半部分),并且正在缩小与稀疏跟踪方法的差距(下半部分)。在括号中,我们仅报告成功运行的平均值。

在这里插入图片描述

表 4:ScanNet [14] 上的跟踪性能(ATE RMSE ↓ [cm])。所有场景都在 00 轨迹上进行评估。我们从 [28] 中获取 NICE-SLAM 的数字。在场景0000上的Vox-Fusion上运行一次跟踪失败。在括号中,我们只报告成功运行的平均值。

表1中,展示了Replica数据集上的跟踪性能。总体上,Point SLAM优于现有的方法。这是由于神经点的使用使得场景重建更加精准。表 3 中的 TUM-RGBD 数据集的评估实验表明,Point-SLAM 能够转移到真实世界数据。Point SLAM优于现有的密集神经RGBD 方法。
然而,Point SLAM仍然与传统方法存在差距,这些方法采用了更复杂的跟踪方案,例如回环检测。最后,表 4 显示了SLAM在一些选定的 ScanNet 场景上的跟踪性能。在这个数据集中,Point SLAM引入曝光补偿模块。
Point SLAM在ScanNet上实现了具有竞争力的性能,但发现由于运动模糊和镜面反射,该数据集通常更加复杂。如果没有正确被建模,Point SLAM相比于 NICE-SLAM [79] 和 Vox-Fusion [69],对这些影响更敏感。后两者使用较大的体素,导致更多的平均,降低对镜面反射的敏感性。本文向补充材料添加了更详细的讨论。

4.3.渲染

表 2 比较了渲染性能,并展示了对现有密集神经 RGBD SLAM 方法的改进。图 4 显示了示例全分辨率渲染,其中 Point-SLAM 产生了更准确的细节。

4.4.进一步统计评估

在这里插入图片描述

图 5:Non-Linear Appearance Space 通过外观特征的Fθ进行非线性预处理有助于解决高频纹理,如百叶窗、桌子上的锅和枕上的树花纹。

Non-Linear Appearance Space
在有和没有非线性预处理网络 Fθ 的Replica数据集的 Room 0 场景上评估 PointSLAM。图 5 显示,特征的简单线性加权无法解决像百叶窗这样的高频纹理,而当 Fθ 运行时优化时,这可以成功地完成。我们评估了整个轨迹的 PSNR,并显示出 17% 的增益(32.09 对 27.41)。
我们发现,当跟踪误差更大时,例如在 TUM-RGBD [52] 或 ScanNet [14] 上,MLP Fθ 没有帮助,禁用它。高频外观只能通过像素准确的姿态来解决,这些姿态正确地对齐帧。

Color Ablation
在这里插入图片描述

表 5:颜色消融。实验表明,颜色信息对于跟踪和重建是有价值的。

在这里插入图片描述

图 6:动态分辨率消融。我们展示了 Room 0 场景中搜索半径的不同上限 ru 的性能指标。Point SLAM的方法对跟踪和映射精度 ((a) 和 (b) resp 的压缩具有鲁棒性。ru=8cm左右时,渲染质量逐渐降低 ©,内存使用在此点由低转高。因此,在所有实验中选择 ru = 8 cm。

通过在不同设置中禁用RGB输入,评估Point SLAM 的pipeline性能。表 5 报告了 Room 0 上的性能指标。当不使用 RGB 进行跟踪时,跟踪性能会降低,这会对深度 L1 指标和渲染质量产生负面影响。重建性能主要由在给定良好相机姿态的深度输入决定,但由于 RGB 在获得更好的姿态方面很有用,发现 RGB 信息有助于跟踪和重建。

Dynamic Resolution Ablation
实验展示了Point SLAM的方法对搜索半径上限ru的值具有很强的鲁棒性。图6a至6c分别显示了随着ru变化时的ATE RMSE、深度L1和PSNR。跟踪和重构指标对ru具有较强的鲁棒性,而在PSNR方面观察到逐渐下降的趋势。图6d显示了在帧捕获结束时,每个ru对应的神经点总数。实验发现曲线在ru = 8 cm左右达到最低点,这也是我们在所有实验中使用的值。

Memory and Runtime Analysis

在这里插入图片描述

表6:在Replicaoffice 0上的运行时间和内存使用情况。解码器大小是所有多层感知机的内存。嵌入大小是场景表示的总内存。Point SLAM的内存占用和运行时间具有竞争力。

表6表示,在Replica office 0的场景中展示各个算法的内存使用和时间占用。跟踪和映射时间按每次迭代和每帧报告。解码器大小表示所有多层感知机网络的内存占用,包括网络Gφ和Fθ。嵌入大小是场景表示的总内存占用。Point-SLAM的内存使用介于NICE-SLAM和Vox-Fusion之间,而运行时间具有竞争力。运行时间是在单个Nvidia RTX 2080 Ti上进行分析的,而Vox-Fusion使用的是RTX 3090。

Limitations
尽管Point SLAM的框架在TUM-RGBD和ScanNet数据集上展示了具有竞争力的跟踪性能,

  • 但我们认为可以通过允许点位置实时优化来构建一个更鲁棒的系统,以应对深度噪声。
  • 点密度的局部适应遵循一个简单的启发式方法,理想情况下也应通过学习来实现。
  • 我们还认为,许多经验性的超参数可以在测试时进行自适应调整,例如关键帧选择策略以及用于确定搜索半径的颜色梯度上下限。
  • 最后,虽然我们的框架能够显著提升渲染和重构性能,超越当前最先进的技术,但我们的系统似乎对运动模糊和镜面反射更为敏感,我们希望在未来的工作中解决这些问题。

5.结论

我们提出了Point-SLAM,这是一个稠密SLAM系统,利用神经点云进行地图构建和跟踪。
数据驱动的特征锚定能够更好地将特征与实际表面位置对齐,而提出的动态分辨率策略则根据输入信息密度来填充特征。
总体而言,这使得记忆和计算资源的使用更加平衡,并提高了估计的三维场景表示的准确率。
我们的实验表明,Point-SLAM在重构和渲染准确率方面显著优于现有解决方案,同时在跟踪、运行时间和记忆使用方面也具有竞争力。

Acknowledgements
本研究得到了VIVO合作项目对实时场景重构的支持以及来自FIFA的研究资助。我们感谢Danda Pani Paudel和Suryansh Kumar的有益讨论。

标签:场景,渲染,论文,Point,SLAM,方法,RGBD
From: https://blog.csdn.net/m0_53281987/article/details/143734174

相关文章