开源！首个无需相机位姿的通用3D Gaussian Splatting！

标签：Splatting 方法 Gaussian SLAM 视觉位姿 GGRt 姿态 3D

作者：Hao Li等人|编辑：计算机视觉工坊
添加小助理：dddvision，备注：3D目标检测，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

NeRF和3D GS依赖相机的位姿真值，但实际场景中很难获取。并且由于使用了大量参数，难以在更高分辨率下进行重建。最后，这类方法在合成新视角时每次都需要完整地前向传播整个网络，难以实时渲染。

为了应对这些挑战，这篇文章提出了 GGRt，它将基于原始的基于图元的 3D 表示------快速和内存高效的渲染------带入到了无姿态条件下的通用新视角合成中。具体来说，我们引入了一种新颖的流水线，同时学习 IPO-Net 和 G-3DG 模型。这样的流水线可以强健地估计相对相机姿态信息，从而有效地减轻了对真实相机姿态的需求。随后，作者开发了一种延迟反向传播（DBP）机制，能够高效地进行高分辨率训练和推断，这种能力超越了现有方法的低分辨率限制。此外，还设计了一种创新的高斯缓存模块，其思想是在两个连续的训练和推断迭代中重用参考视角的相对姿态信息和图像特征。因此，高斯缓存可以在训练和推断过程中逐步增长和减小，进一步加快了两者的速度。

下面一起来阅读一下这项工作~

1. 论文信息

标题：GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time

作者：Hao Li, Yuanyuan Gao, Chenming Wu, Dingwen Zhang, Yalun Dai, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Junwei Han

机构：西北工业大学、百度、南洋理工大学

原文链接：https://arxiv.org/abs/2403.10147

代码链接：https://3d-aigc.github.io/GGRt

官方主页：https://3d-aigc.github.io/GGRt/

2. 摘要

本文介绍了一种新颖的通用可推广的新视图合成方法GGRt，该方法减轻了对真实摄像机姿态、处理高分辨率图像的复杂性和漫长的优化过程的需求，从而促进了3D高斯喷溅（3D-GS）在现实场景中的更强应用性。具体来说，我们设计了一个新颖的联合学习框架，包括一个迭代姿态优化网络（IPO-Net）和一个通用的3D高斯模型（G-3DG）。通过联合学习机制，提出的框架可以从图像观测中固有地估计出稳健的相对姿态信息，从而主要减轻了对真实摄像机姿态的要求。此外，我们实现了一种延迟反向传播机制，使得高分辨率的训练和推断成为可能，克服了以前方法的分辨率限制。为了提高速度和效率，我们进一步引入了一个渐进高斯缓存模块，在训练和推断过程中动态调整。作为第一个无姿态要求的通用可推广的3D-GS框架，GGRt实现了≥5 FPS的推断速度和≥100 FPS的实时渲染。通过广泛的实验，我们证明了我们的方法在推断速度和有效性方面优于现有的基于NeRF的无姿态技术。它还可以接近基于真实姿态的3D-GS方法。我们的贡献对将计算机视觉和计算机图形整合到实际应用中迈出了重要一步，在LLFF、KITTI和Waymo Open数据集上提供了最先进的结果，并实现了沉浸式体验的实时渲染。

3. 效果展示

GGRt是第一个无姿态限制的通用三维高斯点云投影方法，能够以超过5 FPS的速度进行推断，并提供实时渲染性能。

4. 主要贡献

这项工作是第一个无姿态的通用 3D GS，推理速度达到了 ≥ 5 FPS ，实时渲染速度达到了 ≥ 100 FPS。大量实验表明，该方法在推理速度和有效性方面超越了现有基于 NeRF 的无姿态方法。与基于姿态的 3D-GS 方法相比，该方法提供了更快的推断速度和竞争性的性能，即使没有相机姿态先验。

5. 具体原理是啥？

方法概述： 通过使用两个连续的训练步骤，给出了N个选定的附近图像。在第一个训练步骤中，从附近的时间r中选择参考视图，然后IPO-Net估计参考图像和目标图像之间的相对姿态T以进行3D-Gaussian预测。然后形成三个图像对，并输入到G-3DG模型中以预测Gaussians用于新视图的绘制并将其存储在Gaussians缓存中。在第二步中，由于I被上一步共同使用，直接查询其图像ID在Cache Gaussians中，并挑选相应的高斯点G_2，G_3 与新预测的G_4 用于新视图的绘制。

G - 3DG模型的延迟反向传播管道(左列)和局部自注意力模块在延迟反向传播中的过程(右列)。

6. 实验结果

在光场数据集LLFF和前向自动驾驶数据集Waymo Open dataset上，将GGRt与其他方法进行比较，包括需要姿态和不需要姿态的方法。如表1所示，GGRt在与其他方法相比取得了显著的性能改善。值得注意的是，GGRt在两个数据集的所有场景中全面超过了最佳的无姿态方法DBARF。在Waymo数据集的"69"场景中，GGRt的PSNR比DBARF高出多达10.3 dB。此外，与基于最新技术的基于姿态的方法如IBRNet和pixelSplat相比，GGRt也取得了非常有竞争力的结果。

还在KITTI数据集上进行实验，将GGRt与其他无姿态通用NeRF方法进行比较。如表2所示，GGRt在不专门训练KITTI数据集的情况下胜过了VideoAE、RUST和Flow-CAM。值得注意的是，当直接将Waymo训练模型应用于KITTI而不进行任何额外训练时，GGRt仍然超过了那些专门在KITTI上训练过的方法。通过在KITTI数据集上微调GGRt，观察到了更显著的改善。PSNR值达到了令人瞩目的22.59 dB，比最先进的Flow-CAM方法高出了4.9 dB的大幅度。

姿态准确性评估。 在定量和定性水平上评估了姿态估计的准确性。由于关注的是相对姿态而不是绝对姿态，因此仅与DBARF进行比较。比较结果如表3所示，在大多数场景中的旋转和平移误差更小。值得注意的是，在"Flower"和"Trex"场景中，旋转误差显著较低，从而使PSNR分别提高了2.91dB和1.52dB，从而带来了显著的重建质量改善。

7. 总结

这篇文章介绍了一种新颖的通用新视角合成方法，该方法消除了对相机姿态的需求，实现了高分辨率实时渲染，并消除了漫长的优化过程。GGRt包含联合训练的 IPO-Net 和 G-3DG 模型，以及渐进式高斯缓存模块，能够在没有先验姿态的情况下从图像观测中进行稳健的相对姿态估计和快速场景重建。GGRt采用延迟反向传播机制进行高分辨率训练和推断，克服了 GPU 内存限制。GGRt 实现了令人印象深刻的推理和实时渲染速度，优于现有的无姿态技术，并接近基于姿态的 3D-GS 方法。在多样化数据集上进行了大量实验，证实了其有效性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉课程官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

标签：Splatting,方法,Gaussian,SLAM,视觉,位姿,GGRt,姿态,3D
From： https://blog.csdn.net/weixin_46788581/article/details/137233512