首页 > 其他分享 >开源!首个无需相机位姿的通用3D Gaussian Splatting!

开源!首个无需相机位姿的通用3D Gaussian Splatting!

时间:2024-04-01 15:01:33浏览次数:26  
标签:Splatting 方法 Gaussian SLAM 视觉 位姿 GGRt 姿态 3D

作者:Hao Li等人|编辑:计算机视觉工坊
添加小助理:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

图片

0. 这篇文章干了啥?

NeRF和3D GS依赖相机的位姿真值,但实际场景中很难获取。并且由于使用了大量参数,难以在更高分辨率下进行重建。最后,这类方法在合成新视角时每次都需要完整地前向传播整个网络,难以实时渲染。

为了应对这些挑战,这篇文章提出了 GGRt,它将基于原始的基于图元的 3D 表示------快速和内存高效的渲染------带入到了无姿态条件下的通用新视角合成中。具体来说,我们引入了一种新颖的流水线,同时学习 IPO-Net 和 G-3DG 模型。这样的流水线可以强健地估计相对相机姿态信息,从而有效地减轻了对真实相机姿态的需求。随后,作者开发了一种延迟反向传播(DBP)机制,能够高效地进行高分辨率训练和推断,这种能力超越了现有方法的低分辨率限制。此外,还设计了一种创新的高斯缓存模块,其思想是在两个连续的训练和推断迭代中重用参考视角的相对姿态信息和图像特征。因此,高斯缓存可以在训练和推断过程中逐步增长和减小,进一步加快了两者的速度。

下面一起来阅读一下这项工作~

1. 论文信息

标题:GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time

作者:Hao Li, Yuanyuan Gao, Chenming Wu, Dingwen Zhang, Yalun Dai, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Junwei Han

机构:西北工业大学、百度、南洋理工大学

原文链接:https://arxiv.org/abs/2403.10147

代码链接:https://3d-aigc.github.io/GGRt

官方主页:https://3d-aigc.github.io/GGRt/

2. 摘要

本文介绍了一种新颖的通用可推广的新视图合成方法GGRt,该方法减轻了对真实摄像机姿态、处理高分辨率图像的复杂性和漫长的优化过程的需求,从而促进了3D高斯喷溅(3D-GS)在现实场景中的更强应用性。具体来说,我们设计了一个新颖的联合学习框架,包括一个迭代姿态优化网络(IPO-Net)和一个通用的3D高斯模型(G-3DG)。通过联合学习机制,提出的框架可以从图像观测中固有地估计出稳健的相对姿态信息,从而主要减轻了对真实摄像机姿态的要求。此外,我们实现了一种延迟反向传播机制,使得高分辨率的训练和推断成为可能,克服了以前方法的分辨率限制。为了提高速度和效率,我们进一步引入了一个渐进高斯缓存模块,在训练和推断过程中动态调整。作为第一个无姿态要求的通用可推广的3D-GS框架,GGRt实现了≥5 FPS的推断速度和≥100 FPS的实时渲染。通过广泛的实验,我们证明了我们的方法在推断速度和有效性方面优于现有的基于NeRF的无姿态技术。它还可以接近基于真实姿态的3D-GS方法。我们的贡献对将计算机视觉和计算机图形整合到实际应用中迈出了重要一步,在LLFF、KITTI和Waymo Open数据集上提供了最先进的结果,并实现了沉浸式体验的实时渲染。

3. 效果展示

GGRt是第一个无姿态限制的通用三维高斯点云投影方法,能够以超过5 FPS的速度进行推断,并提供实时渲染性能。

图片

图片

4. 主要贡献

这项工作是第一个无姿态的通用 3D GS,推理速度达到了 ≥ 5 FPS ,实时渲染速度达到了 ≥ 100 FPS。大量实验表明,该方法在推理速度和有效性方面超越了现有基于 NeRF 的无姿态方法。与基于姿态的 3D-GS 方法相比,该方法提供了更快的推断速度和竞争性的性能,即使没有相机姿态先验。

5. 具体原理是啥?

方法概述: 通过使用两个连续的训练步骤,给出了N个选定的附近图像。在第一个训练步骤中,从附近的时间r中选择参考视图,然后IPO-Net估计参考图像和目标图像之间的相对姿态T以进行3D-Gaussian预测。然后形成三个图像对,并输入到G-3DG模型中以预测Gaussians用于新视图的绘制并将其存储在Gaussians缓存中。在第二步中,由于I被上一步共同使用,直接查询其图像ID在Cache Gaussians中,并挑选相应的高斯点G_2,G_3 与新预测的G_4 用于新视图的绘制。

图片

G - 3DG模型的延迟反向传播管道(左列)和局部自注意力模块在延迟反向传播中的过程(右列)。

图片

6. 实验结果

在光场数据集LLFF和前向自动驾驶数据集Waymo Open dataset上,将GGRt与其他方法进行比较,包括需要姿态和不需要姿态的方法。如表1所示,GGRt在与其他方法相比取得了显著的性能改善。值得注意的是,GGRt在两个数据集的所有场景中全面超过了最佳的无姿态方法DBARF。在Waymo数据集的"69"场景中,GGRt的PSNR比DBARF高出多达10.3 dB。此外,与基于最新技术的基于姿态的方法如IBRNet和pixelSplat相比,GGRt也取得了非常有竞争力的结果。

图片

还在KITTI数据集上进行实验,将GGRt与其他无姿态通用NeRF方法进行比较。如表2所示,GGRt在不专门训练KITTI数据集的情况下胜过了VideoAE、RUST和Flow-CAM。值得注意的是,当直接将Waymo训练模型应用于KITTI而不进行任何额外训练时,GGRt仍然超过了那些专门在KITTI上训练过的方法。通过在KITTI数据集上微调GGRt,观察到了更显著的改善。PSNR值达到了令人瞩目的22.59 dB,比最先进的Flow-CAM方法高出了4.9 dB的大幅度。

图片

姿态准确性评估。 在定量和定性水平上评估了姿态估计的准确性。由于关注的是相对姿态而不是绝对姿态,因此仅与DBARF进行比较。比较结果如表3所示,在大多数场景中的旋转和平移误差更小。值得注意的是,在"Flower"和"Trex"场景中,旋转误差显著较低,从而使PSNR分别提高了2.91dB和1.52dB,从而带来了显著的重建质量改善。

图片

7. 总结

这篇文章介绍了一种新颖的通用新视角合成方法,该方法消除了对相机姿态的需求,实现了高分辨率实时渲染,并消除了漫长的优化过程。GGRt包含联合训练的 IPO-Net 和 G-3DG 模型,以及渐进式高斯缓存模块,能够在没有先验姿态的情况下从图像观测中进行稳健的相对姿态估计和快速场景重建。GGRt采用延迟反向传播机制进行高分辨率训练和推断,克服了 GPU 内存限制。GGRt 实现了令人印象深刻的推理和实时渲染速度,优于现有的无姿态技术,并接近基于姿态的 3D-GS 方法。在多样化数据集上进行了大量实验,证实了其有效性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

图片

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

图片

▲长按扫码加入星球

3D视觉课程官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

图片

▲长按扫码学习3D视觉精品课程

标签:Splatting,方法,Gaussian,SLAM,视觉,位姿,GGRt,姿态,3D
From: https://blog.csdn.net/weixin_46788581/article/details/137233512

相关文章

  • 单目图像加单点测距,求解目标位姿
    单目图像加单点测距,求解目标位附赠自动驾驶学习资料和量产经验:链接单目相机通过对极约束来求解相机运动的位姿。参考了ORBSLAM中单目实现的代码,这里用opencv来实现最简单的位姿估计。对极约束的概念可以参考我的这篇VisualSLAM--理解对极几何和约束19赞同·0评论文章......
  • Ubuntu22.04下Issac Gym/宇树机器人RL&gcc/g++,CUDA,CUDA ToolKit,Pytorch配置环境配
    前置条件本随笔写作Condition:在本人3050Ti笔记本上配好环境后,再在室友4060笔记本上边配边记录整理所得。室友的系统已经配好了相应驱动,因此,本随笔内容基于已经安装了NVIDIA显卡驱动的系统。下次搞到没装驱动的系统我再补一个随笔。宇树机器人宇树科技的文档中心有一个简单的安......
  • 欧拉角位姿变换
    欧拉角姿态变换姿态B相对于姿态A的变换:欧拉角为rx,ry,rz,绕Z-Y-X轴进行旋转。那么姿态A相对于姿态B的变换:欧拉角为-rx,-ry,-rz,绕X-Y-Z轴进行旋转。doublerx,ry,rz,px,py,pz;rx=10;ry=20;rz=30;px=1;py=2;pz=3;std::c......
  • Gaussian Splatting CUDA结构
    给自己记录一下,不一定对。每次去重写的时候又要忘记。1.python部分在gaussian_renderer/__init__.py里面调用cuda写的rasterization,语句为:fromdiff_gaussian_rasterizationimportGaussianRasterizationSettings,GaussianRasterizer其中GaussianRasterizationSettings定义......
  • 地形 SplattingMap 采样 HLSL Demo
    地形SplattingMap采样HLSLDemoFetchingsplattingindexTranslateitintoalocalcacheindexSampleallthepbrtexturesfromthecache使用ChatGPT写一个hlsl脚本来实现这三个步骤。这个示例假设已经有了splattingindex纹理和一组PBR(Physically-BasedR......
  • DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation解
    文章目录前言一、基本介绍二、方法原理1.DreamGaussian方法2.分数蒸馏抽样(SDS)总结前言太卷啦,太卷啦,视觉太卷啦,赶紧跑路吧~_~介绍DreamGaussian:GenerativeGaussianSplattingforEfficient3DContentCreation论文方法,解释原理,本文不是机械翻译,而是尝试讲解方......
  • 分类器——高斯混合模型/Gaussian-Mixture-Models(GMM)之图像分割
    图像分割之高斯混合模型使用GMM的步骤如下:首先,GMM由create_class_gmm创建。然后,通过add_sample_class_gmm添加训练向量,然后可以使用write_samples_class_gmm将它们写入磁盘。通过train_class_gmm确定分类器中心参数(如上定义)。此外,它们可以与write_class_gmm一起保存,以便以后......
  • 【PR】3D Gaussian Splatting for Real-Time Radiance Field Rendering
    最近开始接触基于深度学习的渲染,记录下阅读过的论文。欢迎交流。 这篇论文的主要作者来自法国Inria(国家信息与自动化研究所)。发表在ACMTransactionsonGraphics。 本文主要介绍了一种使用辐射场(RadianceFieldmethods)进行新视角合成的方法:Gaussiansplatting(也有描述说这种......
  • gaussian-splatting学习2——初步使用
    下载源码:gitclone--recurse-submoduleshttps://github.com/graphdeco-inria/gaussian-splatting.git利用conda创建虚拟环境:condacreate-ngspython=3.8切换虚拟环境:condaactivategs在gs环境下安装:pipinstalltorch==2.0.0+cu118torchvision==0.15.0+cu118torchaudio......
  • GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models
    前置知识:【EM算法深度解析-CSDNApp】http://t.csdnimg.cn/r6TXMMotivation目前的语义分割通常采用判别式分类器,然而这存在三个问题:这种方式仅仅学习了决策边界,而没有对数据分布进行建模;每个类仅学习一个向量,没有考虑到类内差异;OOD数据效果不好。生成式分类器通过对联合分布......