首页 > 其他分享 >CVPR2024满分论文:基于可变形三维高斯的高质量单目动态重建方法

CVPR2024满分论文:基于可变形三维高斯的高质量单目动态重建方法

时间:2024-08-27 09:26:06浏览次数:8  
标签:场景 高斯 满分 渲染 建模 单目 CVPR2024 动态 3D

一、摘要

        隐式神经表征为动态场景的重建和渲染开辟了新的途径。然而,尖端的动态神经渲染方法严重依赖这些隐式表征,它们常常难以捕捉场景中物体的复杂细节。此外,隐式方法通常难以实现动态场景的实时渲染,限制了它们在多种任务中的应用。为了解决这些问题,我们提出了一种可变形的3D高斯喷溅法,该方法利用3D高斯在规范空间重建场景,并通过变形场来模拟单目动态场景。我们还引入了一种无额外开销的退火平滑训练机制,可以减轻不准确姿态对实际数据集中时间插值任务平滑性的影响。通过差分高斯光栅化器,可变形的3D高斯不仅实现了更高的渲染质量,还达到了实时渲染速度。实验表明,我们的方法在渲染质量和速度方面都显著优于现有方法,非常适合新视角合成、时间插值和实时渲染等任务。我们的代码可在以下链接获取:https://github.com/ingra14m/Deformable-3DGaussians

  • 项目主页:https://ingra14m.github.io/Deformable-Gaussians/

  • 论文链接:https://arxiv.org/abs/2309.13101

  • 代码:https://github.com/ingra14m/Deformable-3D-Gaussians

二、介绍

        从一组输入图像中高质量重建和真实感渲染动态场景对于增强现实/虚拟现实(AR/VR)、3D内容制作和娱乐等多种应用至关重要。过去用于建模这些动态场景的方法主要依赖于基于网格的表示,如文献[9, 14, 18, 40]中所述。然而,这些策略常常面临细节和真实感缺乏、语义信息缺失以及难以适应拓扑变化等固有局限性。随着神经渲染技术的引入,这一范式发生了显著变化。尤其是通过NeRF [28]实现的隐式场景表征,在新视角合成、场景重建和光线分解等任务中展示了令人称赞的效果。

        为了提高基于NeRF的静态场景推理效率,研究人员开发了多种加速方法,包括基于网格的结构[7, 46]和预计算策略[44, 52]。值得注意的是,通过引入哈希编码,Instant-NGP [29] 实现了快速训练。在质量提升方面,mipNeRF [2] 首创了一种有效的抗锯齿方法,后被 zipNeRF [4] 结合到基于网格的方法中。3D-GS [15]最近将基于点的渲染扩展到了具有3D高斯功能的高效CUDA实现中,这使得实时渲染成为可能,其质量甚至超过了Mip-NeRF [2]。然而,这种方法专为表征静态场景而设计,其高度定制的CUDA光栅化流水线限制了其可扩展性。

        隐式表征越来越多地被用于建模动态场景。为了处理动态场景中的运动部分,一些方法[43, 49]将NeRF条件化在时间变量上。相反,非耦合方法[23, 30, 31, 34, 39]采用变形场将场景建模在规范空间中,通过映射给定时间的点坐标到这一空间。这种解耦的建模方法可以有效表征动作变化不剧烈的场景。然而,不论是哪种分类,采用隐式表征来建模动态场景往往既不高效也不有效,表现为收敛速度慢以及极易过拟合。受到开创性NeRF加速研究的启发,许多关于动态场景建模的研究已经整合了离散结构,如体素网格[11, 38]或平面[6, 36]。这种整合提高了训练速度和建模精度。然而,挑战仍然存在。利用离散结构的技术仍然面临实时渲染速度和生成具有足够细节的高质量输出的双重约束。多个方面构成了这些挑战的基础:首先,射线投射作为一种渲染方式,特别是在提升至更高分辨率时,往往变得效率低下;其次,基于网格的方法依赖于低秩假设,与静态场景相比,动态场景显示出更高的秩,这限制了这种方法能够达到的质量上限。

        在本文中,为了解决上述挑战,我们对静态的3D-GS进行了扩展,并提出了一种可变形的3D高斯框架用于建模动态场景。为了增强模型的应用性,我们特别关注单目动态场景的建模。我们不是逐帧重建场景[26],而是将3D高斯条件化在时间上,并且联合训练一个纯隐式变形场与规范空间中的可学习3D高斯。这两个组件的梯度来源于一个定制的差分高斯光栅化流水线。此外,为了解决重建过程中由于姿态不准确引起的时间序列抖动,我们加入了一个退火平滑训练(AST)机制。这种策略不仅改善了时间插值任务中帧与帧之间的平滑性,还允许渲染更多细节。

总结来说,我们工作的主要贡献包括:

  • 一个用于建模单目动态场景的可变形3D-GS框架,能够实现实时渲染和高保真场景重建。
  • 一个新颖的退火平滑训练机制,确保时间平滑性同时保留动态细节,而不增加计算复杂性。
  • 第一个通过变形场扩展3D-GS至动态场景的框架,使得在规范空间学习3D高斯成为可能。

 

        我们方法的概述如图2所示。输入数据是一组单目动态场景的图像,附带时间标签和通过SfM [37] 校准的相应相机姿态,SfM还生成了一个稀疏点云。从这些点云中,我们创建了一组由中心位置x、不透明度σ和通过四元数r和缩放s得到的3D协方差矩阵Σ定义的3D高斯G(x, r, s, σ)。每个3D高斯的视依赖外观通过球形谐波(SH)来表示。为了模拟随时间变化的动态3D高斯,我们将3D高斯和变形场解耦。变形场以3D高斯的位置和当前时间t为输入,输出δx、δr和δs。随后,我们将变形后的3D高斯G(x + δx, r + δr, s + δs, σ)放入高效的差分高斯光栅化管道中,该管道是一个基于瓦片的光栅器,允许各向异性斑点的α混合。通过跟踪累积的α值以及对高斯密度的自适应控制,3D高斯和变形网络通过快速反向传递共同优化。实验结果表明,在30k训练迭代后,3D高斯的形状及其规范空间均已稳定,这间接证明了我们设计的有效性。

三、实验结果展示

标签:场景,高斯,满分,渲染,建模,单目,CVPR2024,动态,3D
From: https://blog.csdn.net/qq_34717531/article/details/141565561

相关文章

  • Typecho Joe 导航菜单目录以及搜索关键字回显主题优化版
    Joe是Typecho博客中一款开源免费且非常精美的主题,但是这款主题很早就停止维护了,有些功能作者并没有开发,并且在Typecho更新到1.2.1版本后还出现了一个小BUGJoe主题的知名度很高,所以在原作者停止维护后很多大佬发布过自己魔改的版本,不可否认魔改后的主题BUG基本解决,而且......
  • 如何写出满分英语作文
    1. 明确题目要求理解题目:确保你完全理解了题目要求,包括主题、字数限制和任何特定的指示。针对性写作:紧扣题目,确保所有的论点和例子都与题目相关。2. 结构清晰引言:简洁明了地介绍主题,并概述你的主要观点。主体段落:每个段落应有一个明确的主题句,支持句和具体例子。段落之......
  • YOLOV5单目测距+车辆检测+车道线检测+行人检测(教程-代码)
     YOLOv5是一种高效的目标检测算法,结合其在单目测距、车辆检测、车道线检测和行人检测等领域的应用,可以实现多个重要任务的精确识别和定位。首先,YOLOv5可以用于单目测距。通过分析图像中的目标位置和尺寸信息,结合相机参数和几何关系,可以推断出目标与相机之间的距离。这对于......
  • 计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人
     车辆跟踪及测距 该项目一个基于深度学习和目标跟踪算法的项目,主要用于实现视频中的目标检测和跟踪。该项目使用了YOLOv5目标检测算法和DeepSORT目标跟踪算法,以及一些辅助工具和库,可以帮助用户快速地在本地或者云端上实现视频目标检测和跟踪!教程博客_传送门链接-------......
  • YOLOv5改进 | 融合改进 | C3融合重写星辰网络之Rewrite the Stars⭐【CVPR2024】
     秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......
  • 2024年图像配准最新算法EfficientLoFTR(cvpr2024) 【补丁For 双鱼眼全景视频拼接】
    前言对于双鱼眼全景拼接这个项目来说,单应性矩阵是最重要的一环。单应性矩阵中它既包含了相机的内参,也包含了相机的外参。因此就算你的相机没有特别好的定位,也能通过好的单应性矩阵救回来。2024最新DNN配准算法在双鱼眼相机拼接中,特征点检测与匹配是影响单应性矩阵最......
  • YOLOv8单目标检测
    文章目录1.数据集2.模型训练3.转onnx并推理(1)输出结果解释(2)推理4.YOLOv8参数说明用于个人记录,好记性不如烂笔头其实整体训练的流程和V5差不多,只是V8不需要下载工程文件了,而是可以通过安装ultralytics,然后进行调用pipinstallultralytics1.数据集​数据集的制......
  • Depth Anything强大的单目深度估计Python与C++模型部署
    引言最近看到一个叫DepthAnything单目深度估计模型火了,于是抽空把代码和模型下载下来体验了一下,发现确实是很强大。论文链接:https://arxiv.org/pdf/2401.10891.pdf代码链接:https://github.com/LiheYoung/Depth-Anything项目主页:https://depth-anything.github.io/本......
  • 【PyTorch】单目标检测项目
    对象检测是在图像中查找特定对象位置的过程,用于处理单对象或多对象检测问题。单对象检测在给定图像中仅定位一个对象。对象的位置可以通过边界框定义。单对象检测使用四个数字预测边界框。对于正方形物体,可以固定宽度和高度,并简化问题以仅预测两个数字,例如使用两个数字来定位......
  • YOLOv8改进 | 主干网络 | ⭐重写星辰Rewrite the Stars⭐【CVPR2024】
     秋招面试专栏推荐:深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......