1、GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
中文标题:GaussianFormer: 将场景作为高斯分布进行基于视觉的3D语义占有率预测
简介:3D语义占空比预测是自动驾驶等视觉系统中一个重要的任务,目的是获取周围场景的3D几何和语义信息。现有的大多数方法使用密集的体素网格来表示场景,但这忽略了场景中占空比的稀疏性和物体尺度的多样性,导致资源分配不平衡。
为解决这个问题,本文提出了一种以物体为中心的表示方法,使用稀疏的3D语义高斯分布来描述3D场景,每个高斯分布表示一个感兴趣区域及其语义特征。该方法通过注意力机制从图像中聚合信息,并迭代优化3D高斯分布的属性,包括位置、协方差和语义。然后提出了一种高效的高斯到体素的转换方法,仅聚合某位置的相邻高斯来生成3D占空比预测。
实验结果表明,该方法在nuScenes和KITTI-360数据集上的性能与最先进方法相当,但仅消耗17.8%-24.8%的内存开销。代码已开源在GitHub上,地址为https://github.com/huang-yh/GaussianFormer。
2、Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model
中文标题:Reason3D: 通过大型语言模型进行3D分割的搜索和推理
简介:近期,多模态大型语言模型在各领域,特别是概念推理方面展现出了巨大潜力。然而,它们在理解3D环境方面的应用仍然有限。本文提出了一种新型的LLM模型-Reason3D,旨在实现全面的3D理解。
Reason3D接受点云数据和文本提示作为输入,生成文本响应和分割掩模输出。这有助于执行3D推理分割、分层搜索、表述引用和问题回答等高级任务,并提供详细的分割结果。
其中,Reason3D提出了一种分层掩模解码器,可以在广阔的场景中准确定位小物体。它首先生成一个粗略的位置估计,覆盖物体的大致区域,然后采用细致入微的分割策略,显著提高了物体识别和分割的准确性。
实验结果表明,Reason3D在ScanNet和Matterport3D等大规模数据集上,在3D表述引用、3D问题回答和3D推理分割任务方面都取得了出色的性能。相关代码和模型可在GitHub上获取。
3、MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds
中文标题:MoSca: 通过4D运动脚手架从偶然视频中进行动态高斯融合
简介:我们提出了一种名为4D Motion Scaffolds (MoSca)的神经信息处理系统,旨在从随意拍摄的单目视频中重建和合成动态场景的新视角。为了解决这个具有挑战性和不适定的问题,我们利用来自基础视觉模型的先验知识,将视频数据提升到一种新的运动脚手架(MoSca)表示形式。这种表示形式紧凑而平滑地编码了底层的运动和变形信息。
接下来,我们从变形场中解开场景几何和外观,并通过在MoSca上锚定高斯分布,然后进行全局优化融合来编码它们。此外,在动态渲染过程中,摄像机姿态可以无需其他姿态估计工具而被自动初始化和优化。
实验表明,我们的方法在动态渲染基准测试中达到了最先进的性能水平。总的来说,这种4D Motion Scaffolds技术为从偶然视频中重建和合成动态场景提供了一种有效的解决方案。
标签:Reason3D,MoSca,场景,2024.5,--,语义,29,高斯分布,3D From: https://blog.csdn.net/u012854516/article/details/139310762