CV每日论文--2024.5.29

时间：2024-05-30 09:01:25浏览次数：48

标签：Reason3D MoSca 场景 2024.5 -- 语义 29 高斯分布 3D

1、GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

中文标题：GaussianFormer: 将场景作为高斯分布进行基于视觉的3D语义占有率预测

简介：3D语义占空比预测是自动驾驶等视觉系统中一个重要的任务,目的是获取周围场景的3D几何和语义信息。现有的大多数方法使用密集的体素网格来表示场景,但这忽略了场景中占空比的稀疏性和物体尺度的多样性,导致资源分配不平衡。

为解决这个问题,本文提出了一种以物体为中心的表示方法,使用稀疏的3D语义高斯分布来描述3D场景,每个高斯分布表示一个感兴趣区域及其语义特征。该方法通过注意力机制从图像中聚合信息,并迭代优化3D高斯分布的属性,包括位置、协方差和语义。然后提出了一种高效的高斯到体素的转换方法,仅聚合某位置的相邻高斯来生成3D占空比预测。

实验结果表明,该方法在nuScenes和KITTI-360数据集上的性能与最先进方法相当,但仅消耗17.8%-24.8%的内存开销。代码已开源在GitHub上,地址为https://github.com/huang-yh/GaussianFormer。

2、Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

中文标题：Reason3D: 通过大型语言模型进行3D分割的搜索和推理

简介：近期,多模态大型语言模型在各领域,特别是概念推理方面展现出了巨大潜力。然而,它们在理解3D环境方面的应用仍然有限。本文提出了一种新型的LLM模型-Reason3D,旨在实现全面的3D理解。

Reason3D接受点云数据和文本提示作为输入,生成文本响应和分割掩模输出。这有助于执行3D推理分割、分层搜索、表述引用和问题回答等高级任务,并提供详细的分割结果。

其中,Reason3D提出了一种分层掩模解码器,可以在广阔的场景中准确定位小物体。它首先生成一个粗略的位置估计,覆盖物体的大致区域,然后采用细致入微的分割策略,显著提高了物体识别和分割的准确性。

实验结果表明,Reason3D在ScanNet和Matterport3D等大规模数据集上,在3D表述引用、3D问题回答和3D推理分割任务方面都取得了出色的性能。相关代码和模型可在GitHub上获取。

3、MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

中文标题：MoSca: 通过4D运动脚手架从偶然视频中进行动态高斯融合

简介：我们提出了一种名为4D Motion Scaffolds (MoSca)的神经信息处理系统,旨在从随意拍摄的单目视频中重建和合成动态场景的新视角。为了解决这个具有挑战性和不适定的问题,我们利用来自基础视觉模型的先验知识,将视频数据提升到一种新的运动脚手架(MoSca)表示形式。这种表示形式紧凑而平滑地编码了底层的运动和变形信息。

接下来,我们从变形场中解开场景几何和外观,并通过在MoSca上锚定高斯分布,然后进行全局优化融合来编码它们。此外,在动态渲染过程中,摄像机姿态可以无需其他姿态估计工具而被自动初始化和优化。

实验表明,我们的方法在动态渲染基准测试中达到了最先进的性能水平。总的来说,这种4D Motion Scaffolds技术为从偶然视频中重建和合成动态场景提供了一种有效的解决方案。

标签：Reason3D,MoSca,场景,2024.5,--,语义,29,高斯分布,3D
From： https://blog.csdn.net/u012854516/article/details/139310762

C#去掉字符串首尾字符
以下是多种不同的实现方法来去除C#字符串的首尾字符：1、使用Substring方法：stringinput="HelloWorld!";stringoutput=input.Substring(1,input.Length-2);2、使用Remove方法：stringinput="HelloWorld!";stringoutput=input.Remove(0,1).Remove(input.Leng......
多企业AI智能名片商城系统小程序在品牌塑造与流量管理中的应用研究
摘要：在数字化浪潮中，品牌塑造与流量管理成为企业发展的重要驱动力。本文将通过具体案例，探讨多企业AI智能名片商城系统小程序在品牌塑造与流量管理中的应用，分析其在企业成功转型中的关键作用。一、引言假设有一家高端时尚品牌“悦尚”，在市场竞争日益激烈的环境下，它面临着品牌......
Android基础-Service的介绍
在Android系统中，Service是一个重要的后台组件，用于执行长时间运行的操作，而不需要提供用户界面。以下是对Service的功能、作用以及生命周期的详细介绍。Service的功能和作用后台执行：Service允许应用程序在后台执行操作，即使用户没有与应用进行直接交互。这使得Service成为处......
开源AI智能名片商城系统小程序：构建企业敏捷性与创新力的新引擎
摘要：在数字化时代，企业正面临前所未有的市场变革。客户需求日新月异，市场竞争日趋激烈。为了在这场变革中立足，企业必须寻求新的解决方案，以提升自身的敏捷性和创新力。开源AI智能名片商城系统小程序，作为一种新兴的技术工具，正以其独特的优势，助力企业迅速响应市场变化，推动产品和服......
freeglut
#include<iostream>#include<gl/glut.h>usingnamespacestd;structPoint{intx;inty;};//#defineVERTEX_COUNT5Pointpoints[VERTEX_COUNT]={103,273,516,273,184,32,308,452,......
基于企业定制开发AI智能名片S2B2C商城系统小程序的新零售闭环生态构建研究
摘要：随着新零售时代的到来，线上线下融合成为零售企业转型升级的重要方向。本文通过分析新零售闭环生态的三大基本要素——基础系统底层服务设施、实体门店和线上商城、智能设备，并结合某知名零售企业定制开发的AI智能名片S2B2C商城系统小程序案例，探讨了如何构建高效、便捷的新零......
YOLOv10全网最新创新点改进系列：融合空间信息关注机制（SimAM）于YOLOv10网络，在通道之间和
YOLOv10全网最新创新点改进系列：融合空间信息关注机制（SimAM）于YOLOv10网络，在通道之间和空间位置之间建立更加准确的关联,助力YOLOv10有效涨点！！！所有改进代码均经过实验测试跑通！此项目不低于30种改进！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，......
YOLOv10最新创新点改进系列：融合最新顶会提出的HCANet网络中卷积和注意力融合模块(CAFM
YOLOv10全网最新创新点改进系列：融合最新顶会提出的HCANet网络中卷积和注意力融合模块(CAFM)，有效提升小目标检测性能，大幅度拉升目标检测效果！遥遥领先！YOLOv10全网最新创新点改进系列：融合最新顶会提出的HCANet网络中卷积和注意力融合模块(CAFM-2024年4月开源)，有效提升小目标检......
Intel(R) Optane(TM) Memory and Storage Management Component 是一种软件组件，用于管
Intel(R)Optane(TM)MemoryandStorageManagementComponent是一种软件组件，用于管理英特尔Optane存储技术。Optane技术是英特尔推出的一种新型存储技术，利用3DXPoint存储介质，具有极高的读写速度和低延迟，可用于加速系统的启动、应用程序加载和文件传输等操作。OptaneMem......
自动驾驶学习3-摄像头（1）
1、简介车载摄像头指安装在汽车上，用于监控汽车内外环境情况以辅助汽车驾驶员行驶的摄像设备。智能驾驶的眼睛。分类：车载摄像头按安装位置的不同可分为前视、后视、环视、内视车载摄像头。前视摄像头需要进行测距功能，所以一般分辨率要求较高广角镜头：......

CV每日论文--2024.5.29

相关文章

赞助商

阅读排行