首页 > 其他分享 >BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation文献阅读

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation文献阅读

时间:2025-01-16 16:28:56浏览次数:3  
标签:模态 Unified Multi Task 特征 物体 BEV BEVFusion 3D

多传感器融合

最近的方法为将相机特征与激光雷达点云进行融合。

然而,相机到激光雷达的投影会丢失相机特征的语义密度,阻碍此类方法的效果,尤其是对于语义导向的任务(如3D场景分割)。

BEVFusion, 将多模态特征统一在共享的鸟瞰视图(BEV)表示空间中,同时保持了几何结构和语义密度,并支持大多数 3D 感知任务,并提出了一种带有预计算和区间约简的专用内核来消除BEV池化操作的效率瓶颈,实现了超过 40 倍的加速。

    图1:BEVFusion将摄像头和LiDAR功能统一在共享的BEV空间中,而不是将一种模式映射到另一种模式。它保留了相机的语义密度和激光雷达的几何结构。

相关研究

1. LiDAR-Based 3D Perception:

研究者们设计了单阶段3D物体检测器,这些方法提取扁平化的点云特征并在BEV空间中进行检测。另外,研究者们还探索了无锚点的单阶段3D物体检测和两阶段物体检测设计,为BEVFusion的多任务处理提供了参考。

2. Camera-Based 3D Perception:

FCOS3D扩展了图像检测器,增加了3D回归分支,为BEVFusion在相机特征的使用上提供了思路。将相机特征从透视视图转换为鸟瞰视图,能够统一BEV表示空间中融合的多模态特征。

3. Multi-Sensor Fusion:

现有的多传感器融合方法可以分为提议级和点级融合方法。早期的MV3D方法创建3D物体提议并将其投影到图像上以提取RoI特征。 近年来的研究在3D空间中定义物体查询并将图像特征融合到这些提议中,所有提议级融合方法都是以对象为中心的,也是几何为中心的。

BEVFusion所用方法

1. 模态特定编码器:首先对不同的传感器输入(如多视角摄像头和LiDAR)应用模态特定的编码器,以提取各自的特征。使得不同传感器获取的特征能够被有效地表示和处理。

2. 统一的鸟瞰视图表示:提取到的多模态特征被转换为统一的BEV表示,这样所有的传感器特征都可以轻松转换为相同元素而不会丢失信息。这种统一的表示方式使得不同任务(如检测和分割)能够在同一空间中进行处理。

3. 加速BEV池化:在视图转换过程中,BEV池化操作是效率瓶颈。通过预计算和区间缩减的方法能够加速这一过程。预计算为,预先计算每个点的三维坐标和 BEV 网格索引。根据网格索引对所有点进行排序,并记录每个点的排名,根据预先计算好的排名重新排列所有特征点。区间缩减为通过一些对称函数聚合每个BEV网格内的特征,使用专门的GPU内核,直接在BEV网格上并行化。这些方法显著提高了模型的运行速度。

    图2:Camera-to-BEV变换(a)是在统一的BEV空间中进行传感器融合的关键步骤。现有的实现非常缓慢,单个场景需要花费长达25秒的时间。我们提出了高效的BEV池(b),使用间隔约简和快速网格关联与预计算,将视图转换的速度提高了40倍(c, d)。

4. 卷积基础的BEV编码器:在统一的BEV特征上应用卷积基础的BEV编码器,以缓解不同特征之间的局部错位问题。这一步骤有助于更好地融合来自不同传感器的信息。并且这一操作仍有优化的空间。

5. 任务特定的头部:在统一的BEV特征上附加了一些任务特定的头部,以支持不同的3D任务。使用特定类别的中心热图头部来预测所有目标的中心位置,并使用几个回归头部来估计目标的大小、旋转和速度。

BEVFusion实验:

1. 三维物体检测:BEVFusion在nuScenes和Waymo基准测试上设定了新的最先进的性能,超越了所有已发布的方法。在 nuScenes 检测基准上实现了最先进的结果,在台式 GPU 上的推理速度接近实时。PointPainting和MVP相比, BEVFusion在测试集上的速度提高了 1.6 倍,MACs 减少了 1.5 倍,平均精度均值提高了3.8%。

2. BEV地图分割:BEVFusion的mIoU比仅使用相机的模型高出6%,比仅使用LiDAR的模型高出13.6%。此外,BEVFusion在计算效率上也表现出色,提供了1.9倍更低的计算成本,并且在性能上实现了1.5到1.9倍的速度提升。

   不仅如此,BEVFusion大大缩小了晴雨场景,明暗场景之间的性能差距。对于小物体大物体对仅使用LiDAR的检测器都实现了持续的改进。BEVFusion在所有稀疏性水平下始终优于MVP,减少了1.6倍的计算量,在共享的BEV空间中集成多传感器信息并不依赖于强大的激光雷达仅有的检测器。

     表1: BEVFusion在不同的光照和天气条件下都具有鲁棒性,显著提高了单模态模型在雨天(+10.7)和夜间(+12.8)场景下的性能。

    图3:在不同的激光雷达稀疏度、物体尺寸和物体距离下,BEVFusion优于最先进的单模态和多模态探测器,特别是在更具挑战性的环境下(如:稀疏点云,小/远的物体)

标签:模态,Unified,Multi,Task,特征,物体,BEV,BEVFusion,3D
From: https://blog.csdn.net/x508207460/article/details/145183240

相关文章

  • Datawhale组队学习打卡-Fun-transformer-Task1引言
    文章目录写在前面Embedding:词汇到向量空间的映射**引入Embedding的意义****1.Embedding的定义****2.高维稀疏表示的特点****3.区别****1.什么是Embedding****2.Embedding的作用****3.一些常见的Embedding方法****4.代码示例****5.一些拓展**Seq2SeqSeq2Seq......
  • 【multisim让七段显示器连续显示奇数或偶数生成与合成脉冲】2022-6-11
    缘由multisim如何让七段显示器连续显示奇数-其他-CSDN问答 脉冲延时合成极性选择......
  • Windows 可靠多播传输驱动程序(RMCAST) 是 Windows 操作系统中负责支持和管理可靠多播(Re
    CVE-2025-21307漏洞是Windows可靠多播传输驱动程序(RMCAST)中的远程代码执行漏洞。该漏洞允许未经身份验证的攻击者在受影响的系统上执行任意代码,可能导致系统被完全控制。漏洞描述:该漏洞存在于Windows可靠多播传输驱动程序(RMCAST)中。攻击者可以通过发送特制的请求......
  • Multisim使用
    一、仿真的优势:快速精确的计算二、仿真的作用:协助进行分析与设计三、电路仿真基本流程 四、仿真界面1.File新建仿真文件 打开仿真文件关闭仿真文件保存仿真文件 等2.Edit对电路图进行各种编辑3.view设置各种查看选项如放缩,对某一区域进行适配4.place放置......
  • taskset命令
    taskset是Linux系统中的一个命令,用于设置或获取进程的CPU亲和性(CPUaffinity)。CPU亲和性决定了进程可以在哪些CPU核心上运行,通常用于优化性能,避免多个进程在同一核心上竞争资源。在Android系统中,由于它是基于Linux内核的,因此taskset命令也可以使用,但需要确保......
  • Datawhale 组队学习wow-agenttask01 openai库搭建Al Agent
    Datawhale组队学习wow-agentDatawhale项目链接:https://www.datawhale.cn/learn/summary/86笔记作者:博客园-岁月月宝贝......
  • std::promise 和 std::packaged_task
    std::promise和std::packaged_task都是C++11标准库中用于管理异步操作的工具,它们都允许你通过std::future获取异步操作的结果。然而,它们在设计目的和使用场景上有显著的区别。以下是对两者的详细比较:std::promise主要用途手动设置结果:std::promise 提供了一种机制来手......
  • 矩阵链乘 Matrix Chain Multiplication
    题目链接:https://www.luogu.com.cn/problem/UVA442题意:给定若干个矩阵表达式,以及涉及到的矩阵的行与列定义矩阵相乘次数为矩阵1的行数矩阵1的列数(矩阵2的行数)矩阵2的列数计算每个表达式的矩阵相乘次数(若不满足矩阵乘法规律输出error)思路:如何存储数据以及对数据进行操作是关......
  • swoole Task用法示例
    <?php$server=newSwoole\Server('127.0.0.1',9501);$server->set(['worker_num'=>2,//worker进程数'task_worker_num'=>2,//Taskworker进程数]);$server->on('receive',function($server,$fd,$......
  • 深入探索 DeepSeek-V3 的算法创新:Multi-head Latent Attention 的实现与细节
    引言在当今的大规模语言模型(LLM)领域,随着模型参数规模的指数级增长,如何在保证性能的同时优化计算效率和内存使用成为了一个核心挑战。DeepSeek-V3模型以其创新的架构和训练策略脱颖而出,其中Multi-headLatentAttention(MLA)是其关键技术之一。MLA的引入不仅解决了传统......