多传感器融合
最近的方法为将相机特征与激光雷达点云进行融合。
然而,相机到激光雷达的投影会丢失相机特征的语义密度,阻碍此类方法的效果,尤其是对于语义导向的任务(如3D场景分割)。
BEVFusion, 将多模态特征统一在共享的鸟瞰视图(BEV)表示空间中,同时保持了几何结构和语义密度,并支持大多数 3D 感知任务,并提出了一种带有预计算和区间约简的专用内核来消除BEV池化操作的效率瓶颈,实现了超过 40 倍的加速。
图1:BEVFusion将摄像头和LiDAR功能统一在共享的BEV空间中,而不是将一种模式映射到另一种模式。它保留了相机的语义密度和激光雷达的几何结构。
相关研究
1. LiDAR-Based 3D Perception:
研究者们设计了单阶段3D物体检测器,这些方法提取扁平化的点云特征并在BEV空间中进行检测。另外,研究者们还探索了无锚点的单阶段3D物体检测和两阶段物体检测设计,为BEVFusion的多任务处理提供了参考。
2. Camera-Based 3D Perception:
FCOS3D扩展了图像检测器,增加了3D回归分支,为BEVFusion在相机特征的使用上提供了思路。将相机特征从透视视图转换为鸟瞰视图,能够统一BEV表示空间中融合的多模态特征。
3. Multi-Sensor Fusion:
现有的多传感器融合方法可以分为提议级和点级融合方法。早期的MV3D方法创建3D物体提议并将其投影到图像上以提取RoI特征。 近年来的研究在3D空间中定义物体查询并将图像特征融合到这些提议中,所有提议级融合方法都是以对象为中心的,也是几何为中心的。
BEVFusion所用方法
1. 模态特定编码器:首先对不同的传感器输入(如多视角摄像头和LiDAR)应用模态特定的编码器,以提取各自的特征。使得不同传感器获取的特征能够被有效地表示和处理。
2. 统一的鸟瞰视图表示:提取到的多模态特征被转换为统一的BEV表示,这样所有的传感器特征都可以轻松转换为相同元素而不会丢失信息。这种统一的表示方式使得不同任务(如检测和分割)能够在同一空间中进行处理。
3. 加速BEV池化:在视图转换过程中,BEV池化操作是效率瓶颈。通过预计算和区间缩减的方法能够加速这一过程。预计算为,预先计算每个点的三维坐标和 BEV 网格索引。根据网格索引对所有点进行排序,并记录每个点的排名,根据预先计算好的排名重新排列所有特征点。区间缩减为通过一些对称函数聚合每个BEV网格内的特征,使用专门的GPU内核,直接在BEV网格上并行化。这些方法显著提高了模型的运行速度。
图2:Camera-to-BEV变换(a)是在统一的BEV空间中进行传感器融合的关键步骤。现有的实现非常缓慢,单个场景需要花费长达25秒的时间。我们提出了高效的BEV池(b),使用间隔约简和快速网格关联与预计算,将视图转换的速度提高了40倍(c, d)。
4. 卷积基础的BEV编码器:在统一的BEV特征上应用卷积基础的BEV编码器,以缓解不同特征之间的局部错位问题。这一步骤有助于更好地融合来自不同传感器的信息。并且这一操作仍有优化的空间。
5. 任务特定的头部:在统一的BEV特征上附加了一些任务特定的头部,以支持不同的3D任务。使用特定类别的中心热图头部来预测所有目标的中心位置,并使用几个回归头部来估计目标的大小、旋转和速度。
BEVFusion实验:
1. 三维物体检测:BEVFusion在nuScenes和Waymo基准测试上设定了新的最先进的性能,超越了所有已发布的方法。在 nuScenes 检测基准上实现了最先进的结果,在台式 GPU 上的推理速度接近实时。PointPainting和MVP相比, BEVFusion在测试集上的速度提高了 1.6 倍,MACs 减少了 1.5 倍,平均精度均值提高了3.8%。
2. BEV地图分割:BEVFusion的mIoU比仅使用相机的模型高出6%,比仅使用LiDAR的模型高出13.6%。此外,BEVFusion在计算效率上也表现出色,提供了1.9倍更低的计算成本,并且在性能上实现了1.5到1.9倍的速度提升。
不仅如此,BEVFusion大大缩小了晴雨场景,明暗场景之间的性能差距。对于小物体大物体对仅使用LiDAR的检测器都实现了持续的改进。BEVFusion在所有稀疏性水平下始终优于MVP,减少了1.6倍的计算量,在共享的BEV空间中集成多传感器信息并不依赖于强大的激光雷达仅有的检测器。
表1: BEVFusion在不同的光照和天气条件下都具有鲁棒性,显著提高了单模态模型在雨天(+10.7)和夜间(+12.8)场景下的性能。
图3:在不同的激光雷达稀疏度、物体尺寸和物体距离下,BEVFusion优于最先进的单模态和多模态探测器,特别是在更具挑战性的环境下(如:稀疏点云,小/远的物体)
标签:模态,Unified,Multi,Task,特征,物体,BEV,BEVFusion,3D From: https://blog.csdn.net/x508207460/article/details/145183240