论文地址:SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
源代码:SparseDrive
摘要
传统的模块化自动驾驶系统被分解为不同的独立任务,例如感知、预测和规划,这导致了信息丢失和跨模块的误差累积。相比之下,端到端范式将多任务统一到一个完全可微分的框架中,允许以规划为导向进行优化。尽管端到端范式潜力巨大,但现有方法在性能和效率方面并不令人满意,特别是在规划安全性方面。我们认为这是由于计算成本高昂的 BEV(鸟瞰图)特征和直接的预测与规划设计。为此,我们探索了稀疏表示并回顾了端到端自动驾驶的任务设计,提出了一种名为 SparseDrive 的新范式。具体来说,SparseDrive 包括一个对称的稀疏感知模块和一个并行运动规划器。稀疏感知模块通过对称的模型架构统一了检测、跟踪和在线地图构建,学习驾驶场景的完全稀疏表示。对于运动预测和规划,我们回顾了这两个任务之间的相似性,导致运动规划器的并行设计。基于这种并行设计,将规划建模为多模态问题,我们提出了一种分层规划选择策略,其中包括一个避免碰撞的重新评分模块,以选择合理且安全的轨迹作为最终规划输出。通过这些有效的设计,SparseDrive 在所有任务的性能上都大大超越了以前的最先进方法,同时实现了更高的训练和推理效率
1 导言
传统的自动驾驶系统以顺序的模块化任务为特点。虽然这在解释和错误追踪方面有优势,但它不可避免地导致信息丢失和跨连续模块的累积错误,从而限制了系统的最佳性能潜力。
最近,端到端驾驶范式作为一项有前景的研究方向出现了。这种范式将所有任务集成到一个整体模型中,并且可以针对最终的规划追求进行优化。然而,现有方法在性能和效率方面并不令人满意。一方面,先前的方法依赖于计算成本高昂的 BEV(鸟瞰图)特征。另一方面,预测和规划的直接设计限制了模型性能。我们将先前的方法总结为图 1a 中的 BEV-Centric 范式。
图 1: 各种端到端范式的比较。(a) BEV中心范式。(b) 提出的稀疏中心范式。(c) 我们的方法与之前最先进方法[15]的性能和效率比较。
为了充分利用端到端范式的潜力,我们回顾了现有方法的任务设计,并认为三个主要的相似点在运动预测和规划之间被忽视了:(1) 旨在预测周围代理和自我车辆的未来轨迹,运动预测和规划都应该考虑道路代理之间高阶和双向的交互作用。然而,先前的方法通常采用顺序设计进行运动预测和规划,忽略了自车对周围代理的影响。(2) 准确的预测未来轨迹需要场景理解的语义信息和预测代理未来运动的几何信息,这适用于运动预测和规划。虽然这些信息在上游感知任务中为周围代理提取,但对于自车却被忽视了。(3) 运动预测和规划都是具有固有不确定性的多模态问题,但先前的方法只预测规划的确定性轨迹。
为此,我们提出了 SparseDrive,一个如图 1b 所示的 Sparse-Centric 范式。具体来说,SparseDrive 由一个对称的稀疏感知模块和一个并行运动规划器组成。通过解耦的实例特征和几何锚点作为实例(动态道路代理或静态地图元素)的完整表示,对称稀疏感知通过对称的模型架构统一了检测、跟踪和在线地图构建任务,学习驾驶场景的完全稀疏表示。在并行运动规划器中,首先从自我实例初始化模块获得语义和几何感知的自我实例。有了自我实例和来自稀疏感知的周围代理实例,运动预测和规划将同时进行,为所有道路代理获得多模态轨迹。为确保规划的合理性和安全性,应用了一个分层规划选择策略,其中包括一个避免碰撞的重新评分模块,以从多模态轨迹建议中选择最终规划轨迹。
通过上述有效的设计,SparseDrive 释放了端到端自动驾驶的巨大潜力,如图 1c 所示。没有花哨的装饰,我们的基线模型 SparseDrive-B 大幅降低了平均 L2 误差 19.4%(0.58 米 vs. 0.72 米)和碰撞率 71.4%(0.06% vs. 0.21%)。与以前的最先进方法 UniAD[15] 相比,我们的小型模型 SparseDrive-S 在所有任务中都取得了更优越的性能,同时训练速度提高了 7.2 倍(20 小时 vs. 144 小时),推理速度提高了 5.0 倍(9.0 FPS vs. 1.8 FPS)。
主要贡献总结如下:
-
我们探索了端到端自动驾驶的稀疏场景表示,并提出了一个名为 SparseDrive 的 Sparse-Centric 新范式,它通过稀疏实例表示统一了多个任务。
-
我们重新审视了运动预测和规划之间的相似性,相应地提出了运动规划器的并行设计。我们进一步提出了一个包含避免碰撞的重分模块的分层规划选择策略,以提升规划性能。
-
在具有挑战性的 nuScenes[1] 基准测试中,SparseDrive 在所有指标上都超越了先前的最先进方法,尤其是在安全性关键指标碰撞率方面,同时保持了更高的训练和推理效率。
2 相关工作
2.1 多视图3D检测
多视图3D检测是自动驾驶系统安全性的先决条件。LSS[42]利用深度估计将图像特征提升到3D空间,并将特征喷涂到BEV(鸟瞰图)平面。后续工作将提升-喷涂操作应用于3D检测领域,并在准确性[18, 16, 25, 24]和效率[37, 17]方面取得了显著改进。一些工作[26, 48, 21, 5]预定义了一组BEV查询,并将它们投影到透视图进行特征采样。另一系列研究消除了对密集BEV特征的依赖。PETR系列[35, 36, 47]引入了3D位置编码和全局注意力来隐式学习视角转换。Sparse4D系列[31, 32, 33]在3D空间中设置显式锚点,将它们投影到图像视图以聚合局部特征,并以迭代方式细化锚点。
2.2 端到端跟踪
大多数多目标跟踪(MOT)方法采用基于检测的跟踪方式,这依赖于数据关联等后处理。这样的流水线不能充分利用神经网络的能力。受到[2]中对象查询的启发,一些工作[52, 55, 50, 41, 46, 54]引入了轨迹查询来以流式方式建模跟踪实例。MOTR[52]提出了轨迹感知标签分配,这迫使轨迹查询持续检测同一目标,并遭受检测和关联之间的冲突[55, 50]。Sparse4Dv3展示了时间传播的实例已经具有身份一致性,并以简单的ID分配过程实现了最先进的跟踪性能。
2.3 在线地图构建
在线地图构建被提出作为高清地图的替代方案,因为高清地图构建的成本高昂且需要大量的人力。HDMapNet[23]将BEV语义分割与后处理结合起来,以获得矢量化地图实例。VectorMapNet[34]利用两阶段自回归transformer进行在线地图构建。MapTR[29]将地图元素建模为等价排列的点集,避免了地图元素定义的歧义。BeMapNet采用分段贝塞尔曲线描述地图元素的细节。StreamMapNet[51]引入了BEV融合和查询传播,用于时间建模。
2.4 端到端运动预测
端到端运动预测被提出以避免传统流水线中的级联错误。FaF[40]采用单一卷积网络来预测当前和未来的边界框。IntentNet[3]更进一步,推理高水平的行为和长期轨迹。PnPNet[28]引入了在线跟踪模块,以聚合轨迹级特征进行运动预测。ViP3D[10]采用代理查询执行跟踪和预测,以图像和高清地图作为输入。PIP[19]用局部矢量化地图替换了人工注释的高清地图。
2.5 端到端规划
端到端规划的研究自上个世纪以来一直在进行[43]。早期的工作[6, 7, 44]省略了像感知和运动预测这样的中间任务,这缺乏可解释性并且难以优化。一些工作[14, 4, 45, 8]从感知或预测结果构建了显式的代价图,以增强可解释性,但依赖手工制定的规则以最小的代价选择最佳轨迹。最近,UniAD[15]提出了统一查询设计,将各种任务整合到目标导向的模型中,在感知、预测和规划方面取得了显著的性能。VAD[20]采用矢量化表示进行场景学习和规划约束。GraphAD[56]利用图模型处理交通场景中的复杂交互。FusionAD[49]将端到端驾驶扩展到多传感器输入。然而,先前的方法主要关注场景学习,并采用直接的预测和规划设计,没有充分考虑这两个任务之间的相似性,大大限制了性能。
图 2: SparseDrive的概览。SparseDrive首先将多视图图像编码成特征图,然后通过对称稀疏感知学习稀疏场景表示,最后以并行方式执行运动预测和规划。设计了一个实例记忆队列用于时间建模。
3 方法
3.1 概述
SparseDrive的总体框架如图2所示。具体来说,SparseDrive由三部分组成:图像编码器、对称稀疏感知和并行运动规划器。给定多视图图像,图像编码器(包括主干网络和颈部网络)首先将图像编码为多视图多尺度特征图
标签:精读,预测,实例,SparseDrive,感知,规划,自车,端到 From: https://blog.csdn.net/qq_45933056/article/details/140187152