首页 > 其他分享 >清华&地平线!SparseDrive:端到端自动驾驶 论文精读

清华&地平线!SparseDrive:端到端自动驾驶 论文精读

时间:2024-07-06 19:28:25浏览次数:13  
标签:精读 预测 实例 SparseDrive 感知 规划 自车 端到

论文地址:SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

源代码:SparseDrive

摘要

       传统的模块化自动驾驶系统被分解为不同的独立任务,例如感知、预测和规划,这导致了信息丢失和跨模块的误差累积。相比之下,端到端范式将多任务统一到一个完全可微分的框架中,允许以规划为导向进行优化。尽管端到端范式潜力巨大,但现有方法在性能和效率方面并不令人满意,特别是在规划安全性方面。我们认为这是由于计算成本高昂的 BEV(鸟瞰图)特征和直接的预测与规划设计。为此,我们探索了稀疏表示并回顾了端到端自动驾驶的任务设计,提出了一种名为 SparseDrive 的新范式。具体来说,SparseDrive 包括一个对称的稀疏感知模块和一个并行运动规划器。稀疏感知模块通过对称的模型架构统一了检测、跟踪和在线地图构建,学习驾驶场景的完全稀疏表示。对于运动预测和规划,我们回顾了这两个任务之间的相似性,导致运动规划器的并行设计。基于这种并行设计,将规划建模为多模态问题,我们提出了一种分层规划选择策略,其中包括一个避免碰撞的重新评分模块,以选择合理且安全的轨迹作为最终规划输出。通过这些有效的设计,SparseDrive 在所有任务的性能上都大大超越了以前的最先进方法,同时实现了更高的训练和推理效率

1 导言

       传统的自动驾驶系统以顺序的模块化任务为特点。虽然这在解释和错误追踪方面有优势,但它不可避免地导致信息丢失和跨连续模块的累积错误,从而限制了系统的最佳性能潜力。

       最近,端到端驾驶范式作为一项有前景的研究方向出现了。这种范式将所有任务集成到一个整体模型中,并且可以针对最终的规划追求进行优化。然而,现有方法在性能和效率方面并不令人满意。一方面,先前的方法依赖于计算成本高昂的 BEV(鸟瞰图)特征。另一方面,预测和规划的直接设计限制了模型性能。我们将先前的方法总结为图 1a 中的 BEV-Centric 范式。   

图 1: 各种端到端范式的比较。(a) BEV中心范式。(b) 提出的稀疏中心范式。(c) 我们的方法与之前最先进方法[15]的性能和效率比较。

        为了充分利用端到端范式的潜力,我们回顾了现有方法的任务设计,并认为三个主要的相似点在运动预测和规划之间被忽视了:(1) 旨在预测周围代理和自我车辆的未来轨迹,运动预测和规划都应该考虑道路代理之间高阶和双向的交互作用。然而,先前的方法通常采用顺序设计进行运动预测和规划,忽略了自车对周围代理的影响。(2) 准确的预测未来轨迹需要场景理解的语义信息和预测代理未来运动的几何信息,这适用于运动预测和规划。虽然这些信息在上游感知任务中为周围代理提取,但对于自车却被忽视了。(3) 运动预测和规划都是具有固有不确定性的多模态问题,但先前的方法只预测规划的确定性轨迹。

       为此,我们提出了 SparseDrive,一个如图 1b 所示的 Sparse-Centric 范式。具体来说,SparseDrive 由一个对称的稀疏感知模块和一个并行运动规划器组成。通过解耦的实例特征和几何锚点作为实例(动态道路代理或静态地图元素)的完整表示,对称稀疏感知通过对称的模型架构统一了检测、跟踪和在线地图构建任务,学习驾驶场景的完全稀疏表示。在并行运动规划器中,首先从自我实例初始化模块获得语义和几何感知的自我实例。有了自我实例和来自稀疏感知的周围代理实例,运动预测和规划将同时进行,为所有道路代理获得多模态轨迹。为确保规划的合理性和安全性,应用了一个分层规划选择策略,其中包括一个避免碰撞的重新评分模块,以从多模态轨迹建议中选择最终规划轨迹。

       通过上述有效的设计,SparseDrive 释放了端到端自动驾驶的巨大潜力,如图 1c 所示。没有花哨的装饰,我们的基线模型 SparseDrive-B 大幅降低了平均 L2 误差 19.4%(0.58 米 vs. 0.72 米)和碰撞率 71.4%(0.06% vs. 0.21%)。与以前的最先进方法 UniAD[15] 相比,我们的小型模型 SparseDrive-S 在所有任务中都取得了更优越的性能,同时训练速度提高了 7.2 倍(20 小时 vs. 144 小时),推理速度提高了 5.0 倍(9.0 FPS vs. 1.8 FPS)。

主要贡献总结如下:

  • 我们探索了端到端自动驾驶的稀疏场景表示,并提出了一个名为 SparseDrive 的 Sparse-Centric 新范式,它通过稀疏实例表示统一了多个任务。

  • 我们重新审视了运动预测和规划之间的相似性,相应地提出了运动规划器的并行设计。我们进一步提出了一个包含避免碰撞的重分模块的分层规划选择策略,以提升规划性能。

  • 在具有挑战性的 nuScenes[1] 基准测试中,SparseDrive 在所有指标上都超越了先前的最先进方法,尤其是在安全性关键指标碰撞率方面,同时保持了更高的训练和推理效率。

2 相关工作

2.1 多视图3D检测   

       多视图3D检测是自动驾驶系统安全性的先决条件。LSS[42]利用深度估计将图像特征提升到3D空间,并将特征喷涂到BEV(鸟瞰图)平面。后续工作将提升-喷涂操作应用于3D检测领域,并在准确性[18, 16, 25, 24]和效率[37, 17]方面取得了显著改进。一些工作[26, 48, 21, 5]预定义了一组BEV查询,并将它们投影到透视图进行特征采样。另一系列研究消除了对密集BEV特征的依赖。PETR系列[35, 36, 47]引入了3D位置编码和全局注意力来隐式学习视角转换。Sparse4D系列[31, 32, 33]在3D空间中设置显式锚点,将它们投影到图像视图以聚合局部特征,并以迭代方式细化锚点。

2.2 端到端跟踪

        大多数多目标跟踪(MOT)方法采用基于检测的跟踪方式,这依赖于数据关联等后处理。这样的流水线不能充分利用神经网络的能力。受到[2]中对象查询的启发,一些工作[52, 55, 50, 41, 46, 54]引入了轨迹查询来以流式方式建模跟踪实例。MOTR[52]提出了轨迹感知标签分配,这迫使轨迹查询持续检测同一目标,并遭受检测和关联之间的冲突[55, 50]。Sparse4Dv3展示了时间传播的实例已经具有身份一致性,并以简单的ID分配过程实现了最先进的跟踪性能。

2.3 在线地图构建 

       在线地图构建被提出作为高清地图的替代方案,因为高清地图构建的成本高昂且需要大量的人力。HDMapNet[23]将BEV语义分割与后处理结合起来,以获得矢量化地图实例。VectorMapNet[34]利用两阶段自回归transformer进行在线地图构建。MapTR[29]将地图元素建模为等价排列的点集,避免了地图元素定义的歧义。BeMapNet采用分段贝塞尔曲线描述地图元素的细节。StreamMapNet[51]引入了BEV融合和查询传播,用于时间建模。

2.4 端到端运动预测 

       端到端运动预测被提出以避免传统流水线中的级联错误。FaF[40]采用单一卷积网络来预测当前和未来的边界框。IntentNet[3]更进一步,推理高水平的行为和长期轨迹。PnPNet[28]引入了在线跟踪模块,以聚合轨迹级特征进行运动预测。ViP3D[10]采用代理查询执行跟踪和预测,以图像和高清地图作为输入。PIP[19]用局部矢量化地图替换了人工注释的高清地图。

2.5 端到端规划 

        端到端规划的研究自上个世纪以来一直在进行[43]。早期的工作[6, 7, 44]省略了像感知和运动预测这样的中间任务,这缺乏可解释性并且难以优化。一些工作[14, 4, 45, 8]从感知或预测结果构建了显式的代价图,以增强可解释性,但依赖手工制定的规则以最小的代价选择最佳轨迹。最近,UniAD[15]提出了统一查询设计,将各种任务整合到目标导向的模型中,在感知、预测和规划方面取得了显著的性能。VAD[20]采用矢量化表示进行场景学习和规划约束。GraphAD[56]利用图模型处理交通场景中的复杂交互。FusionAD[49]将端到端驾驶扩展到多传感器输入。然而,先前的方法主要关注场景学习,并采用直接的预测和规划设计,没有充分考虑这两个任务之间的相似性,大大限制了性能。

图 2: SparseDrive的概览。SparseDrive首先将多视图图像编码成特征图,然后通过对称稀疏感知学习稀疏场景表示,最后以并行方式执行运动预测和规划。设计了一个实例记忆队列用于时间建模。

3 方法

3.1 概述

SparseDrive的总体框架如图2所示。具体来说,SparseDrive由三部分组成:图像编码器、对称稀疏感知和并行运动规划器。给定多视图图像,图像编码器(包括主干网络和颈部网络)首先将图像编码为多视图多尺度特征图

标签:精读,预测,实例,SparseDrive,感知,规划,自车,端到
From: https://blog.csdn.net/qq_45933056/article/details/140187152

相关文章

  • TPAMI 2024 | MixFormer: 基于迭代混合注意力的端到端跟踪
    题目:MixFormer:End-to-EndTrackingWithIterativeMixedAttentionMixFormer:基于迭代混合注意力的端到端跟踪作者:Y.Cui;C.Jiang;G.Wu;L.Wang摘要视觉目标跟踪通常采用多阶段流水线,包括特征提取、目标信息集成和边界框估计。为了简化这一流程并统一特征提......
  • 深度学习领域的名词解释:SOTA、端到端模型、泛化、RLHF、涌现 ..
    SOTA(State-of-the-Art)在深度学习领域,SOTA指的是“当前最高技术水平”或“最佳实践”。它用来形容在特定任务或领域中性能最优的模型或方法。随着研究进展,SOTA会不断被新的研究成果所超越。 非端到端模型非端到端模型指的是模型架构中包含多个分离的组件或步骤,每个......
  • 五种肉苁蓉属植物叶绿体基因组-文献精读25
    Structuralmutationsofsmallsinglecopy(SSC)regionintheplastidgenomesoffiveCistanchespeciesandinter-speciesidentification五种肉苁蓉属植物叶绿体基因组中小单拷贝(SSC)区域的结构突变及物种间鉴定摘要背景肉苁蓉属是列当科的重要属类,具有重要的......
  • 七、若依--P17--P18【黑马程序员Java最新AI+若依框架项目开发新方案视频教程,基于RuoYi
    学习视频【黑马程序员Java最新AI+若依框架项目开发新方案视频教程,基于RuoYi-Vue3前后端分离版本,从前端到后端再到AI智能化应用全通关】https://www.bilibili.com/video/BV1pf421B71v/?p=6&share_source=copy_web&vd_source=3949d51b57b2891ea14d6e51c792bef6二次开发P17:新......
  • 一、若依--P2--P5【黑马程序员Java最新AI+若依框架项目开发新方案视频教程,基于RuoYi-V
    学习视频【黑马程序员Java最新AI+若依框架项目开发新方案视频教程,基于RuoYi-Vue3前后端分离版本,从前端到后端再到AI智能化应用全通关】https://www.bilibili.com/video/BV1pf421B71v/?p=6&share_source=copy_web&vd_source=3949d51b57b2891ea14d6e51c792bef6P2:前端框架搭......
  • AI从云端到边缘:人员入侵检测算法的技术原理和视频监控方案应用
    在当今数字化、智能化的时代,安全已成为社会发展的重要基石。特别是在一些关键领域,如公共安全、智能化监管以及智慧园区/社区管理等,确保安全无虞至关重要。而人员入侵检测AI算法作为一种先进的安全技术,正逐渐在这些领域发挥着不可替代的作用。传统的人工监控方式往往难以做到全天......
  • 文献精读_2024.06.13
    Universalandextensiblelanguage-visionmodelsfororgansegmentationandtumordetectionfromabdominalcomputedtomography来源:https://doi.org/10.1016/j.media.2024.103226GitHub仓库:https://github.com/ljwztc/CLIP-Driven-Universal-Model第一眼,仓库上面放......
  • 天才程序员周弈帆 | Stable Diffusion 解读(二):论文精读
    本文来源公众号“天才程序员周弈帆”,仅用于学术分享,侵权删,干货满满。原文链接:StableDiffusion解读(二):论文精读【小小题外话】端午安康!在上一篇文章天才程序员周弈帆|StableDiffusion解读(一):回顾早期工作-CSDN博客中,我们梳理了基于自编码器(AE)的图像生成模型的发展脉络,并......
  • AI论文速读 | 2024[KDD]GinAR—变量缺失端到端多元时序预测
    题目:GinAR:AnEnd-To-EndMultivariateTimeSeriesForecastingModelSuitableforVariableMissing作者:ChengqingYu(余澄庆),FeiWang(王飞),ZezhiShao(邵泽志),TangwenQian,ZhaoZhang,WeiWei(魏巍),YongjunXu(徐勇军)机构:中科院计算所,华中科技大学arXiv网址:https......
  • 从云端到终端:青犀视频汇聚/融合平台的视频接入方式与场景应用
    一、青犀视频汇聚/融合平台由TSINGSEE青犀视频研发的EasyCVR智能融合/视频汇聚平台基于“云-边-端”一体化架构,支持视频汇聚、融合管理,兼容多协议(GA/T1400/GB28181/Onvif/RTSP/RTMP/海康SDK/Ehome/大华SDK/宇视SDK等)、多类型设备(IPC/NVR/监控平台)的接入。可通过接入AI智能分析......