首页 > 其他分享 >LSS (Lift, Splat, Shoot)论文精读

LSS (Lift, Splat, Shoot)论文精读

时间:2024-07-06 19:28:37浏览次数:23  
标签:Shoot 精读 训练 模型 视图 相机 Lift 图像 我们

图 1:我们提出了一个模型,该模型给定多视图相机数据(左侧),直接在鸟瞰视图(BEV)坐标系(右侧)中推断语义。我们展示了车辆分割(蓝色)、可行驶区域(橙色)和车道分割(绿色)。然后,这些BEV预测被投影回输入图像(左侧的点)。

论文地址:Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

源代码:LSS

摘要

        自动驾驶车辆的感知目标是从多个传感器中提取语义表示,并将这些表示融合到单一的“鸟瞰视图”坐标系中,供运动规划使用。我们提出了一种新的端到端架构,它可以直接从任意数量的相机图像数据中提取场景的鸟瞰视图表示。我们方法的核心思想是将每个图像单独“lift”到每个相机的特征锥体中,然后“splat”所有锥体到一个光栅化的鸟瞰视图网格中。通过在整个相机阵列上训练,我们提供了证据,表明我们的模型不仅能够学习如何表示图像,而且能够将所有相机的预测融合成一个单一的、凝聚的场景表示,同时对校准误差具有鲁棒性。在标准的鸟瞰视图任务,如对象分割和地图分割上,我们的模型超越了所有基线和先前的工作。为了追求学习用于运动规划的密集表示的目标,我们展示了我们的模型推断出的表示能够通过将模板轨迹“射击”到我们的网络输出的鸟瞰视图成本图中,实现可解释的端到端运动规划。我们的方法与使用来自激光雷达的预言深度的模型进行了基准测试。

1 导言

计算机视觉算法通常以图像作为输入,并输出与坐标框架无关的预测——比如在分类中[19,30,16,17]——或者输出与输入图像相同坐标框架中的预测——比如在目标检测、语义分割或全景分割中[7,1,15,36]。

图 2:(左图,来自 SegNet [1])传统上,像语义分割这样的计算机视觉任务涉及在与输入图像相同的坐标框架中进行预测。(右图,来自 Neural Motion Planner [41])相比之下,自动驾驶的规划通常在鸟瞰视图框架中进行。我们的模型直接在给定的鸟瞰视图框架中进行预测,以实现从多视图图像的端到端规划。      

        这种范式与开箱即用的自动驾驶设置不符。在自动驾驶中,输入是多个传感器,每个传感器都有不同的坐标框架,感知模型的最终任务是为下游规划器生成新坐标框架中的预测,如图2所示。

        有许多简单实用的策略可以将单图像范式扩展到多视图设置。例如,在从n个相机进行3D目标检测的问题中,可以对所有输入图像分别应用单图像检测器,然后根据检测到对象的相机的内参和外参,将每个检测结果旋转和平移到自我车框架中。将单视图范式扩展到多视图设置中包含了三个宝贵的对称性:

  1. 平移等变性——如果图像内的像素坐标全部移动,输出也会移动相同的量。全卷积单图像目标检测器大致具有这个属性,多视图扩展从它们那里继承了这个属性[11][6]。
  2. 排列不变性——最终输出不依赖于n个相机的特定顺序。
  3. 自我框架的等距变换等变性——不管捕获图像的相机相对于自我车辆的位置如何,都会检测到相同的对象。等价地表述这个属性,即自我框架的定义可以被旋转/平移,输出也会随之旋转/平移。

        上述简单方法的缺点是,使用单图像检测器的后处理检测结果阻止了从自我框架预测一直回溯到传感器输入的微分。因此,模型无法以数据驱动的方式学习跨相机融合信息的最佳方式。同时,这也意味着不能使用反向传播来自动改进感知系统,以获得来自下游规划器的反馈。

        我们提出了一个名为“Lift-Splat”的模型,它通过设计保留了上述识别的3个对称性,同时也能端到端微分。在第3节中,我们解释了我们的模型如何通过生成针对每个相机的特征锥形点云来“提升”图像到3D,并将所有锥形“涂抹”到参考平面上,以便于下游的运动规划任务。在3.3节中,我们提出了一种将提议轨迹“射击”到这个参考平面上的方法,用于可解释的端到端运动规划。在第4节中,我们确定了在完整的相机阵列上高效训练Lift-Splat模型的实现细节。我们第5节中的实证证据表明,我们的模型学习了一种有效的机制,用于从分布的可能输入中融合信息。

2 相关工作

我们的从多相机图像数据学习统一表示的方法建立在最近在传感器融合和单目目标检测方面的工作基础之上。Nutonomy[2]、Lyft[13]、Waymo[35]和Argo[3]等大规模多模态数据集的出现,使得仅依赖相机输入对整个360°场景进行完整的表示学习成为可能。我们使用我们的Lift-Splat架构探索这种可能性。

2.1 单目目标检测

单目目标检测器的定义在于它们如何对从图像平面到给定三维参考框架的转换进行建模。一种标准技术是应用成熟的二维目标检测器在图像平面上,然后训练第二个网络将二维框回归到三维框[12,26,31,27]。目前在nuScenes基准测试[31]上的最先进的3D目标检测器使用一种架构,该架构训练一个标准的二维检测器也预测深度,使用一种损失函数来分离由于错误深度和错误边界框引起误差。这些方法因为在图像平面上的检测可以消除笼罩单目深度预测的基本歧义云而在3D目标检测基准测试上取得了很好的性能。

        最近一种具有经验成功的方法是分别训练一个网络进行单目深度预测和另一个进行鸟瞰视图检测[39][40]。这些方法被称为“伪激光雷达”。伪激光雷达的直观经验成功原因是,它使得训练一个在最终评估检测的坐标系中运行的鸟瞰视图网络成为可能,相对于图像平面,欧几里得距离在这个坐标系中更有意义。

图 3: 我们可视化了我们模型的“lift”步骤。对于每个像素,我们预测一个深度上的分类分布

标签:Shoot,精读,训练,模型,视图,相机,Lift,图像,我们
From: https://blog.csdn.net/qq_45933056/article/details/140228622

相关文章

  • 清华&地平线!SparseDrive:端到端自动驾驶 论文精读
    论文地址:SparseDrive:End-to-EndAutonomousDrivingviaSparseSceneRepresentation源代码:SparseDrive摘要    传统的模块化自动驾驶系统被分解为不同的独立任务,例如感知、预测和规划,这导致了信息丢失和跨模块的误差累积。相比之下,端到端范式将多任务统一到一个......
  • 五种肉苁蓉属植物叶绿体基因组-文献精读25
    Structuralmutationsofsmallsinglecopy(SSC)regionintheplastidgenomesoffiveCistanchespeciesandinter-speciesidentification五种肉苁蓉属植物叶绿体基因组中小单拷贝(SSC)区域的结构突变及物种间鉴定摘要背景肉苁蓉属是列当科的重要属类,具有重要的......
  • LLM troubleshooting for ping lost between containers.
    问题使用dockercompose启动的容器组,容器间不能通信。 LLM问答解决使用docker-compose启动的一组应用,但是容器间网络ping不通,为啥?答当使用docker-compose启动的一组应用出现容器间网络ping不通的情况时,可能的原因和解决方法可以归纳如下:   网络配置错误:       ......
  • 文献精读_2024.06.13
    Universalandextensiblelanguage-visionmodelsfororgansegmentationandtumordetectionfromabdominalcomputedtomography来源:https://doi.org/10.1016/j.media.2024.103226GitHub仓库:https://github.com/ljwztc/CLIP-Driven-Universal-Model第一眼,仓库上面放......
  • 天才程序员周弈帆 | Stable Diffusion 解读(二):论文精读
    本文来源公众号“天才程序员周弈帆”,仅用于学术分享,侵权删,干货满满。原文链接:StableDiffusion解读(二):论文精读【小小题外话】端午安康!在上一篇文章天才程序员周弈帆|StableDiffusion解读(一):回顾早期工作-CSDN博客中,我们梳理了基于自编码器(AE)的图像生成模型的发展脉络,并......
  • 两种参与茶树O-甲基化儿茶素生物合成的O-甲基转移酶的特征分析-文献精读20
    CharacterizationoftwoO-methyltransferasesinvolvedinthebiosynthesisofO-methylatedcatechinsinteaplant两种参与茶树O-甲基化儿茶素生物合成的O-甲基转移酶的特征分析茶树三维基因组-文献精读19比较转录组分析揭示了116种山茶属(Camellia)植物的深层系统发......
  • 《基于物理一致性的全息成像自监督学习》精读笔记
    基于物理一致性的全息成像自监督学习原文链接:https://www.nature.com/articles/s42256-023-00704-7三句话评价为计算成像与显微学中的逆问题的求解提供了新的方法;根据物理一致性(也即物理规律)构造自监督损失函数,实现模型的训练;在构造合理的情况下,所述方法可以实现基于超声波......
  • 卡片笔记写作法 精读笔记 01
    熟悉不等于理解单纯的重复阅读没有任何意义,无论是对理解还是对学习都是如此。甚至,我们能不能将其称为“学习”都还值得商榷。感悟熟悉不等于掌握,看书、听书、看电影、看视频都一样,看再多都没有用,包括做项目也一样,不总结没有用,就想我之前准备考试一样,不重复做题,不可以联系,不从大......
  • [Paper Reading] LSS: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera R
    名称Lift,Splat,Shoot:EncodingImagesfromArbitraryCameraRigsbyImplicitlyUnprojectingto3D时间:20.08机构:NVIDIATL;DR后融合方法将每一目感知结果通过相机参数转换到BEV空间再后融合,LSS开启前融合的先河,将特征通过先lift再splat到BEV空间,通过BEV空间特征直接预......
  • ResNet代码精读
    classBasicBlock(nn.Module):expansion=1def__init__(self,in_channel,out_channel,stride=1,downsample=None,**kwargs):#虚线对应的downsamplesuper(BasicBlock,self).__init__()self.conv1=nn.Conv2d(in_channels=in_channel,ou......