论文地址:Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D
源代码:LSS
摘要
自动驾驶车辆的感知目标是从多个传感器中提取语义表示,并将这些表示融合到单一的“鸟瞰视图”坐标系中,供运动规划使用。我们提出了一种新的端到端架构,它可以直接从任意数量的相机图像数据中提取场景的鸟瞰视图表示。我们方法的核心思想是将每个图像单独“lift”到每个相机的特征锥体中,然后“splat”所有锥体到一个光栅化的鸟瞰视图网格中。通过在整个相机阵列上训练,我们提供了证据,表明我们的模型不仅能够学习如何表示图像,而且能够将所有相机的预测融合成一个单一的、凝聚的场景表示,同时对校准误差具有鲁棒性。在标准的鸟瞰视图任务,如对象分割和地图分割上,我们的模型超越了所有基线和先前的工作。为了追求学习用于运动规划的密集表示的目标,我们展示了我们的模型推断出的表示能够通过将模板轨迹“射击”到我们的网络输出的鸟瞰视图成本图中,实现可解释的端到端运动规划。我们的方法与使用来自激光雷达的预言深度的模型进行了基准测试。
1 导言
计算机视觉算法通常以图像作为输入,并输出与坐标框架无关的预测——比如在分类中[19,30,16,17]——或者输出与输入图像相同坐标框架中的预测——比如在目标检测、语义分割或全景分割中[7,1,15,36]。
这种范式与开箱即用的自动驾驶设置不符。在自动驾驶中,输入是多个传感器,每个传感器都有不同的坐标框架,感知模型的最终任务是为下游规划器生成新坐标框架中的预测,如图2所示。
有许多简单实用的策略可以将单图像范式扩展到多视图设置。例如,在从n个相机进行3D目标检测的问题中,可以对所有输入图像分别应用单图像检测器,然后根据检测到对象的相机的内参和外参,将每个检测结果旋转和平移到自我车框架中。将单视图范式扩展到多视图设置中包含了三个宝贵的对称性:
- 平移等变性——如果图像内的像素坐标全部移动,输出也会移动相同的量。全卷积单图像目标检测器大致具有这个属性,多视图扩展从它们那里继承了这个属性[11][6]。
- 排列不变性——最终输出不依赖于n个相机的特定顺序。
- 自我框架的等距变换等变性——不管捕获图像的相机相对于自我车辆的位置如何,都会检测到相同的对象。等价地表述这个属性,即自我框架的定义可以被旋转/平移,输出也会随之旋转/平移。
上述简单方法的缺点是,使用单图像检测器的后处理检测结果阻止了从自我框架预测一直回溯到传感器输入的微分。因此,模型无法以数据驱动的方式学习跨相机融合信息的最佳方式。同时,这也意味着不能使用反向传播来自动改进感知系统,以获得来自下游规划器的反馈。
我们提出了一个名为“Lift-Splat”的模型,它通过设计保留了上述识别的3个对称性,同时也能端到端微分。在第3节中,我们解释了我们的模型如何通过生成针对每个相机的特征锥形点云来“提升”图像到3D,并将所有锥形“涂抹”到参考平面上,以便于下游的运动规划任务。在3.3节中,我们提出了一种将提议轨迹“射击”到这个参考平面上的方法,用于可解释的端到端运动规划。在第4节中,我们确定了在完整的相机阵列上高效训练Lift-Splat模型的实现细节。我们第5节中的实证证据表明,我们的模型学习了一种有效的机制,用于从分布的可能输入中融合信息。
2 相关工作
我们的从多相机图像数据学习统一表示的方法建立在最近在传感器融合和单目目标检测方面的工作基础之上。Nutonomy[2]、Lyft[13]、Waymo[35]和Argo[3]等大规模多模态数据集的出现,使得仅依赖相机输入对整个360°场景进行完整的表示学习成为可能。我们使用我们的Lift-Splat架构探索这种可能性。
2.1 单目目标检测
单目目标检测器的定义在于它们如何对从图像平面到给定三维参考框架的转换进行建模。一种标准技术是应用成熟的二维目标检测器在图像平面上,然后训练第二个网络将二维框回归到三维框[12,26,31,27]。目前在nuScenes基准测试[31]上的最先进的3D目标检测器使用一种架构,该架构训练一个标准的二维检测器也预测深度,使用一种损失函数来分离由于错误深度和错误边界框引起误差。这些方法因为在图像平面上的检测可以消除笼罩单目深度预测的基本歧义云而在3D目标检测基准测试上取得了很好的性能。
最近一种具有经验成功的方法是分别训练一个网络进行单目深度预测和另一个进行鸟瞰视图检测[39][40]。这些方法被称为“伪激光雷达”。伪激光雷达的直观经验成功原因是,它使得训练一个在最终评估检测的坐标系中运行的鸟瞰视图网络成为可能,相对于图像平面,欧几里得距离在这个坐标系中更有意义。