自动驾驶感知中BEV的景物表示方法

标签：场景 layout 景物语义 MonoLayout 图像感知 BEV 鸟瞰图

自动驾驶感知中BEV的景物表示方法

附赠自动驾驶最全的学习资料和量产经验：链接

1 Learning to Look around Objects for Top-View Representations of Outdoor Scenes，arXiv 1803.10870

本文在鸟瞰图中估计遮挡情况下的语义场景layout。这个具有挑战性的问题不仅需要对3D几何形状和可见场景语义有准确的了解，而且对遮挡区域进行准确的理解。本文提出一个卷积神经网络，通过周围前景目标（例如汽车或行人）学习预测场景layout中的遮挡部分。其实，与其用RGB颜色信息、不如说直接预测被遮挡区域的语义和深度，可以更好地转换为鸟瞰图。作者通过从模拟或可以有的地图数据中学习有关典型道路layout的先验知识和规则，可以大大增强初始鸟瞰图表示。其直观表示如图所示：

如下图展示的是：inpainting CNN首先对掩码图像和掩码本身进行编码。所提取的特征级联起来，有两个解码器分别预测可见/遮挡像素的语义和深度。

如下图介绍：要训练inpainting CNN，直接忽略前景目标，因为没有可用的真值（红色），但在已有完整注释的背景区域可人工添加掩码（绿色）。

如下图示意的是：将具有相应深度的语义分割映射到3D点云，然后转换到鸟瞰图的过程。红色和蓝色圆圈表示三个视图的对应位置。

如下图介绍：（a）在俯视图中的模拟道路形状。（b）改进CNN是一个编码器-解码器网络，它接收三个监督信号：用输入进行自我重建、来自模拟数据的对抗性损失以及对齐OpenStreetMap（OSM）数据的重建性损失。（c）校准CNN将初始BEV地图和一系列OSM数据（通过噪声干扰的GPS和给定的摆动估计）作为输入。 CNN会预测OSM图的warp，并训练使初始BEV图的重建损失降至最低。

如下图是：（a）使用相似变换（左，“box”）和非参数warp（右，“flow”）组合来将含噪OSM与图像对齐。（b，顶部）输入图像和相应的初始俯视图。（b，底部）在OSM图上覆盖的最终warping网格和4种不同warping函数的结果分别为：“ box”，“ flow”，“ box + flow”，“ box + flow（带正则化）”。注意转换和正则化组成在一起的重要性。

如下图是BEV的表示例子结果：

2 Monocular Semantic Occupancy Grid Mapping with Convolutional Variational Enc-Dec Networks，arXiv 1804.02176

这项工作是基于弱双目真值对单目语义度量占用网格映射（semantic-metric occupancy grid mapping ）做端到端学习。该网络学会预测四个类别（road/terrain/sidewalk/non-free space），以及一个摄像机到鸟瞰图的映射。它的核心是利用变分编码器/解码器网络（variational encoder-decoder network，VED），该网络对驾驶场景的前视视觉信息进行编码，然后解码为2D顶视直角坐标系。其采用的嵌入矢量较小的变化采样具有对车辆动态扰动的鲁棒性，以及针对未见KITTI数据的泛化性。

如下图是可变编码器-解码器方法的说明：从单个前视图RGB图像中，系统可以预测2-D顶视图语义度量占用网格图。

如下图是一些不同方法在测试集得到的映射图例子：

实验结果方法比较如下：

3 Cross-view Semantic Segmentation for Sensing Surroundings，arXiv 1906.03560

讨论跨视图语义分割，定义一种名为View Parsing Network （VPN）的框架来解决该问题。在跨视图语义分割任务中，训练后将第一视图观察结果解析为从上到下的语义图，指出所有目标在像素级的空间位置。此任务的主要问题是缺乏自上而下的视图数据的真实注释。为了缓解这种情况，在3D图形环境中训练VPN，并利用域自适应技术将其迁移到实际数据。

代码上线：https://view-parsing-network.github.io.

如图对VPN框架进一步介绍：仿真部分展示VPN的体系结构和训练方案，而真实世界部分展示将VPN迁移到现实世界的域自适应过程。

如图是一些从模拟到真实域适应的定性结果：域适应前后的源预测结果、域适应后的可驾驶区域预测以及可驾驶区域真值图。

4 MonoLayout: Amodal scene layout from a single image，arXiv 2002.08394

给定从驾驶平台获取的单色图像，预测道路和其他交通参与者的鸟瞰图layout。估计的layout应超出图像中可见的范围，并补偿由于投影造成的3D信息丢失。无模态场景layout估计，应该包括针对图像被遮挡区域做场景layout的幻觉恢复。作者提出的Mono-Layout，是一种深度NN，用于单个图像做实时非模态场景layout的估计。它将场景layout表示为多通道语义占用格网，并利用对抗特征学习为遮挡的图像部分幻觉般合理补全。

代码上线：https://github.com/hbutsuak95/monolayout

如图是MonoLayout：仅给出道路场景的单个图像，神经网络架构实时（30 fps）在鸟瞰视图中推理非模态场景layout。这种方法，让MonoLayout使那些在图像不可见的静态场景（道路，人行道）以及交通参与者幻觉般恢复。这里显示的是来自KITTI（左）和Argoverse（右）数据集的示例图像。 MonoLayout在被遮挡区域做幻觉恢复的结果优于现有技术（超过20％）。

这是架构图：MonoLayout拍摄城市驾驶场景的彩色图像，并在鸟瞰图预测无模态场景layout。该结构包括上下文编码器、非模态layout解码器和两个鉴别器。

如下是实验结果比较：

如下图是静态layout估计结果：观察MonoLayout如何执行静态场景的非模态补全（道路显示为粉红色，人行道显示为灰色）。 Mono Occupancy（即前面的VED）方法无法在遮挡目标以外推理（顶行），并且不能使丢失的大型补丁幻觉补全（底行），而MonoLayout可以准确地做到这一点。此外，即使在没有遮挡的情况下（第2行），MonoLayout也会生成质量更高的道路layout。第3行显示了极具挑战性的场景，大多数视图被车辆遮挡，并且场景呈现出高动态范围（HDR）和阴影等现象。

如下图是动态layout估计结果：根据KITTI 3D目标检测基准进行的车辆占用图估计结果。从左到右，该列分别对应于输入图像、Mono Occupancy方法、Mono3D方法、OFT方法、MonoLayout和真值。其他方法在检测汽车时错过（顶排）或将车辆检测为两个目标（第二排），或在道路以外检测到车辆（第三排），而MonoLayout在考虑车辆和道路几何形状的同时会产生清晰的目标边界。

如下图是Argoverse数据集上的无模态场景layout估计：该数据集包括多个具有挑战性的场景，它们具有低照度和大量的车辆。 MonoLayout能够准确生成车辆和道路layout的清晰估计。（人行道在这里无法预测，因为Argoverse没有注释人行道）。

如下图是轨迹预测：MonoLayout-forecast可以准确估计移动车辆的未来轨迹。（左）：在每个图中，洋红色的长方体表示车辆的初始位置。通过观察车辆，MonoLayout-forecast需要1秒钟的预热，然后在该点（青绿色长方体）开始预测未来的轨迹（蓝色）。真值轨迹以红色显示。（右）：在图像空间的可视化轨迹。请注意，在存在运动障碍物（顶行）、转弯（中间行）和交通汇聚（底行）的情况下，MonoLayout-forecast能够准确地预测轨迹。

5 Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks，arXiv 2003.13402

这里基于视觉的工作包括：地平面估计、道路分割和3D目标检测。本文是一种简单、统一的方法，用单个端到端深度学习架构直接从单目图像中估计地图。对于地图本身来说，用语义贝叶斯占用网格框架（semantic Bayesian occupancy grid framework）可以在多个摄像机和多个时间步上轻松地积累信息。

代码上线：http://github.com/tom-roddick/mono-semantic-maps

如图直观展示：给定一组环视图像，预测完整的360度鸟瞰语义图，该图既可捕获静态元素（如道路和人行道），也可捕获动态目标（如汽车和行人）。

如下图所示是Pyramid Occupancy Networks（PON）体系结构图。（1）ResNet-50骨干网络以多种分辨率提取图像特征。（2）特征金字塔通过较低金字塔层的空间上下文来增强高分辨率特征。（3）一组致密变换器层（dense transformer layers）将基于图像的特征映射到鸟瞰图。（4）自上而下网络（top down network）处理鸟瞰特征并预测最终的语义占用（semantic occupancy）概率。

如图是：该致密变换器层首先沿垂直方向压缩基于图像的特征，同时保留水平方向的维度。然后，在极坐标系中沿深度轴（depth axis）预测一组特征，然后重采样到笛卡尔坐标下。

这个致密变换器的思想启发是因为网络需要大量垂直上下文将图像转换到鸟瞰图，而在水平方向BEV位置和图像位置之间的关系可以用相机几何来确定。

实验结果如下比较：包括前面提到的VPN（View Parsing Network）、VED（variational encoder-decoder network）等方法。

Argoverse数据集

Nuscenes数据集

标签：场景,layout,景物,语义,MonoLayout,图像,感知,BEV,鸟瞰图
From： https://blog.csdn.net/NEON7788/article/details/140844561

自动驾驶感知中BEV的景物表示方法