Tesla技术方案深度剖析：自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

PANet比FPN更准是因：在FPN自顶向下的单一路径流的基础上又额外增加了自底向上的路径流，也因此带入更高的参数与计算；
BiFPN移除了只有一个输入的节点(最上层和最下层)，因为网络的目的是融合特征，所以没有融合能力的节点直接连接就可以。
BiFPN将输入直接连接到输出节点，在不增加计算的情况下，融合了更多特征。
BiFPN将基础结构进行了多层堆叠，能够融合出更高纬度的特征。

FPN->BiFPN

1.5 BEV Fusion：FSD感知的空间理解能力

2D感知

在BEV出现之前，自动驾驶感知主流方案都是基于相机的2D Image Space，但是感知的下游应用方-决策和路径规划都是在车辆所在的2D BEV Space进行的，感知与规控之间的壁垒阻碍了FSD的发展。为了消除这个壁垒，就需要将感知从2D图像空间后置到2D的自车参考系空间，即BEV空间。

基于传统技术：

会采用IPM(Inverse Perspective Mapping)假设地面为平面利用相机-自车外参将2D Image Space转换为2D的自车空间，即BEV鸟瞰空间。这里有个很明显的缺陷：平面假设在面对道路起伏和上下坡时便不在成立。

多相机接边拼接问题

由于每个摄像头的FOV有限，所以即使借助IPM将2D Image Space转换到2D BEV空间还需要解决多个相机图像的BEV空间拼接。这其实需要高精度的多相机标定算法，而且需要在线的实时校正算法。总结来说，需要实现的就是将多相机2D图像空间特征映射到BEV空间，同时解决由于标定和非平面假设引起的变换重叠问题。

Tesla基于Transformer的BEV Layer的实现方案：

BEV_FUSION

1) 首先在各个相机分别通过CNN主干网络和BiFPN提取多尺度特征图层，多尺度特征图层一方面通过MLP层生成Transformer的方法中所需的Key和Value，另一方面对多尺度Feature Map进行Global Pooling操作得到一个全局描述向量（即图中的Context Summary），同时通过对目标输出BEV空间进行栅格化，再对每个BEV栅格进行位置编码，将这些位置编码与全局描述向量进行拼接（Concatenate）后再通过一层MLP层得到Transformer所需的Query。

在Cross Attention操作中，Query的尺度决定最终BEV层之后的输出尺度（即BEV栅格的尺度），而Key和Value分别处于2D图像坐标空间下，按照Transformer的原理，通过Query和Key建立每个BEV栅格收到2D图像平面像素的影响权重，从而建立从BEV到输入图像之间的关联，再利用这些权重加权由图像平面下的特征得到的Value，最终得到BEV坐标系下的Feature Map，完成BEV坐标转换层的使命，后面就可以基于BEV下的Feature Map利用已经成熟的各个感知功能头来直接在BEV空间下进行感知了。BEV空间下的感知结果与决策规划所在的坐标系是统一的，因此感知与后续模块就通过BEV变换紧密地联系到了一起。

Calibration

通过这种方法，

标签：仿真,场景,Tesla,ISP,2D,图像,空间,感知,BEV
From： https://blog.csdn.net/liuphahaha/article/details/139183510

Tesla技术方案深度剖析：自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

Tesla技术方案深度剖析：自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

01 感知：构建实时的4D自动驾驶场景

1.1 特斯拉摄像头布局

1.2 特斯拉图像数据预处理：

1.3 backbone网络：Designing Network Design Spaces

1.4 neckwork : EfficientDet: Scalable and Efficient Object Detection

1.5 BEV Fusion：FSD感知的空间理解能力

相关文章

赞助商

阅读排行