Tesla技术方案深度剖析:自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎
附赠自动驾驶最全的学习资料和量产经验:链接
01 感知:构建实时的4D自动驾驶场景
1.1 特斯拉摄像头布局
特斯拉的摄像头视野可以覆盖车身周围360°,在前向有120°鱼眼、长焦镜头用于加强观测,布局如上图。
1.2 特斯拉图像数据预处理:
特斯拉采用的是36Hz的1280*960-12bit的图像原始数据,这相对于只有8-bit的ISP后处理数据多了4位信息,动态方位扩大了16倍。特斯拉这样处理的原因有2个:
1) ISP基于rule-base的算法对原始信号做了自动对焦(AF)、自动曝光(AE)、自动白平衡(AWB)、坏点校正(DNS)、高动态范围成像(HDR)、颜色校正(CCM)等,这些满足于人眼可视化需求,但不一定是自动驾驶的需要。相对于rule-base的ISP,神经网络的处理能力更为强大,能够更好的利用图像的原始信息,同时避免ISP带来的数据损失。
2) ISP的存在不利于数据的高速传输,影响图像的帧率。而将对原始信号的处理放在网络运算中,速度要快很多。
这种方式跨过了传统类似ISP的专业知识,直接从后端需求驱动网络学习更强的ISP能力,可以强化系统在低光照、低可见度条件下超越人眼的感知能力。基于这个原理Lidar、radar的原始数据用于网络拟合应该也是更好的方式。
1.3 backbone网络:Designing Network Design Spaces
RegNet
特斯拉采用的是RegNet,相比于ResNet进行了更高一层的抽象,解决了NAS搜索设计空间(将卷积、池化等模块:连接组合/训练评估/选最优)固定、无法创建新模块的弊端,可以创建新颖的设计空间范式,能够发掘更多的场景适配新的"ResNet",从而避免专门去研究设计神经网络架构。如果出来更好的BackBone可以替换这部分。
1.4 neckwork : EfficientDet: Scalable and Efficient Object Detection
BiFPN
-
PANet比FPN更准是因:在FPN自顶向下的单一路径流的基础上又额外增加了自底向上的路径流,也因此带入更高的参数与计算;
-
BiFPN移除了只有一个输入的节点(最上层和最下层),因为网络的目的是融合特征,所以没有融合能力的节点直接连接就可以。
-
BiFPN将输入直接连接到输出节点,在不增加计算的情况下,融合了更多特征。
-
BiFPN将基础结构进行了多层堆叠,能够融合出更高纬度的特征。
FPN->BiFPN
1.5 BEV Fusion:FSD感知的空间理解能力
2D感知
在BEV出现之前,自动驾驶感知主流方案都是基于相机的2D Image Space,但是感知的下游应用方-决策和路径规划都是在车辆所在的2D BEV Space进行的,感知与规控之间的壁垒阻碍了FSD的发展。为了消除这个壁垒,就需要将感知从2D图像空间后置到2D的自车参考系空间,即BEV空间。
基于传统技术:
会采用IPM(Inverse Perspective Mapping)假设地面为平面利用相机-自车外参将2D Image Space转换为2D的自车空间,即BEV鸟瞰空间。这里有个很明显的缺陷:平面假设在面对道路起伏和上下坡时便不在成立。
多相机接边拼接问题
由于每个摄像头的FOV有限,所以即使借助IPM将2D Image Space转换到2D BEV空间还需要解决多个相机图像的BEV空间拼接。这其实需要高精度的多相机标定算法,而且需要在线的实时校正算法。总结来说,需要实现的就是将多相机2D图像空间特征映射到BEV空间,同时解决由于标定和非平面假设引起的变换重叠问题。
Tesla基于Transformer的BEV Layer的实现方案:
BEV_FUSION
1) 首先在各个相机分别通过CNN主干网络和BiFPN提取多尺度特征图层,多尺度特征图层一方面通过MLP层生成Transformer的方法中所需的Key和Value,另一方面对多尺度Feature Map进行Global Pooling操作得到一个全局描述向量(即图中的Context Summary),同时通过对目标输出BEV空间进行栅格化,再对每个BEV栅格进行位置编码,将这些位置编码与全局描述向量进行拼接(Concatenate)后再通过一层MLP层得到Transformer所需的Query。
在Cross Attention操作中,Query的尺度决定最终BEV层之后的输出尺度(即BEV栅格的尺度),而Key和Value分别处于2D图像坐标空间下,按照Transformer的原理,通过Query和Key建立每个BEV栅格收到2D图像平面像素的影响权重,从而建立从BEV到输入图像之间的关联,再利用这些权重加权由图像平面下的特征得到的Value,最终得到BEV坐标系下的Feature Map,完成BEV坐标转换层的使命,后面就可以基于BEV下的Feature Map利用已经成熟的各个感知功能头来直接在BEV空间下进行感知了。BEV空间下的感知结果与决策规划所在的坐标系是统一的,因此感知与后续模块就通过BEV变换紧密地联系到了一起。
Calibration
通过这种方法,
标签:仿真,场景,Tesla,ISP,2D,图像,空间,感知,BEV From: https://blog.csdn.net/liuphahaha/article/details/139183510