BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
BEVDet
时间:21/12
机构:PhiGo(鉴智机器人)
TL;DR
一种BEV空间做detection的方法,构建了新颖的数据增强方法以及更新了nms策略,精度与FCOS3D comparable,计算量Flops仅为其11%。
Method
模型架构图整体来看也LSS等差别不大,关键创新点在于 定制化的数据增强 以及 Scale-NMS。
定制化的数据增强
传统的数据增强方法通过在2D图像空间进行,为了保持结果与GT的一致性,通过在ViewTransform过程需要相应的逆变换,这使得数据增强的好处不能作用于后续Layer,而BEV空间下的instance数少于Image空间(比如,nuScences 6个图像空间才对应一个BEV空间),本身就更容易过拟合。BEVDet直接在ViewTransform之后的特征上进行数据增强,相应处理相应的3D targets使两者保持一致性。
Scale-NMS
传统图像上NMS不适合BEV系列方法,原因是像交通椎、行人之类的目标尺寸已经小到低于BEV网格最小尺度(比如CenterPoint的是0.8m),所以计算出的3d iou数值会不太合理。作者针对每个类别设计设置一个scale超参数进行放大,如上图所示。
Experiment
表4可看出BDA(BEV data augmentation对于精度有明显提升)
表5可看出使用scale-NMS之后交通锥精度提升比较明显。
总结与发散
论文称作BEVDet,实际上主要是在BEV框架上增加了一些trick(BDA与scaleNMS)。