FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin
link
时间:23.11
机构:houmo.ai 后摩智能
TL;DR
当时比较流行的OCC方案内存与计算复杂度较高,本文提出一种称为FlashOcc的方法,仅使用2D卷积将特征由二维空间lift到3D空间。
Method
Image Encoder, View Transform, BEV特征构建(LSS) 等处理都比较常规,时序特征融合是在BEV特征下利用车身位姿来对齐特征。唯一不同的是Occupancy Head预测不使用3D Conv比较轻量级,具体细节如下。
Occupancy Head
使用Channel-to-Height的方案预测Occupancy,具体通过几层Conv处理BEV特征为(B×C×W×H),经过Reshape将该特征变为Occupancy特征(\(B×C^{*}×Z×W×H\)),其中\(C = C^{*}×Z\),也就是将BEV每个位置特征的channel维度split成包含高度的特征向量。
Experiment
内存相对于其它occ方法从398MB -> 124MB,推理速度从7.5ms -> 3.1ms。
总结与发散
模型架构比较容易理解,整体是在走降低内存与计算开销的卖点。
channel-to-height的思想比较有意思,其实重要的不是中间特征的shape,而是你使用什么样GT来监督,把occ的GT reshape成2D来监督2D feature其实也是同样效果。
相关链接
https://github.com/Yzichen/FlashOCC/tree/master