PDF: RSN: Range Sparse Net for Efficient, Accurate LiDAR 3D Object Detection
一、大体内容
现有基于RV图像的方法在遮挡处理、精确的对象定位和尺寸估计方面往往表现不佳,RSN通过结合基于密集距离图像和网格的方法的优势,提高了3D检测的准确性和效率。
RSN是一个两个阶段网络,第一阶段在range View图片上执行2D分割,划分出前景区域,第二阶段把前景区域投影回3D空间,然后基于空间稀疏卷积和自定义的CenterNet回归出3D框。
二、贡献点
- 提出了一种简单、高效、准确的3D激光雷达检测模型RSN,该模型利用2D卷积来对Range Image执行前景对象分割,然后通过稀疏卷积来有效处理分割的前景点以检测对象。
- RSN提出了一种简单而有效的时间融合策略,几乎没有额外的推理成本。
- 在Waymo开放数据集上车辆和行人检测的最新准确性和效率。内部数据集的实验进一步证明了RSN在远程目标检测方面的可扩展性。
- 进行消融实验来验证距离图像特征的有效性以及前景点选择阈值或端到端模型训练等方面对延迟和累积的影响
三、细节
3.1 Range图片特征提取(RIFE)
采用轻量化的U-Net来分割Range图片,其结构如下图所示,其中\(D(L, C)\)表示下采样块包含\(L\)个输出通道为\(C\)的残差块,\(U(L, C)\)包含一个上采样层和\(L\)个残差块。
3.2 前景点如何选择
经过轻量化的U-Net提取特征后,再接入一个1x1的卷积层来对像素进行分类,损失函数采用Focal Loss,最后在进行归一化。
其中P表示图片的所有像素个数,\(L_i\)表示第\(i\)个像素点的focal loss,然后选择超过阈值\(\gamma\)的点作为前景点。
3.3 稀疏点特征提取(SPFE)
按照选择的前景点,每个前景点再参考PointPillars将空间划分成一个柱子,再借助PointNet提取每个区域的特征。
3.4 框回归
先将体素坐标经过缩放和偏移转换到笛卡尔坐标系,然后对每个点\(v\)按下式计算一个h值(heatmap),\(b_c\)表示包含点\(v\)的框的中心点,
然后对h采用权重衰减的Focal Loss进行回归
另外对于框回归除了角度采用Bin Loss外,其他的都采用Smooth_L1损失。
3.5 时间融合
由于Range Image是在移动过程中构建的,所以会造成边界模糊,直接堆叠Range Image对检测性能没有提升,而且由于不同帧之间的距离重建会导致量化误差,所以从Range Image中移除运动偏差也不是最好的。
RSN采用一系列时序固定的Range Image作为输入,然后RIFE应用于每一张Range Image提取到图像特征,然后将所有帧被选中的点变换到最新帧,在SPFE阶段,每个点从其所在帧计算并附加体素特征,这样避免体素化过程所有帧混合在一起,另外还将最新帧的时间差(以秒为单位)附加到每个点用于区别不同帧的点。然后从所有帧选择的前景点由SPFE处理。
四、效果