首页 > 其他分享 >Simple-BEV_ What Really Matters for Multi-Sensor BEV Perception_

Simple-BEV_ What Really Matters for Multi-Sensor BEV Perception_

时间:2024-01-30 16:14:04浏览次数:23  
标签:What Perception feature times radar camera BEV 3D

title: "Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?"
tags:
  - paper

Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?

Zotero

Abstract

Building 3D perception systems for autonomous vehicles that do not rely on high-density LiDAR is a critical research problem because of the expense of LiDAR systems compared to cameras and other sensors. Recent research has developed a variety of camera-only methods, where features are differentiably "lifted" from the multi-camera images onto the 2D ground plane, yielding a "bird's eye view" (BEV) feature representation of the 3D space around the vehicle. This line of work has produced a variety of novel "lifting" methods, but we observe that other details in the training setups have shifted at the same time, making it unclear what really matters in top-performing methods. We also observe that using cameras alone is not a real-world constraint, considering that additional sensors like radar have been integrated into real vehicles for years already. In this paper, we first of all attempt to elucidate the high-impact factors in the design and training protocol of BEV perception models. We find that batch size and input resolution greatly affect performance, while lifting strategies have a more modest effect -- even a simple parameter-free lifter works well. Second, we demonstrate that radar data can provide a substantial boost to performance, helping to close the gap between camera-only and LiDAR-enabled systems. We analyze the radar usage details that lead to good performance, and invite the community to re-consider this commonly-neglected part of the sensor platform.

Comments

ICRA 2023
分割任务

LSS类的方法中,如果深度估计非常完美,那么3D中只有物体的可见面会被feature占据,而不是整个物体被占据,类似lidar的扫描

Q&A

0.怎样获得BEV feature的?

  1. 在相机坐标系构建一个3D空间,X左右 Y上下 Z前后, 3D空间range 100mx10mx100m 3Dfeature 尺寸 200x8x200
  2. camera image经过backbone得到feature,\(3\times H\times W \to C\times H/8\times W/8\)
  3. 把预先定义好的3D坐标投影到所有的2D feature,使用双线性差值得到3D位置的feature
  4. 计算每一个3D坐标是否在每一个camera的视锥内 得到一个valid mask
  5. 因为同一个3D点可能同时投影到多个相机中,使用valid-weighted average处理3D空间中的feature,得到\(C\times Z\times Y\times X\) 在高度方向压缩得到\((C\times Y)\times Z\times X\)

LS without depth estimation
sampling:
因为预先定义好的3D空间是均匀采样的,由于相机投影,距离相机光心近处的3D位置从图像中采样得非常稀疏(即更分散),而远处的3D位置采样得非常密集(即更挤在一起),但每个体素都会接收到一个2D特征,除了那些不在相机fov范围内的
LS
基于Splatting的方法 从 2D 坐标网格开始,沿其光线“shoot”每个像素,以固定的深度间隔填充与该光线相交的体素。因此,LS方法会为近距离体素产生多个样本,而为远处体素产生很少的样本(有时为零)每一个像素点一条射线,近处射线之间很致密,远处就很稀疏了

LSS在短距离上稍微优越,而采样在长距离上稍微优越
image-20240130144103008

simpleBEV 需要做32w次采样才能得到单个camera的3Dfeature?

1.batch size和输入分辨率对模型性能有何影响

1.1 图片分辨率
image-20240130144455429

在不更改backbone的情况下,根据实验结果672x1200的模型获得了最高的性能,但是增加到896x1600后性能有所下降,更换backbone也许会解决性能下降的问题

1.2 batchsize
image-20240130152316340
逐步增加batch size 性能会逐步提升 但是回报率越来越低

2.为什么说不同的2DTo3D转换方法对模型性能影响很小?

没有细说

3.怎样将radar和camera融合的,对camera-only的模型有何影响

如果提供了radar信息,将其编码成和2D bev相同大小的BEV feature \(R\times X\times Z\), R代表radar的特征维度,等于0表示不使用radar
nuscene提供的radar点有18维信息,其中5维是位置和速度信息 x y z vx vy,其他是内置处理器的信息
把radar点栅格化,投影到距离最近的grid中,使用除了位置之外的15维信息编码radar,得到\(R\times X\times Z, R=15\)大小的feature,将其和RGB BEV concatenate在一起再经过一个3x3卷积得到维度维C的BEV feature: \((R+C\times y)*Z\times X\to C\times Z\times X\)

image-20240130153759117
key:

  1. 不使用nuscene提供做过滤波的radar点,使用原始点,filter可能会把一些TP滤除
  2. 将连续3帧的radar点叠加在一起使用 避免单帧太稀疏

Pipeline

image-20240123191041454

Performance

image-20240130153240847

标签:What,Perception,feature,times,radar,camera,BEV,3D
From: https://www.cnblogs.com/swc-blog/p/17997317

相关文章

  • BEVFusion: 基于统一BEV表征的多任务多传感器融合(MIT 2022)
     arXiv上传于2022年5月26日论文“BEVFusion:Multi-TaskMulti-SensorFusionwithUnifiedBird’s-EyeViewRepresentation“,来自MIT韩松团队的工作报告。代码将开源https://github.com/mit-han-lab/bevfusion  前不久介绍过一篇BEV多传感器融合的目标检测工作:“FUT......
  • MatrixVT:高效View Transformation,让视觉BEV梦想照进现实
    原论文:MatrixVT:EfficientMulti-CameratoBEVTransformationfor3DPerception来自:CVPR2022,旷视科技,Submission-2022.11针对目前BEV中更有优势的Lift-Splat类方法中关键模块(VisionTransformation),MatrixVT实现了非常优雅的优化,在保持模型性能(甚至略微提高)的同时,能大幅降低计......
  • BEVFusion: 一个通用且鲁棒的激光雷达和视觉融合框架
    BEVFusion:一个通用且鲁棒的激光雷达和视觉融合框架 XiaoxiaoYu程序员 50人赞同了该文章文章arxiv:https://arxiv.org/pdf/2205.13790.pdf代码已github开源:https://github.com/ADLab-AutoDrive/BEVFusion  1背景简介感知模块(如3DBBox检......
  • What is FFT? FFT学习笔记
    在时间序列、数字信号的数据处理中经常会看到使用FFT作为一段数据中提取频率的手段,但是往往文中没有花大笔墨去解释,仿佛所有人都了解这个概念。FFT(FastFourierTransform)为快速傅里叶变换,是一种高效计算DFT(DiscreteFourierTransform),离散傅里叶变换的方法。在了解FFT之前......
  • WhatsApp自动回复脚本:从入门到精通!
    在这个数字时代,社交媒体已经成为我们生活中不可或缺的一部分,特别是WhatsApp,这款全球流行的即时通讯工具,为我们提供了与亲朋好友、客户和业务伙伴之间即时交流的便利。但有时候,我们无法及时回复消息,或者想要实现某些自动化的操作,这时,WhatsApp自动回复脚本就显得尤为重要,那么,如何开发......
  • 问题:What is this passage mainly about
    问题:WhatisthispassagemainlyaboutA.DemonstratingtheseriousweatherconditionaroundLakeChad.B.Introducingpeople'sactivityaroundLakeChad.C.AnalyzingofthefactorsthatcausewaterdecreasesinLakeChad.D.Introducingscientists'work......
  • 用BEVformer来卷自动驾驶-2
    回顾上一期:用BEVformer来卷自动驾驶-1(qq.com)       上一期我们讲到了从3D到4D(加了时间概念)以后使得BEV能变得更厉害,具体这种厉害其实是可以解决纯视觉解决方案里面最难解决的问题,就是基于恶劣天气,或者拍的不清楚的时候,或者突然有遮挡的时候,融入时间的概念,可以很大一......
  • BEVDet_ High-performance Multi-camera 3D Object Detection in Bird-Eye-View
    zotero-key:5HGRISJQzt-attachments:-"786"title:"BEVDet:High-performanceMulti-camera3DObjectDetectioninBird-Eye-View"citekey:huangBEVDetHighperformanceMulticamera2022bBEVDet:High-performanceMulti-camera3DObjectDet......
  • WhatsApp广播列表功能介绍及用法
    如果遇到想要发送一条信息给多个客户的时候,WhatsApp广播功能就能帮到你。WhatsApp的广播功能可以让你将同一条消息发送给多个联系人,而这些联系人不会知道你已向其他联系人发送了相同的消息。所以广播功能非常适合于一次向多个人发送通知或公告,例如线下活动通知、公司内部通知、最新......
  • Libevent [补档-2023-08-29]
    libevent的使用8-1安装​自己百度一下,安装它不是特别难,加油!!!8-2libevent介绍​它是一个开源库,用于处理网络和定时器等等事件。它提供了跨平台的API,能够在不同的操作系统上实现高性能,可扩展的世界去的编程。​1.事件驱动:libevent使用事件驱动模型,通过监听事件的......