[Paper Reading] Scene as Occupancy

时间：2024-05-22 17:18:07浏览次数：27

标签：Voxel 特征 OCC Scene Occupancy Paper Reading BEV 3D

Scene as Occupancy

link
时间：23.06
机构：Shanghai AI Lab && SenseTime && CUHK

TL;DR

提出使用3D Occupancy来表征3D物理场景，相对于3D检测框，3D Occ可提供更细粒度细节。提出OccNet一种多目级连的时序模型，运动规划碰撞率降低15%~58%。创新性：be the first to investigate occupancy as a general descriptor that could enhance multiple tasks beyond detection.

Method

整体Pipeline如下图所示，BEV Encoder使用的BEVFormer，获取BEV特征后经过Cascade Voxel Decoder得到Occupancy Descriptor特征，在该特征上接Head预测下游任务结果。

Cascade Voxel Decoder

Voxel based Temporal Self-Attention

使用车身位姿将历史voxel feature转换到当前坐标系下得到voxel feature \(V'_{t-1, i}\)，再与当前帧\(V'_{t-1, i}\)做Self-Atten，由于计算量比较大，使用3D deformable Atten来降低计算量。

3D Deformable Attention

定义如下公式，其实是将本来全局范围的attention收缩到K个点范围内，这K个点的相对位置是类似于2Ddeformable学习出来的。

Voxel-based Spatial Cross-Attention

参考BEVFormer中的spatial cross-attention的做法，主要是根据3D格点位置去2D feature上采样特征。

Exploiting Occupancy on Various Tasks

Semantic Scene Completion：针对每个voxel都预测一个类别与速度。
3D Object Detection：拍成BEV特征，使用DETR那种固定query数的方法预测3D目标。
BEV segmentation：拍成BEV特征，预测segmentation map。
Motion Planning：将BEV segmap处理成0-1 map，根据输入sampled trajectories在该map上计算cost，根据cost来选定运动轨迹。

Experiment

建立了一个OpenOcc的Benchmark，相对于其它Benchmark差别如下图。

在OpenOcc明显超越其它方法。

在nuSence上优势明显，接近Lidar-based方法了。

总结与发散

BEV与OCC的区别：
BEV是平面的特征空间，OCC是3D的特征空间
BEV与OCC的联系：
OCC是基于BEV特征增加高度维度加工出的特征空间

OCC主要是为了解决高度问题引入的特征空间，但感觉这么做ROI有些低（计算量变复杂了很多，但只是针对少数形状奇异的人车或者障碍物有特殊用处）。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：Voxel,特征,OCC,Scene,Occupancy,Paper,Reading,BEV,3D
From： https://www.cnblogs.com/fariver/p/18206539

D - AtCoder Wallpaper（求图形面积）
思路：求f(c,d)+f(a,b)-f(a,d)-f(c,b);代码：intf(intx,inty){if(y%2==0){y=y/2;intans=y*(x/4)*8;x%=4;if(x==1){ans+=y*3;}elseif(x==2){ans+=y*6......
Unity编辑器Scene窗口快捷操作
1.按住crtl，可以一个一个单位移动、缩放、旋转物体，单位距离在Edit-Snapsetting中设置，设置单位大小2.选中物体，按住alt+鼠标左键，可以环视目标物体3.按住V键，可以将物体的顶点接到其他物体的顶点如果要设置更改其他在Scene窗口中的操作，可以利用MonoBehaviour下的OnDrawGizmos或......
[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-C
BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformerslink时间：22.07机构：NanjingUniversity&&ShanghaiAILaboratoryTL;DR利用Transformer的Attention机制融合时空特征信息，在nuScenes测试集上达到SOTA精度，同时......
Vue3:Cannot read properties of null (reading 'isCE')
Cannotreadpropertiesofnull(reading'isCE') 这个问题是在vue3中引入elementui的列表框时出现的。经过网上查询，有说是装了两个vue版本的，也有说是其他代码写错导致的,还有说是导入错误的。但我的不是这个问题，我的是版本兼容问题。因为在网上查询时看到，elementui适......
[Paper Reading] PETR: Position Embedding Transformation for Multi-View 3D Object
PETR:PositionEmbeddingTransformationforMulti-View3DObjectDetectionPETR:PositionEmbeddingTransformationforMulti-View3DObjectDetection时间：22.07机构：MegviiTL;DR一种多目3D目标检测的方法，主体思想是将3D坐标信息编码到2D图像特征，产生3Dawaredfeatur......
Structures Or Why Don't Things Fall Down (Reading)
1BentmasonrycolumninSalisburyCathendral2Stressconcentrationatcracktip3'Aneurism'incylindricalballoon4Sectionofarterywalltissue5CorbelledvaultatTiryns6Simi-corbelledposterngateatTiryns7Clarebridge,Cambride(c......
Python 内置库多线程threading使用讲解
线程基本使用单线程defmain():print("在扔一个苹果")if__name__=="__main__":main()多线程Python提供了thread、threading等模块来进行线程的创建与管理，后者在线程管理能力上更进一步，因此我们通常使用threading模块。创建一个线程需要指定该线程执行的任务（函......
[Paper Reading]
BEVDet:High-PerformanceMulti-Camera3DObjectDetectioninBird-Eye-ViewBEVDet时间：21/12机构：PhiGo(鉴智机器人)TL;DR一种BEV空间做detection的方法，构建了新颖的数据增强方法以及更新了nms策略，精度与FCOS3Dcomparable，计算量Flops仅为其11%。Method模型架构图整体来......
threading：Python线程锁与释放锁
控制资源访问前文提到threading库在多线程时，对同一资源的访问容易导致破坏与丢失数据。为了保证安全的访问一个资源对象，我们需要创建锁。示例如下：importthreadingimporttimeclassAddThread():def__init__(self,start=0):self.lock=threading.Lock()......
[Paper Reading] OFT Orthographic Feature Transform for Monocular 3D Object Detec
OFTOrthographicFeatureTransformforMonocular3DObjectDetectionOFTOrthographicFeatureTransformforMonocular3DObjectDetection时间：18.11机构：UniversityofCambridgeTL;DR当时纯视觉自动驾驶方案效果上仅达到Lidar方案有10%的水平，本文claim部分差距源于pe......