[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spat

时间：2024-05-20 21:55:20浏览次数：28

标签：Multi Eye 特征 2D Camera BEVFormer BEV Bird

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

link
时间：22.07
机构：Nanjing University && Shanghai AI Laboratory

TL;DR

利用Transformer的Attention机制融合时空特征信息，在nuScenes测试集上达到SOTA精度，同时在速度估计以及可见度低路况也有明显精度提升。

Method

BEV Queries

BEV是一个可学参数的Tensor，Shape为(W, H, C)，其中W, H即为BEV平面的定义(单位是m，以车身为中心点)，每个grid中有一个channel为C的可学向量。

SCA(spatial cross attention)

如下公式所示，BEV平面上每个cell可以沿着高度方向lift出\(Nref\)个3D refer points，\(P(p, i, j)\)就是将BEV下P点的第j个高度上投影至在第i个view的2D点坐标，再使用该2D点坐标提取图像特征信息并与BEV Query \(Q_p\)加权得到此处query出的特征。

Temporal Self-Attention

同上，利用车身motation 6Dof信息将上一帧feature对齐到当前bev空间(与Q同坐标系)得到\(B'_{t-1}\)，使用\(Q_p\)与\(B'_{t-1}\)预测特征偏移\(p\)，根据如下TSA公式计算attention特征。由于这种方法仅融合上一帧时序特征，计算量更小。

Q: 后续BEV上的特征是否还需要splat成为2D？
A: 根据公式中的\(\Sigma\)推测特征应该会沿着垂直方向求和，最终得到2D BEV平面上的特征。

Experiment

看实验结果TSA的作用很明显。

总结与发散

在BEV栅格中放Transformer的Query，利用几何关系去2D图像上Query对应特征，再填满BEV删格，整个过程更加E2E以及Transformer化。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：Multi,Eye,特征,2D,Camera,BEVFormer,BEV,Bird
From： https://www.cnblogs.com/fariver/p/18201780

Camera测试指导学习
camera的整机老化测试中，有时候客户会要求测试每次开机后首次打开相机是否正常。手动打开相机会严重影响测试效率，所以编写次脚本用于测试。相机的基本操作：入口，模式切换，前后摄像头切换；相机的模式：一级模式，夜景，人像，录像；设置菜单功能：拍照设置，视频设置，通用设置；外设场景：蓝牙耳机，有线......
SkyEye对接CANoe：助力汽车软件功能验证
01.简介CANoe（CANopenenvironment）是德国Vector公司专为汽车总线设计而开发的一款通用开发环境，作为车载网络和ECU开发、测试和分析的专业工具，支持从需求分析到系统实现的整个系统的开发过程。CANoe丰富的功能和配置选项被OEM和供应商的网络设计、开发和测试工程师所广泛使用。Sk......
multiprocess.Process模块
【3.0】多进程操作【一】multiprocessing模块介绍python中的多线程无法利用多核优势，如果想要充分地使用多核CPU的资源（os.cpu_count()查看），在python中大部分情况需要使用多进程。Python提供了multiprocessing。multiprocessing模块用来开启子进程，并在子进程中执行我们定制的任务......
[Paper Reading] PETR: Position Embedding Transformation for Multi-View 3D Object
PETR:PositionEmbeddingTransformationforMulti-View3DObjectDetectionPETR:PositionEmbeddingTransformationforMulti-View3DObjectDetection时间：22.07机构：MegviiTL;DR一种多目3D目标检测的方法，主体思想是将3D坐标信息编码到2D图像特征，产生3Dawaredfeatur......
the request was rejected because no multipart boundary was found
报错：Failedtoparsemultipartservletrequest;nestedexceptionisjava.io.IOException:org.apache.tomcat.util.http.fileupload.FileUploadException:therequestwasrejectedbecausenomultipartboundarywasfound本地一个模块，在多种环境下测试过都ＯＫ，但是在一个......
MultiPromptChain--场景切换
fromlangchain_community.llmsimportOllamafromlangchain.chains.routerimportMultiPromptChainfromlangchain.chainsimportConversationChainfromlangchain.chains.llmimportLLMChainfromlangchain.promptsimportPromptTemplatellm=Ollama(base_url='htt......
MultiPromptChain--精简版
fromlangchain_community.llmsimportOllamafromlangchain.chains.routerimportMultiPromptChainfromlangchain.chainsimportConversationChainfromlangchain.chains.llmimportLLMChainfromlangchain.promptsimportPromptTemplate#physics_template="&q......
用友畅捷通TPlus-keyEdit.aspx接口存在SQL注入漏洞
漏洞描述：该漏洞是由于畅捷通T的/tplus/UFAQD/keyEdit.asp接口处未对用户的输入进行过滤和校验，未经身份验证的攻击者可以利用SQL注入漏洞获取数据库中的信息fofa:app="畅捷通-TPlus"POC:GET/tplus/UFAQD/keyEdit.aspx?KeyID=1%27%20and%201=(select%20@@version)%20--&preloa......
How to Learn Item Representation for Cold-Start Multimedia Recommendation
目录概符号说明MotivationMulti-TaskPairwiseRanking(MTPR)代码DuX.,WangX.,HeX.,LiZ.,TangJ.andChuaT.Howtolearnitemrepresentationforcold-startmultimediarecommendation?MM,2020.概作者以往的多媒体推荐对于colditems在训练阶段没有足够的......
LwRB - 一款适用嵌入式系统的轻量级 RingBuffer+MultiTimer - 超精简的纯软件定时器驱
1、MicroMagic发布世界上最快的64-bitRISC-V核近日，一家位于美国加州森尼维尔的小型电子设计公司MicroMagic宣称设计、生产出了全世界最快的64位RISC-V内核，比苹果的M1芯片和ArmCortex-A9表现还要出色。消息源： http://www.micromagic.com/news/RISCv-Fastest_PR.pdf这......