首页 > 其他分享 >[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spat

[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spat

时间:2024-05-20 21:55:20浏览次数:16  
标签:Multi Eye 特征 2D Camera BEVFormer BEV Bird

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

link
时间:22.07
机构:Nanjing University && Shanghai AI Laboratory

TL;DR

利用Transformer的Attention机制融合时空特征信息,在nuScenes测试集上达到SOTA精度,同时在速度估计以及可见度低路况也有明显精度提升。

Method

BEV Queries

BEV是一个可学参数的Tensor,Shape为(W, H, C),其中W, H即为BEV平面的定义(单位是m,以车身为中心点),每个grid中有一个channel为C的可学向量。

SCA(spatial cross attention)

如下公式所示,BEV平面上每个cell可以沿着高度方向lift出\(Nref\)个3D refer points,\(P(p, i, j)\)就是将BEV下P点的第j个高度上投影至在第i个view的2D点坐标,再使用该2D点坐标提取图像特征信息并与BEV Query \(Q_p\)加权得到此处query出的特征。

Temporal Self-Attention

同上,利用车身motation 6Dof信息将上一帧feature对齐到当前bev空间(与Q同坐标系)得到\(B'_{t-1}\),使用\(Q_p\)与\(B'_{t-1}\)预测特征偏移\(p\),根据如下TSA公式计算attention特征。由于这种方法仅融合上一帧时序特征,计算量更小。

Q: 后续BEV上的特征是否还需要splat成为2D?
A: 根据公式中的\(\Sigma\)推测特征应该会沿着垂直方向求和,最终得到2D BEV平面上的特征。

Experiment

看实验结果TSA的作用很明显。

总结与发散

在BEV栅格中放Transformer的Query,利用几何关系去2D图像上Query对应特征,再填满BEV删格,整个过程更加E2E以及Transformer化。

相关链接

Code: https://github.com/zhiqi-li/BEVFormer

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:Multi,Eye,特征,2D,Camera,BEVFormer,BEV,Bird
From: https://www.cnblogs.com/fariver/p/18201780

相关文章

  • Camera测试指导学习
    camera的整机老化测试中,有时候客户会要求测试每次开机后首次打开相机是否正常。手动打开相机会严重影响测试效率,所以编写次脚本用于测试。相机的基本操作:入口,模式切换,前后摄像头切换;相机的模式:一级模式,夜景,人像,录像;设置菜单功能:拍照设置,视频设置,通用设置;外设场景:蓝牙耳机,有线......
  • SkyEye对接CANoe:助力汽车软件功能验证
    01.简介CANoe(CANopenenvironment)是德国Vector公司专为汽车总线设计而开发的一款通用开发环境,作为车载网络和ECU开发、测试和分析的专业工具,支持从需求分析到系统实现的整个系统的开发过程。CANoe丰富的功能和配置选项被OEM和供应商的网络设计、开发和测试工程师所广泛使用。Sk......
  • multiprocess.Process模块
    【3.0】多进程操作【一】multiprocessing模块介绍python中的多线程无法利用多核优势,如果想要充分地使用多核CPU的资源(os.cpu_count()查看),在python中大部分情况需要使用多进程。Python提供了multiprocessing。multiprocessing模块用来开启子进程,并在子进程中执行我们定制的任务......
  • [Paper Reading] PETR: Position Embedding Transformation for Multi-View 3D Object
    PETR:PositionEmbeddingTransformationforMulti-View3DObjectDetectionPETR:PositionEmbeddingTransformationforMulti-View3DObjectDetection时间:22.07机构:MegviiTL;DR一种多目3D目标检测的方法,主体思想是将3D坐标信息编码到2D图像特征,产生3Dawaredfeatur......
  • the request was rejected because no multipart boundary was found
    报错:Failedtoparsemultipartservletrequest;nestedexceptionisjava.io.IOException:org.apache.tomcat.util.http.fileupload.FileUploadException:therequestwasrejectedbecausenomultipartboundarywasfound本地一个模块,在多种环境下测试过都OK,但是在一个......
  • MultiPromptChain--场景切换
    fromlangchain_community.llmsimportOllamafromlangchain.chains.routerimportMultiPromptChainfromlangchain.chainsimportConversationChainfromlangchain.chains.llmimportLLMChainfromlangchain.promptsimportPromptTemplatellm=Ollama(base_url='htt......
  • MultiPromptChain--精简版
    fromlangchain_community.llmsimportOllamafromlangchain.chains.routerimportMultiPromptChainfromlangchain.chainsimportConversationChainfromlangchain.chains.llmimportLLMChainfromlangchain.promptsimportPromptTemplate#physics_template="&q......
  • 用友畅捷通TPlus-keyEdit.aspx接口存在SQL注入漏洞
    漏洞描述:该漏洞是由于畅捷通T的/tplus/UFAQD/keyEdit.asp接口处未对用户的输入进行过滤和校验,未经身份验证的攻击者可以利用SQL注入漏洞获取数据库中的信息fofa:app="畅捷通-TPlus"POC:GET/tplus/UFAQD/keyEdit.aspx?KeyID=1%27%20and%201=(select%20@@version)%20--&preloa......
  • How to Learn Item Representation for Cold-Start Multimedia Recommendation
    目录概符号说明MotivationMulti-TaskPairwiseRanking(MTPR)代码DuX.,WangX.,HeX.,LiZ.,TangJ.andChuaT.Howtolearnitemrepresentationforcold-startmultimediarecommendation?MM,2020.概作者以往的多媒体推荐对于colditems在训练阶段没有足够的......
  • LwRB - 一款适用嵌入式系统的轻量级 RingBuffer+MultiTimer - 超精简的纯软件定时器驱
    1、MicroMagic发布世界上最快的64-bitRISC-V核近日,一家位于美国加州森尼维尔的小型电子设计公司MicroMagic宣称设计、生产出了全世界最快的64位RISC-V内核,比苹果的M1芯片和ArmCortex-A9表现还要出色。消息源: http://www.micromagic.com/news/RISCv-Fastest_PR.pdf这......