首页 > 其他分享 >[Paper Reading] PETR: Position Embedding Transformation for Multi-View 3D Object Detection

[Paper Reading] PETR: Position Embedding Transformation for Multi-View 3D Object Detection

时间:2024-05-15 17:10:40浏览次数:28  
标签:Multi Generator Object Embedding Position Transformation 3D

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

PETR: Position Embedding Transformation for Multi-View 3D Object Detection
时间:22.07
机构:Megvii

TL;DR

一种多目3D目标检测的方法,主体思想是将3D坐标信息编码到2D图像特征,产生3D awared features,利用object query在这种特征上直接预测3D结果。

Method

方法架构图如下,首先这是一个多目的E2E 3D detection方法(文中没有说明多目的3D awared features如何进行融合),下面详细说明 3D Coordinates Generator, 3D Position Encoder以及Query Generator部分。

3D Coordinates Generator

这一步将camera frustum空间(\(u_j\) × \(d_j\), \(v_j\) × \(d_j\), \(d_j\), 1)转为3D world空间 (x, y, z, 1),这两种空间的坐标点可视化参见架构图左下角。转换关系如下,后续模块使用的就是3D world空间的坐标点,是融合了相机参数信息在里面的。关于camera frustum space下空间的划分可以参考DGSN

其中,K是4x4矩阵,融合了相机内外参,可将3D space点转到camera frustum space。

3D Position Encoder

该模块比较NN,就是将N view的2D feature对应的3D空间的position coordinate分别提取特征,融合后形成N view的3D awared特征。注意,由于3D coordinates取决于图像大小与相机参数,所以是定值,可以一次性提取好并缓存,这里称为3D Position Embedding。

Query Generator

参考anchorDETR,使用3D space上均匀分布的点作为送入MLP之后得到可学习anchor points的初值,这种方法更容易收敛。 后续的Decoder、Head及Loss类似于DETR,不再赘述。

Experiment



使用3D Position Embedding能明显提升精度(个人理解主要是里面隐含了相机参数信息)。

总结与发散

相关链接

引用的第三方的链接

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:Multi,Generator,Object,Embedding,Position,Transformation,3D
From: https://www.cnblogs.com/fariver/p/18193774

相关文章

  • JavaScript Object valueOf & toString All In One
    JavaScriptObjectvalueOf&toStringAllInOneclassArrayWrapper{arr:number[];constructor(nums:number[]){this.arr=nums;}//✅改写Object内置方法valueOf,返回一个number整数//❓object相加(本质上是object序列化后的string......
  • Mura CMS processAsyncObject SQL注入漏洞
    MuraCMSprocessAsyncObjectSQL注入漏洞漏洞描述该漏洞允许攻击者在某些API请求中注入恶意SQL代码,来访问或修改数据库信息,甚至可能获得对系统的完全控制,主要危害包括未授权访问敏感数据以及可能对系统完整性造成的损害Fofa:body="PoweredbyMuraCMS"POCPOST/index.cfm......
  • 3ds Max与Maya不同之处?两者哪个更适合云渲染?
    3dsMax和Maya都是知名的3D软件,各有其特色。3dsMax以直观的建模和丰富的插件生态闻名;Maya则在动画和角色创作方面更为出色。两者都支持云渲染技术,能帮助用户在云端高效完成项目。一、3dsMax和Maya之间的主要区别:3dsMax和Maya由Autodesk公司开发的3D建模和动画软件......
  • worm. 3dsmax.alc.1蠕虫病毒
    病毒特征:1.Ctrl+Z撤销崩溃2.关闭文件时点击“不保存”,却自动保存3.中毒后主文件都会中毒,并感染其他max文件,有可能损坏你的模型文件原理:1.打开一个带病毒的模型文件(保存后?)2.在脚本目录下(STARTUP)创建“vrdematcleanbeta.mse”、“vrdematcleanbeta.msex”并会一直存在3.这两......
  • the request was rejected because no multipart boundary was found
    报错:Failedtoparsemultipartservletrequest;nestedexceptionisjava.io.IOException:org.apache.tomcat.util.http.fileupload.FileUploadException:therequestwasrejectedbecausenomultipartboundarywasfound本地一个模块,在多种环境下测试过都OK,但是在一个......
  • MultiPromptChain--场景切换
    fromlangchain_community.llmsimportOllamafromlangchain.chains.routerimportMultiPromptChainfromlangchain.chainsimportConversationChainfromlangchain.chains.llmimportLLMChainfromlangchain.promptsimportPromptTemplatellm=Ollama(base_url='htt......
  • MultiPromptChain--精简版
    fromlangchain_community.llmsimportOllamafromlangchain.chains.routerimportMultiPromptChainfromlangchain.chainsimportConversationChainfromlangchain.chains.llmimportLLMChainfromlangchain.promptsimportPromptTemplate#physics_template="&q......
  • 我的u3d作品
    主要功能登录可与后端交互实现登录与注册功能角色选择选择角色进行游戏并且与后端同步角色选择结果加载场景进度条切换场景时显示加载进度并与后端同步主城UI传送功能连招功能连续点击攻击可以实现三段攻击点击小按钮可以释放技能怪物AI使用有限状态机实现,寻......
  • (MEGA详解)Memory enhanced global-local aggregation for video object detection (CVPR
    在视频中检测物体和在图像中检测物体的最大区别在于:信息存在于时间维度中。视频中孤立的帧可能会出现运动模糊、遮挡或失焦等问题,自然可以想到从整个视频中寻找线索来识别物体。当我们无法确定一个目标的类别时,我们会从其它帧中寻找一个与当前目标具有高度语义相似性的独特目标,并......
  • java.lang.IllegalArgumentException: Invalid value type for attribute 'factoryBea
    简介前排提示:这个错误一般是由于Spring新版本导致的与其他框架不兼容现象,解决办法一般是升级其他框架版本。使用springboot-3.2.5和myabtis-plus-3.5.0搭建开发环境时,启动Springboot程序时报错,报错信息:点击查看代码java.lang.IllegalArgumentException:Invalidvalu......