首页 > 其他分享 >[Paper Reading] CAPE: Camera View Position Embedding for Multi-View 3D Object Detection

[Paper Reading] CAPE: Camera View Position Embedding for Multi-View 3D Object Detection

时间:2024-09-24 18:45:45浏览次数:1  
标签:Multi 双向 Camera Embedding PE Position 机制 Query View

目录

名称

link
时间:23.03
机构:Baidu/华科

TL;DR

提出CAPE(CAmera view Position Embedding),主要创新:1) 在local-camera坐标系下建模3d position embedding而非global-camera系,使得3d position embeding与相机参数无关。2) 融合前后帧时序信息提升效果。

Method

Key Position Embedding Construction

图像2D点坐标 -> 内参 + depth_bin -> 3D点 -> MLP Layers -> Key Position Embedding

Query Position Embedding Construction

Decoder Embedding与Reference Points均为learnable,为别代表global系下position embedding与local系下的position embedding。使用bilateral attention来融合两种坐标系的embedding。

什么是bilateral attention mechanism?具体实现上与常规的attention有什么区别 双向注意机制(Bilateral Attention Mechanism)是一种增强型的注意力机制,旨在更全面地捕捉输入数据的特征。与常规注意力机制的不同之处在于双向注意同时处理数据的两个维度或方向。

常规注意力机制
在常规注意力机制中,通常关注一个单一维度的信息。比如在自然语言处理中,关注每个单词的上下文相关性,实现方式常见于Transformer模型中的自注意力(Self-Attention)。

双向注意机制的区别
双向注意机制扩展了这一概念,涉及以下实现特点:

多维度信息捕捉:

同时关注两个不同维度的信息。例如,在图像处理中,既关注空间信息(位置)又关注通道信息(特征类型),确保重要的空间位置和通道特征都被有效捕捉。
信息融合:

将来自不同维度的信息进行融合,以便更全面地表示输入数据。
可能采用不同的加权方式或融合策略来实现这一点。
增强特征表达:

通过双向信息的交互,提高模型在复杂任务上的表现。
实现上的差异
计算过程:双向注意机制通常会引入额外的计算步骤来处理不同方向的信息,并可能涉及更复杂的合并或加权策略。
模型架构:相比于单一维度的注意力,双向注意可能需要在模型结构中引入新的模块或层来支持多维度交互。
通过这些改进,双向注意机制能够比常规注意力机制更有效地捕捉复杂数据中的重要特征,适用于需要捕捉多维度信息的任务。

Key/Query Position Embedding两者结合关系参考下图

temporal modeling

Q: ego-motion matrix是学出来的,还是系统输入的?
系统输入的,参考下文

Different from previous methods that either warp the explicit BEV features using ego-motion [11, 19] or encode the ego-motion into the position embedding [25], we adopt separated sets of object queries for each frame and encode the ego-motion to fuse the queries.

Q:与PETR有主要区别?

  • PETR的PE与Query PE都是在global space在预处理时就使用完毕(相机参数使用在图2D点->Camera3D点->世界3D点的转换过程)
  • CAPE是global与local PE混合使用的(主打local PE),相机内参在Key PE的时候使用,外参在Query PE的时候使用。

Experiment

总结与发散

因为Key PE与Query PE都转到了Camera View下,所以称为CAPE(CAmera view Position Embedding)。

相关链接

引用的第三方的链接

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:Multi,双向,Camera,Embedding,PE,Position,机制,Query,View
From: https://www.cnblogs.com/fariver/p/18429785

相关文章

  • ehviewer安卓和IOS怎样安装?(已解决)
    ehviewer是一款非常流行的办公软件套件,它提供了类似Microsoftehviewer的功能,包括文字处理(ehviewerWriter)、电子表格(ehviewerSpreadsheet)和演示文稿(ehviewerPresentation)。以下是安装和配置ehviewerOffice的详细步骤及技巧,适用于Windows操作系统。对于其他操作系统(如......
  • UIOTOS示例:自定义弹窗输出表单数据 | 前端低代码 前端零代码 web组态 无代码 amis gov
    目标对话框作为容器组件,可以隐藏掉默认的窗体头和脚,完全由内嵌页自定义,参见对话框自定义外观。并且也能获取弹窗纯表单数据,如下所示: 步骤内嵌页1.新建略。2.拖放组件拖放三个输入框,标识分别施志伟id、name、phone;两个按钮标识分别设置为cancel和ok 主页面1.新......
  • viewict小工具使用
      本文给大家介绍一个小工具,能够将ict文件图形化显示的方法。这个工具是cadence提供的viewict工具。执行viewict便能够很直观地看到每一层金属/介电层的情况。    如上图,可以很直观地看到不同金属的厚度,如顶层的alpa_inter为厚金属,可以很明显地看出其厚度要远大......
  • uniapp微信小程序 [AI算法识别] camera拍摄 实时帧的实现
    <template> <viewclass="con"> <camera device-position="back" frame-size="small" resolution="high" @initdone="startListener" @stop="endListener" @error="er......
  • 【Unity】CinemachineVirtualCamera:实现第一人称视角控制
    相机视角的控制,利用CinemachineVirtualCamera插件(在packageManager中下载)实现键盘和鼠标控制第一人称视角。WASD前进后退向左向右,QE左右旋转;鼠标滚轮控制远近、俯仰和升降。另外还支持鼠标靠近边缘移动、鼠标拖拽等控制方式。成果展示Scene部分主相机增加CinemachineBrain组......
  • Android与WebView(网页)的使用以及交互,阿里快手拼多多等7家大厂Android面试真题
    <?xmlversion="1.0"encoding="utf-8"?><LinearLayoutxmlns:android=“http://schemas.android.com/apk/res/android”android:layout_width=“match_parent”android:layout_height=“match_parent”android:orientation=......
  • ehviewer:轻量级且高性能的漫画探索神器
    ehviewer:轻量级且高性能的漫画探索神器ehviewerEhviewer-Overhauled/Ehviewer:EhviewerOverhauled是一个开源的安卓应用,主要用于浏览和下载e-hentai 和exhentai 网站上的内容。该项目是对原版EhViewer应用的改进版本。项目地址:http://ez.oubaidu.com/ehviewer在......
  • Paper Reading(2)-Audio Generation with Multiple Conditional Diffusion Model
    AudioGenerationwithMultipleConditionalDiffusionModel来源:http://export.arxiv.org/abs/2308.11940https://conditionaudiogen.github.io/conditionaudiogen/主要贡献:1)引入了一个新的任务,该任务可生成由文本和控制条件指导的音频,从而能够使用时间戳、音高轮廓和能量......
  • `std::string_view`(c++17) 和 `std::stringstream` 使用区别·
    std::string_view和std::stringstream都是C++中处理字符串的工具,但它们的设计目标和使用场景非常不同。我们可以通过几方面进行对比。1.设计目的和核心功能std::string_view:设计用于只读访问字符串或字符序列。是一个轻量级的字符串视图,不会持有字符串的数据,仅仅是对......
  • 【Unity】UI、背景和3D的Camera和Canvas设置
    目前存在需求背景是指定的图片,该图片始终显示在页面中,不会因场景的视角操控发生尺寸等变化;UI内容显示在页面最上层,同样不会因场景的视角操控发生尺寸等变化,但是当软件整个尺寸发生变化时,会跟随变化,UI内容会覆盖3D物体;3D物体可以随着相机视角的变化而变近变远等,3D物体上可能存在......