首页 > 编程语言 >地平线 3D 目标检测 bev_sparse 参考算法-V1.0

地平线 3D 目标检测 bev_sparse 参考算法-V1.0

时间:2024-10-30 09:59:37浏览次数:1  
标签:instance bev self feature V1.0 BEV sparse qconfig anchor

该示例为参考算法,仅作为在 征程 6 上模型部署的设计参考,非量产算法

01 简介

在自动驾驶视觉感知系统中,为了获得环绕车辆范围的感知结果,通常需要融合多摄像头的感知结果。目前更加主流的感知架构则是选择在特征层面进行多摄像头融合。

其中比较有代表性的路线就是这两年很火的 BEV 方法,继 Tesla Open AI Day 公布其 BEV 感知算法之后,相关研究层出不穷,感知效果取得了显著提升,BEV 也几乎成为了多传感器特征融合的代名词。

但是,随着大家对 BEV 研究和部署的深入,BEV 范式也逐渐暴露出来了一些缺陷:

  • 感知范围、感知精度、计算效率难平衡:从图像空间到 BEV 空间的转换,是稠密特征到稠密特征的重新排列组合,计算量比较大,与图像尺寸以及 BEV 特征图尺寸成正相关。

    在大家常用的 nuScenes 数据中,感知范围通常是长宽 [-50m, +50m] 的方形区域,然而在实际场景中,我们通常需要达到单向 100m,甚至 200m 的感知距离。

    若要保持 BEV Grid 的分辨率不变,则需要大大增加 BEV 特征图的尺寸,从而使得端上计算负担和带宽负担都过重;若保持 BEV 特征图的尺寸不变,则需要使用更粗的 BEV Grid,感知精度就会下降。

    因此,在车端有限的算力条件下,BEV 方案通常难以实现远距离感知和高分辨率特征的平衡;

  • 无法直接完成图像域的 2D 感知任务:BEV 空间可以看作是压缩了高度信息的 3D 空间,这使得 BEV 范式的方法难以直接完成 2D 相关的任务,如标志牌和红绿灯检测等,感知系统中仍然要保留图像域的感知模型。

实际上,我们感兴趣的目标(如动态目标和车道线)在空间中的分布通常很稀疏,BEV 范式中有大量的计算都被浪费了。因此,我们希望实现一个高性能高效率的长时序纯稀疏融合感知算法,一方面能加速 2D->3D 的转换效率,另外一方面在图像空间直接捕获目标跨摄像头的关联关系更加容易,因为在 2D->BEV 的环节不可避免存在大量信息丢失。

地平线提出了 Sparse4D 及其进化版本 Sparse4D v2,从 Query 构建方式、特征采样方式、特征融合方式、时序融合方式等多个方面提升了模型的效果。

02 性能精度指标

03 公版模型介绍

Sparse4D 采用了 Encoder-Decoder 结构。其中 Encoder 包括 image backbone 和 neck,用于对多视角图像进行特征提取,得到多视角多尺度特征图。

同时会 cache 历史帧的图像特征,用于在 decoder 中提取时序特征;Decoder 为多层级联形式,输入时序多尺度图像特征图和初始化 instance,输出精细化后的 instance,每层 decoder 包含 self-attentiondeformable aggregationrefine module 三个主要部分。

学习 2D 检测领域 DETR 改进的经验,我们也重新引入了 Anchor 的使用,并将待感知的目标定义为 instance,每个 instance 主要由两个部分构成:

  1. Instance feature :目标的高维特征,在 decoder 中不断由来自于图像特征的采样特征所更新;

  2. 3D Anchor :目标结构化的状态信息,比如 3D 检测中的目标 3D 框(x, y, z, w, l, h, yaw, vx, vy);公版通过 kmeans 算法来对 anchor 的中心点分布进行初始化;

    同时,在网络中会基于一个 MLP 网络来对 anchor 的结构化状态进行高维空间映射得到 Anchor Embed

    标签:instance,bev,self,feature,V1.0,BEV,sparse,qconfig,anchor
    From: https://www.cnblogs.com/horizondeveloper/p/18515196

相关文章

  • 《DNK210使用指南 -CanMV版 V1.0》第三十四章 image图像滤波实验
    第三十四章image图像滤波实验1)实验平台:正点原子DNK210开发板2)章节摘自【正点原子】DNK210使用指南-CanMV版V1.03)购买链接:https://detail.tmall.com/item.htm?&id=7828013987504)全套实验源码+手册+视频下载地址:http://www.openedv.com/docs/boards/k210/ATK-DNK210.html5)......
  • BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View阅读小
    BEVDet:High-PerformanceMulti-Camera3DObjectDetectioninBird-Eye-ViewBEVDet高性能多相机鸟瞰视图3D目标检测论文概述BEVDet是一种模块化设计的3D目标检测框架,以鸟瞰视图(Bird-Eye-View,BEV)执行3D目标检测,通过现有模块构建其框架,并通过定制数据增强策略和优化非......
  • BEVDet-Tiny复现Nuscenes-Mini数据集
    论文地址:https://arxiv.org/abs/2112.11790项目地址:https://github.com/HuangJunJie2017/BEVDet在anaconda中创建虚拟环境并启动condacreatebevdet_ckptpython=3.7-y进入虚拟环境condaactivatebevdet_ckpt阅读论文,想要复现BEVDet的Tiny版本,在原作者的Github最新bra......
  • Post apocalyptic survival character v1.0.1 末日生存人物男
    链接https://pan.baidu.com/s/11zQyVW9V55B_615sc-QIqQ?pwd=hkqr......
  • 《DNK210使用指南 -CanMV版 V1.0》第三十三章 image元素绘制实验
    第三十三章image元素绘制实验1)实验平台:正点原子DNK210开发板2)章节摘自【正点原子】DNK210使用指南-CanMV版V1.03)购买链接:https://detail.tmall.com/item.htm?&id=7828013987504)全套实验源码+手册+视频下载地址:http://www.openedv.com/docs/boards/k210/ATK-DNK210.html5)......
  • 电脑端 进销存库存管理系统 华讯库存管理系统 v1.0
    这款免费网络版进销存库存管理系统,不仅支持无限用户同时使用,且功能不受任何限制。它界面简洁、操作简单,非常适合小规模企业,完全可以取代传统的Excel表格处理进销存管理及出入库业务。系统分为五个主要板块:入库管理、出库管理、库存报表、资料管理、系统设置。各板块功能清晰,使......
  • fast-bev
    资料:论文:https://arxiv.org/abs/2301.12511代码:https://github.com/Sense-GVT/Fast-BEV【BEV】学习笔记之FastBEV(原理+代码注释)-知乎(zhihu.com)【BEV视图变换】Fast-Ray(2):代码复现+画图解释基于查找表LUT、多视角到单个三维体素转换(代码一键运行)_fast-ray变换讲......
  • 《DNK210使用指南 -CanMV版 V1.0》第三十二章 音频FFT实验
    第三十二章音频FFT实验1)实验平台:正点原子DNK210开发板2)章节摘自【正点原子】DNK210使用指南-CanMV版V1.03)购买链接:https://detail.tmall.com/item.htm?&id=7828013987504)全套实验源码+手册+视频下载地址:http://www.openedv.com/docs/boards/k210/ATK-DNK210.html5)正点原......
  • DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh HybridR
    目录一、概述二、前置知识1、分数蒸馏采样 2、LBS 3、DQS4、EucDist和GeoDist算法三、相关工作1、三维生成2、4D表示3、4D生成四、DreamMesh4D1、静态阶段 2、动态阶段-可变形图建立 3、动态阶段--自适应可变蒙皮算法 一、概述    该论文提出了......
  • Sparse Table
    SparseTable可用于解决这样的问题:给出一个\(n\)个元素的数组\(a_1,a_2,\cdots,a_n\),支持查询操作计算区间\([l,r]\)的最小值(或最大值)。这种问题被称为区间最值查询问题(RangeMinimum/MaximumQuery,简称RMQ问题)。预处理的时间复杂度为\(O(n\logn)\),预处理后数组\(a......