[Paper Reading] UniAD: Planning-oriented Autonomous Driving

时间：2024-06-05 20:37:03浏览次数：20

标签：轨迹 MapFormer Driving 特征 Segformer UniAD oriented Planning query

Planning-oriented Autonomous Driving

link
时间：23.03
机构：Shanghai AI Laboratory && SenseTime

TL;DR

将感知、预测以及规划模块整合成为一个E2E的网络结构。该工作是CVPR2023的Best Paper。

Method

TrackFormer

可以参考MOTR来理解，MapFormer可参考来理解。

MapFormer

主要用来预测车道、分隔线、人行横道以及可行驶区别。做法可参考Segforme来理解，Segformer的结构图如下图所示。不同于ViT backbone，Segformer中使用的是MiT(Mix Transformer Encoder)，MiT区别与ViT主要在两处：
Hierarchical Feature Representation
即利用Transformer抽取multi-scale的特征sequence，关键在于feature sequence特征下采样方法，Segformer使用了一种称为Overlapped Patch Merging的处理，简单来说就是将2x2邻域内特征合并为一个feat embedding。

Given an image patch, the patch merging process used in ViT, unifies aN ×N ×3patchintoa1×1×C vector. Thiscaneasilybeextendedtounifya2×2×Ci feature path into a 1 × 1 × Ci+1 vector to obtain hierarchical feature maps.

All-MLP Decoder
参考Segformer架构图右下解，即通过Upsample（类似于CNN特征的处理）上采样到统一分辨率(W/4, H/4)。

MotionFormer

如下图所示，重点需要理解Agent-Goal Interaction，每个目标会有6条候选轨迹，在每个轨迹中有4个点。通过agent query与轨迹中采样出的24点之间关系来确定最终需要预测的轨迹。

Occupancy Prediction

t帧时序窗口(包括当前帧与未来帧)预测instance级别occupancy，输入包括稠密特征\(F^{t-1}\)以及来自之前模块的稀疏特征{物体特征\(Q_A\), 物体位置\(P_A\)以及运动信息motion query \(Q_X\)}

Planning

将turn left, turn right and keep forward等运动编码为指令query(command embeddings)，将planning query输入BEV特征使得运动规划过程能考虑到周围环境信息。Loss方面一方面需要让预测的指令接近GT轨迹，另一方面需要指令对应的运动轨迹远离被占据的栅格(利用occupancy predictoin信息)。

Experiment

实验训练分为两步，第一步先训感知部分(TrackFormer, MapFormer)，第二步再整体E2E训练。

与BEVFormer、LSS等经典方法对比，至少车道线上提升还是比较明显的。

总结与发散

论文写得比较扎实，很多内容需要看Appendix才能明白
整体E2E是个有潜力的大方向，类似于RCNN->Faster-RCNN的进化

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：轨迹,MapFormer,Driving,特征,Segformer,UniAD,oriented,Planning,query
From： https://www.cnblogs.com/fariver/p/18228737

Principles of Object Oriented Class Design
PrinciplesofObjectOrientedClassDesignhttps://staff.cs.utu.fi/~jounsmed/doos_06/material/DesignPrinciplesAndPatterns.pdfTheOpenClosedPrinciple(OCP)1Amoduleshouldbeopenforextensionbutclosedformodification.Ofalltheprinciplesofobjec......
从 UniAD 到智驾 AGI，解读智驾新趋势（2023.09）
9月12日，由商汤绝影「绝世高手」联合行业自媒体「汽车之心」行家说栏目，邀请到重磅嘉宾：上海人工智能实验室青年科学家李弘扬、青年科学家蔡品隆，商汤研究院研发总监卢乐炜、商汤研究院算法研究员邓瀚铭，一同与大家分享《从UniAD到智驾AGI，解读智驾新趋势》，深入解读UniAD技术亮......
【PR】UC-NERF: NEURAL RADIANCE FIELD FOR UNDERCALIBRATED MULTI-VIEW CAMERAS IN A
【简介】这篇文章的作者来自中科大、北大武汉人工智能研究院、大疆和上海科大，投稿到了ICLR2024会议，已接收。UC，表示undercalibrated，意味着标定不准。本文提出UC-NeRF用于解决标定不够好的多相机配置的新视角合成方法。首先，作者提出一种基于层的颜色校正方法，以纠正不同图像区域......
python面向对象(Object Oriented Program)
面向对象(ObjectOrientedProgram)在Python中，所有的数据（包括数字和字符串）实际都是对象，同一类型的对象都有相同的类型。我们可以使用type()函数来获取关于对象的类型信息。什么是类，什么是对象？在Python中，使用类来定义同一种类型的对象。类（class）是广义的数据类型，能够定义复......
感慨！美国人的大学课程搞的确实蛮好的，不是那种刻板读书的感觉 —— 课程：SERVICE-ORIENT
无意间看到了一个美国人的课程，使用的教材：《SERVICE-ORIENTEDCOMPUTINGANDSYSTEMINTEGRATION:SOFTWARE,IOT,BIGDATA,ANDAIASSERVICES》这是一本物联网、大数据的书，而且是比较泛的书，全书其实没有太多的技术干活，但是这并不是这里要说的重点，这里要说的重点是这书搞的时......
Creating HTML table with vertically oriented text as table header 表头文字方向
ASanoldquestion,thisismorelikeinfoorreminderaboutverticalmarginorpaddingin%thattakesparent'swidthasreference.Ifyouuseapseudoelementandvertical-padding,youmaybasiclydrawasquareboxor<td>:http://jsfiddle.n......
driving-license-subject-one
科目一笔记Created:2023-07-10T16:04+08:00Published:2023-08-09T16:00+08:00Modified:本文最大的作用可能是提出了一种通过区间记忆超速扣分的方式目录车型申领年龄人员要求A1/A2B1C1/C2C6残疾人提交材料增驾境外管理办法处罚培训和考试考试科目发证处罚驾驶证管理办法有......
论文解读（Moka‑ADA）《Moka‑ADA: adversarial domain adaptation with model‑orient
Note：[wechat：Y466551|可加勿骚扰，付费咨询]论文信息论文标题：Moka‑ADA:adversarialdomainadaptation withmodel‑orientedknowledgeadaptation forcross‑domainsentimentanalysis论文作者：MaoyuanZhangXiangLiFeiWu论文来源：2023aRxiv论文地址：download 论......
Intention-Aware Online POMDP Planning for Autonomous Driving in a Crowd
一、论文信息发表日期：2015年发表机构：新加坡国立大学，计算机科学系二、论文内容1.解决问题：无人车在人员密集处的速度规划算法2.方法：前向仿真+强化学习概念 ①.路径规划和速度规划进行解耦，进行速度规划之前路径已确定。 ②.速度规划采取部分可观测马尔可夫决策过程，......
IfcOrientedEdge
IfcOrientedEdge实体定义注：定义依据ISO/CD10303-42:1992定向边是由另一条边构造的边，它包含BOOLEAN方向标志，用于指示构造的边的方向是否与原始边的方向一致。除了方向之外，定向的边与原始边相等。一种常见的做法是，实体建模系统是有一个表示边的“使用”或“遍历”的实体。这......