自动驾驶:10家端到端方案简述
基于今年发布的各类端到端智能驾驶方案,RoboX根据过往采访内容以及公开信息,高度概括出10家企业的端到端方案结构,以及相关负责人的观点,便于大家快速达成基本认知:
附赠自动驾驶最全的学习资料和量产经验:链接
01
理想汽车
**概述:**理想采用了「双系统」端到端——端到端「快系统」+VLM「慢系统」(视觉语言模型)。
其中,「快系统」负责实时响应、输出行为,「慢系统」则负责应对复杂逻辑判断,输出决策和参考轨迹。
理想汽车智能驾驶技术研发负责人-贾鹏:
“如果未来算力足够,VLM有望跑进10-20赫兹,达到实时。随着Thor等大算力芯片的到来,两个系统最终会合成一个统一的模型,而且兜底策略可能也会被VLM消化掉。”
02
蔚来汽车
**概述:**基于群体智能和生成式仿真,训练蔚来世界模型NWM,并基于该模型的时空认知和规划能力,进行端到端智能驾驶。
蔚来智能驾驶研发副总裁-任少卿:
“因为需要重建视频,接入信息也会更多,这使得NWM的收敛速度更快,想象的能力也会更强。同时,相比于之前的算法,NWM生成的视频长度会长很多。”
03
**概述:**小鹏的端到端智驾大模型包含:神经网络XNet(感知)、规控大模型XPlanner(决策控制)以及大语言模型XBrain(与用户交互)。其端到端方案也是fen分段式结构。
小鹏汽车董事长-何小鹏:
在Q2财报电话会上,何小鹏认为端到端的进步速度,会快速替代之前的L3甚至L4级自动驾驶,上限很高。但他同时认为端到端的下限还存在瓶颈,例如转角遇到流浪猫的特殊场景,端到端或许无法解决。
04
华为乾崑
概述:华为ADS 3.0进一步去掉了BEV网络,以GOD(通用障碍物识别)大模型负责感知,PDP(预测决策规控)网络负责预决策和规划,可实现「从原始信号输入到最终规划轨迹输出」的自动化过程,但同样是「分段式端到端」。
05
极氪汽车
**概述:**极氪的「浩瀚智驾2.0」由两个子系统组成,其中包括了两个自研的智驾大模型——场景认知大模型SCM + 规控大模型IPM,它们分别实现「感知端到端」和「规控端到端」。目前可以实现的是泊车场景端到端、路口场景端到端。
极氪智能科技副总裁-陈奇:
“「浩瀚智驾2.0」可大大提升复杂场景下的表现,也可以学习人类驾驶轨迹、变道时机等。接下来,极氪将分三个阶段实现实现「车位到车位全场景城市智驾」:从城市NZP通勤模式,到城市NZP,再到城市NZP+。”
06
长城汽车
**概述:**在采用端到端智驾大模型——SEE 2.0的同时,长城也做了多层兜底——通过数据共享和交换机制,该方案既要用一个感知模型替代多个模型,又要加上后处理的仲裁。以求既能直接输出驾驶轨迹,又能为感知加上模块化的决策规划,以此保证智能驾驶的拟人化和安全。
长城汽车智能平台开发中心的专家-吴国苏州:
“以当前的技术状态来说,谁也没办法达成完全端到端,更无法实现‘所有场景都能开’,所以将两种技术结合起来,是现阶段的比较好的方案。”
07
商汤绝影
**概述:**商汤绝影采用的是「完全端到端」方案UniAD——将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中,实现由传感器输入,直接输出行为轨迹。现阶段,该方案还需要规则兜底,而随着大模型的强化,亦有望舍弃规则。
未来,基于多模态大模型打造的DriveAGI将是可解释、可交互的下一代智驾方案。
商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁-王晓刚:
“「两段式」方案还是存在性能瓶颈的,因为其经过感知过滤后的信息,会出现较多损失。不过目前,一段式端到端还像一个孩子,需要规则兜底来帮扶一段时间,使其迭代;但这个孩子再怎么不成熟,也是属于人类,终究会成长起来。”
08
**概述:**地平线的SuperDrive采用了动态、静态、OCC「三合一的端到端感知架构」,该架构能够同时处理动态、静态目标,精准还原物理世界的真实环境。SuperDrive无需对感知数据进行抽象和逐级传递,提升了系统的遮挡准召率和降低了动态代码行数及网络负载。
09
Nullmax
**概述:**多模态大模型+「安全类脑」技术:通过多模态大模型,端到端系统可以根据理解来输出轨迹,并对其合理性进行一级仲裁;「安全类脑」则具备天然避障能力,可对多模态模型的控制输出进行二级仲裁,相当于监督功能。
Nullmax创始人、CEO、CTO -徐雷:
“之所以采用两个安全模块(一级仲裁+二级仲裁),是因为我们很难保证对规则的考虑都是全面的——不管是一段式端到端,还是模块化的端到端,都要基于感知结果设计规则,而感知的准确性不可能100%准确,并且终究会有一些规则是我们没有想到的。”
10
**概述:**鉴智机器人采用了端到端神经网络Agent——GraphAD,该范式将图模型思想引入motion和planning等任务中,对驾驶环境中的交互场景元素(Interaction Scene Graph,ISG)进行显性建模,使得学习和训练效率更强。目前,该方案已经部署到量产车载计算平台上。
鉴智机器人联合创始人、CTO都大龙:
“我们将真实世界的信息压缩成一个生成式模型,同时要不断对其进行几个层面的优化:包括真实度、可控度以及可交互度,使其无限逼近真实世界。
标签:10,方案,模型,驾驶,家端,简述,概述,感知,端到 From: https://blog.csdn.net/NEON7788/article/details/142057860