文章目录
前言
摘要:在本文中,我们提出了HE-Drive:首个以人类为中心的端到端自动驾驶系统,旨在生成既具有时间一致性又舒适的轨迹。近期研究表明,基于模仿学习的规划器和学习型轨迹评分器能够有效生成和选择与专家示范高度相似的准确轨迹。然而,这些轨迹规划器和评分器面临生成时间不一致和不舒适轨迹的困境。为了解决上述问题,HE-Drive首先通过稀疏感知提取关键的3D空间表示,这些表示随后作为条件输入,用于基于条件去噪扩散概率模型(DDPM)的运动规划器生成时间一致的多模态轨迹。随后,视觉-语言模型(VLM)引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹,以控制车辆,确保人类般的端到端驾驶。实验表明,HE-Drive不仅在具有挑战性的nuScenes和OpenScene数据集上实现了先进的性能(即,与VAD相比,平均碰撞率降低了71%)和效率(即,比SparseDrive快1.9倍),而且在真实世界数据上提供了最舒适的驾驶体验。
图1:我们展示了HE-Drive,首个类人端到端驾驶系统。HE-Drive以多视角传感器数据为输入,输出在复杂场景中驾驶的最优路径。
一、介绍
端到端(Hu et al., 2023b;Jiang et al., 2023b;Sun et al., 2024)将感知、规划和轨迹评分任务整合到一个统一的模型中,针对规划目标进行优化,最近在推动自动驾驶技术方面展现了显著潜力(见图1a)。最新研究提出了基于模仿学习的运动规划器(Chen et al., 2024;Cheng et al., 2024),从大规模驾驶示范中学习驾驶策略,并采用基于学习的轨迹评分器(Zhao et al., 2021;Jiang et al., 2023a)从多个预测候选中选择最安全和最准确的轨迹来控制车辆。然而,尽管现有规划器和评分器在预测准确性方面取得了显著改善,它们面临生成时间不一致轨迹的挑战,即连续预测不稳定且随时间不一致,以及选择表现出连续制动的不舒适轨迹,导致停车或过度转向。
在本研究中,我们引入了HE-Drive,这是首个以人为中心的端到端自动驾驶系统,以解决上述两个问题,如图2所示。具体来说,我们发现,模仿学习规划器生成的轨迹中的时间不一致性源于两个主要因素:时间相关性和泛化能力。首先,这些规划器依赖于当前帧过去几秒的信息来预测未来轨迹,忽略了连续预测之间的相关性(Zhou et al., 2023;Tang et al., 2024)。其次,它们的性能受限于收集的离线专家轨迹的质量,使其对系统动态变化和分布外状态敏感,导致学习的策略缺乏对未见场景的泛化能力。受扩散策略(Chi et al., 2024)在机器人操控中的成功启发,该策略利用基于视觉条件的扩散模型(Ho et al., 2020)准确表示多模态分布以生成动作序列,我们提出了一种基于扩散的规划器,生成具有强时间一致性的多模态轨迹。
此外,不舒适预测轨迹的一个关键原因是次优轨迹评分器无法实现持续评估,并且缺乏测量轨迹舒适度的通用指标。最近的研究表明,基于学习的评分器在闭环场景中不如基于规则的评分器(Dauner et al., 2023),而后者因依赖手工后处理而泛化能力有限。其他研究者探索了使用视觉-语言模型(VLMs)(Shao et al., 2024;Sima et al., 2023;Xu et al., 2024a)感知周围代理的运动和交通表示,以决定下一个动作。然而,直接将VLM作为驾驶决策者面临解释性差和严重幻觉等挑战(Xu et al., 2024b)。为了解决这些问题,我们提出了一种新型轨迹评分器和通用舒适度指标,结合了基于规则的评分器的可解释性与VLM的适应性,以调整驾驶风格(即激进或保守)进行持续评估。
总之,HE-Drive,这一新型以人为中心的端到端自动驾驶系统,利用稀疏感知基于稀疏特征检测、跟踪和映射驾驶场景,生成3D空间表示。这些表示作为条件输入到基于扩散的运动规划器中,支持条件去噪扩散概率模型(DDPM)。最后,由VLM引导(即Llama 3.2V)的轨迹评分器从候选中选择最舒适的轨迹来控制车辆,确保类人端到端驾驶。我们工作的主要贡献总结如下:
-
基于扩散的运动规划器:我们提出了一种基于扩散的运动规划器,通过对稀疏感知网络提取的3D表示进行条件化,并结合历史预测轨迹的速度、加速度和偏航,生成时间一致且多模态的轨迹。(§ 3.2)
-
即插即用的轨迹评分器:我们引入了一种新型的基于视觉-语言模型(VLMs)的轨迹评分器和舒适度指标,旨在弥补人类驾驶的差距,使其能够轻松集成到现有的自动驾驶系统中。(§ 3.3)
-
开放环路和闭环基准测试中的优异结果:HE-Drive在nuScenes和OpenScene数据集上实现了最先进的性能(即,平均碰撞率比VAD降低71%)和效率(即,比SparseDrive快1.9倍),同时在实际数据集上提高了32%的舒适度,展示了其在各种场景中的有效性。(§ 4.2,§ 4.4 和 § 4.5)
二、相关工作
在本节中,我们首先在2.1节回顾端到端自动驾驶车辆导航的经典方法。接下来,2.2节汇总了当前在机器人领域中采用扩散模型进行轨迹规划的研究。进一步讨论,2.3节回顾了视觉-语言模型(VLMs)在自动驾驶系统中的轨迹评估应用。
2.1 端到端自动驾驶
端到端自动驾驶旨在直接从原始传感器生成规划轨迹。在该领域,进展根据评估方法的不同被分类为开放环路和闭环系统。在开放环路系统中,UniAD(Hu et al., 2023a)提出了一个统一框架,将全栈驾驶任务与查询统一接口集成,以改善任务之间的互动。VAD(Jiang et al., 2023a)提高了规划的安全性和效率,在nuScenes数据集上的表现证明了这一点,而SparseDrive(Sun et al., 2024)利用稀疏表示来减轻模块化系统中固有的信息损失和误差传播,从而增强了任务性能和计算效率。在闭环评估中,VADv2(Chen et al., 2024)通过概率规划推进了向量化的自动驾驶,使用多视角图像生成用于车辆控制的动作分布,在CARLA Town05基准测试中表现优异。
2.2 用于轨迹生成的扩散模型
扩散模型最初在图像合成中取得了成功,现已被灵活地用于轨迹生成。潜在基础的扩散运动规划(Luo et al., 2024)进一步增强了该领域,通过采用学习的潜在函数来构建适应杂乱环境的运动计划,展示了该方法的可扩展性和可转移性。NoMaD(Sridhar et al., 2024)和SkillDiffuser(Liang et al., 2024)均提出了统一框架,分别简化了目标导向导航和基于技能的任务执行,NoMaD实现了改进的导航结果,而SkillDiffuser则使得可解释的高层指令执行成为可能。总而言之,扩散模型为基于模仿学习的端到端自动驾驶框架在轨迹规划方面提供了有前景的替代方案。模仿学习模型可能会错误地将驾驶员的行为归因于错误的因果因素,这源于固有的因果混淆。相比之下,扩散模型能够更好地捕捉潜在空间中场景特征与驾驶员行为的联合分布,从而正确地将真实原因与相应的行动关联。
2.3 用于轨迹评估的大型语言模型(LLMs)
轨迹评分(Fan et al., 2018)在自动驾驶决策中起着至关重要的作用。基于规则的方法(Treiber et al., 2000)提供了强大的安全保障,但缺乏灵活性,而基于学习的方法(Chitta et al., 2021; Prakash et al., 2021)在开放环路任务中表现良好,但在闭环场景中则存在困难(Treiber et al., 2000; Dauner et al., 2023)。最近,DriveLM(Sima et al., 2023)将VLMs集成到端到端驾驶系统中,通过感知、预测和规划问答对建模图结构推理。然而,大型模型生成的结果可能包含幻觉,并需要进一步的策略以确保在自动驾驶中的安全应用。VLMs的出现引发了一个问题:VLMs能否在轨迹评分器的基础上,适应性地调整驾驶风格,同时确保舒适性?
三、 方法论
在本节中,我们介绍HE-Drive的关键组件(见图2):稀疏感知(第3.1节)、基于扩散的运动规划器(第3.2节)和由大语言模型引导的轨迹评分器(第3.3节)。
3.1 稀疏感知
HE-Drive首先采用视觉编码器(He et al., 2016)从输入的多视角相机图像中提取多视角视觉特征,记作F。这些图像被标记为
Γ
=
{
J
τ
∈
R
N
×
3
×
H
×
W
}
τ
=
T
−
k
T
\Gamma=\left\{J_{\tau}\in \mathbb{R}^{N\times 3\times H\times W}\right\}_{\tau=T-k}^{T}
Γ={Jτ∈RN×3×H×W}τ=T−kT,其中N是摄像机的数量,窗口长度,
J
τ
J_{\tau}
Jτ代表时间步
τ
\tau
τ的多视图图像,T是当前时间步。随后,来自(Sun et al., 2024)的稀疏感知同时执行检测和在线制图任务,提供了一个更高效和紧凑的周围环境的3D表示(见图2)。
图2:我们提出的框架概述:HE-Drive首先使用现成的视觉编码器从多视角图像中提取特征,然后稀疏感知动态和静态元素以生成3D表示。这些表示和历史预测轨迹作为扩散模型的条件,用于生成具有时间一致性的多模态轨迹。最终的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆。
3.2 基于扩散的运动规划器
图2展示了我们基于扩散的运动规划器的整体流程。我们采用基于CNN的扩散策略(Chi et al., 2024; Ze et al., 2024)作为基础,它由1D卷积层、上采样层和FiLM(Feature-wise Linear Modulation)层组成的条件U-Net(Perez et al., 2018)构成。
运动规划扩散策略:我们的方法(图7)采用了条件去噪扩散概率模型(DDPM),这是一个通过参数化的马尔可夫链定义的生成模型,使用变分推断训练,以模拟条件分布p(At|Ot)。DDPM包括一个前向过程,逐渐向输入数据添加高斯噪声,将其转换为纯噪声,以及一个反向过程,迭代去噪噪声数据以恢复原始数据。
具体来说,输入到DDPM的条件包括紧凑的3D表示O、自车状态e、历史预测轨迹H,以及它们对应的速度Vi、加速度ai和偏航编码Qi。合并的条件C,包括观测Ot和上述相关条件,通过FiLM(Perez et al., 2018)注入到网络的每个卷积层中。这种逐通道的条件控制指导了从自车位置到锚点位置的轨迹生成。去噪过程从形状为[B, Na, Ti, P]的高斯噪声At开始,其中B表示批次大小,Na代表锚点数量,Ti表示轨迹上导航点之间的时间间隔(i = 0.5, 1, 1.5, 2, 2.5, 3)。P代表每个时间间隔Ti的位置(x, y)。通过k次迭代使用去噪网络ea,将噪声数据迭代细化为无噪声的3秒未来多模态轨迹Ao。每条轨迹Ti被表示为一组航点[(at, yt)]t=1。反向过程由以下方程描述:
A
k
−
1
=
α
(
A
−
E
e
(
A
,
k
,
O
t
,
0
,
e
,
H
)
+
N
(
O
,
α
2
,
I
)
)
(
1
)
A_{k-1} = \alpha(A - \mathbb{E}_e(A, k, Ot, 0, e, H) + N(O, \alpha^2, I)) \qquad(1)
Ak−1=α(A−Ee(A,k,Ot,0,e,H)+N(O,α2,I))(1)
其中α和β是缩放因子,N(O, α’, I)表示均值为O,方差为α^2的高斯噪声。我们的运动规划器利用DDPM通过迭代细化噪声数据的能力,根据相关输入变量生成高质量的样本。包括紧凑的3D表示、自车状态、历史轨迹及其对应的速度、加速度和偏航编码的条件信息,通过FiLM层并入去噪网络,使得生成的多模态和强时间一致性的轨迹能够考虑到周围环境和历史信息。详细描述请参考附录A.1。
3.3 基于大语言模型的轨迹评分器
为了从DDPM生成的多模态轨迹中选择最合适的路径,我们引入了基于大语言模型的轨迹评分器(VTS),如图3所示。据我们所知,VTS是第一个结合了解释性和零样本驾驶推理能力的轨迹评分器。
通过利用视觉语言模型(VLMs),VTS能够有效评估轨迹,基于多种驾驶因素(例如,碰撞概率和舒适性),实现透明的决策过程,并适应新的驾驶场景而无需 extensive fine-tuning(即,终身评估)。
3.3.1 基于规则的轨迹评分策略
具体来说,我们使用以下成本函数的线性组合来对采样的轨迹进行评分。总成本函数
C
total
C_{\text{total}}
Ctotal 由两个主要部分组成:安全成本
C
safety
C_{\text{safety}}
Csafety 和舒适成本
C
comfort
C_{\text{comfort}}
Ccomfort。
C
total
=
C
safety
+
C
comfort
(
2
)
C_{\text{total}}=C_{\text{safety}}+C_{\text{comfort}}\qquad(2)
Ctotal=Csafety+Ccomfort(2)
安全成本:安全成本
C
safety
C_{\text{safety}}
Csafety 是四个子成本的聚合:
C
safety
=
w
coll
C
coll
+
w
dis
C
dis
+
w
deviation
C
deviation
+
w
speed
C
speed
(
3
)
C_{\text{safety}}=w_{\text{coll}} C_{\text{coll}}+w_{\text{dis}} C_{\text{dis}}+w_{\text{deviation}} C_{\text{deviation}}+w_{\text{speed}} C_{\text{speed}}\qquad(3)
Csafety=wcollCcoll+wdisCdis+wdeviationCdeviation+wspeedCspeed(3)
其中
C
coll
=
exp
(
−
d
coll
/
σ
coll
)
(
4
)
C_{\text{coll}}=\exp\left(-d_{\text{coll}}/\sigma_{\text{coll}}\right)\qquad(4)
Ccoll=exp(−dcoll/σcoll)(4)
C
dis
=
∥
p
end
−
p
target
∥
2
(
5
)
C_{\text{dis}}=\left\|p_{\text{end}}-p_{\text{target}}\right\|_{2}\qquad(5)
Cdis=∥pend−ptarget∥2(5)
C
deviation
=
∑
i
=
1
N
(
1
−
cos
(
θ
i
−
θ
target
)
)
C
speed
=
(
v
ˉ
−
v
target
)
2
(
6
)
\begin{align*} C_{\text{deviation}}&=\sum_{i=1}^{N}(1-\cos\left(\theta_{i}-\theta_{\text{target}}\right))\\ C_{\text{speed}}&=(\bar{v}-v_{\text{target}})^{2} \end{align*}\qquad(6)
CdeviationCspeed=i=1∑N(1−cos(θi−θtarget))=(vˉ−vtarget)2(6)
C
speed
=
(
v
ˉ
−
v
target
)
2
(
7
)
C_{\text{speed}}=(\bar{v}-v_{\text{target}})^{2}\qquad(7)
Cspeed=(vˉ−vtarget)2(7)
这里,
d
coll
d_{\text{coll}}
dcoll 是到障碍物的最小距离,
C
coll
C_{\text{coll}}
Ccoll 有效地捕捉了车辆与障碍物距离与碰撞风险之间的关系。缩放因子
σ
coll
\sigma_{\text{coll}}
σcoll 设置为1.0米,以确保随着距离的减少成本迅速增加,优先避免碰撞。
p
end
p_{\text{end}}
pend 和
p
target
p_{\text{target}}
ptarget 分别是终点和目标位置,
C
dis
C_{\text{dis}}
Cdis 表示它们之间的欧几里得距离。N是轨迹上的点数,
θ
i
\theta_{i}
θi 是第i个点的航向,
θ
target
\theta_{\text{target}}
θtarget 是目标航向。
C
deviation
C_{\text{deviation}}
Cdeviation 测量轨迹与目标航向的累积偏差。
v
ˉ
\bar{v}
vˉ 是平均速度,
v
target
v_{\text{target}}
vtarget 是目标速度,
C
speed
C_{\text{speed}}
Cspeed 对偏离目标速度的行为进行惩罚。
舒适成本:舒适成本
C
comfort
C_{\text{comfort}}
Ccomfort 由三个子成本组成:
C
comfort
=
w
lat
C
lat
+
w
lon
C
lon
+
w
cent
C
cent
(
8
)
C_{\text{comfort}}=w_{\text{lat}}C_{\text{lat}}+w_{\text{lon}}C_{\text{lon}}+w_{\text{cent}}C_{\text{cent}}\qquad(8)
Ccomfort=wlatClat+wlonClon+wcentCcent(8)
C
lat
=
max
(
∣
a
lat
∣
)
(
9
)
C_{\text{lat}}=\max(|a_{\text{lat}}|)\qquad(9)
Clat=max(∣alat∣)(9)
C
lon
=
max
(
∣
a
lon
∣
)
(
10
)
C_{\text{lon}}=\max\left(\left|a_{\text{lon}}\right|\right)\qquad(10)
Clon=max(∣alon∣)(10)
C
cent
=
max
(
∣
a
cent
∣
)
(
11
)
C_{\text{cent}}=\max\left(\left|a_{\text{cent}}\right|\right) \qquad(11)
Ccent=max(∣acent∣)(11)
这里,
a
lat
,
a
lon
a_{\text{lat}}, a_{\text{lon}}
alat,alon 和
a
cent
a_{\text{cent}}
acent 分别是横向、纵向和向心加速度。舒适成本
C
comfort
C_{\text{comfort}}
Ccomfort 设计用来惩罚可能导致乘客不适的过度横向、纵向和向心加速度。通过最小化这些加速度的最大绝对值,轨迹规划器旨在减少剧烈的左右移动、突然制动或激进加速,并确保通过转弯时的平滑导航。权重
w
coll
w_{\text{coll}}
wcoll、
w
dis
w_{\text{dis}}
wdis、
w
deviation
w_{\text{deviation}}
wdeviation、
w
speed
w_{\text{speed}}
wspeed、
w
lat
w_{\text{lat}}
wlat、
w
lon
w_{\text{lon}}
wlon 和
w
cent
w_{\text{cent}}
wcent 平衡每个子成本对总成本函数的影响(见表1),允许轨迹规划器根据自动驾驶系统的具体要求优先考虑安全和舒适的不同方面。
**图3:**提出的基于大语言模型的轨迹评分器(VTS)概述。第一阶段通过使用预标注的驾驶场景数据来减轻幻觉问题,而第二阶段则利用Llama 3.2V进行视觉问答(VQA),结合GPT-4o生成的提示和车辆图像进行驾驶风格调整。
3.3.2 VLMs 帮助调整驾驶风格。
我们的VLM引导轨迹评分器(图3)由两个阶段组成。在第一阶段,我们策划了一个包含标注周围图像的数据集,这些图像包括对当前驾驶场景的描述、周围代理(即人类和车辆)的运动状态,以及当前驾驶风格(即激进或保守)的描述,以及权重调整值。通过迭代对话,Llama 3.2V(Dubey et al., 2024)吸收上下文信息,减轻模型幻觉。
在第二阶段,我们使用GPT-4o(Achiam et al., 2023)为视觉问题回答(VQA)生成一系列提示模板。利用交通模式中固有的时空稳定性,我们每隔五秒钟间歇性地激活Llama 3.2V来完善驾驶行为。模型在处理新图像时评估驾驶环境,并在基于规则的系统中为预定义的安全和舒适参数校准评分权重。这种方法允许对成本权重进行精确调整,增强驾驶风格对不同场景的响应性。通过将VLM作为驾驶风格调节器而不是直接决策者,我们减轻了与模型幻觉相关的安全风险,并提高了基于规则的轨迹评分器对新场景的适应性。
3.4 端到端驾驶舒适度指标
为了解决现有端到端方法中缺乏通用舒适度评估指标的问题,我们提出了一个通用指标来评估预测轨迹的舒适度和人性化(Han et al., 2023)。我们提出的舒适度指标旨在量化预测轨迹与真实轨迹之间的相似性,考虑动态可行性、急动度和轨迹平滑性等因素。
考虑在直角坐标系中简化的动力学自行车模型,我们描述了一个前轮驱动和转向的四轮车辆的动力学,假设完美滚动且无打滑。状态向量定义为
x
=
(
p
x
,
p
y
,
θ
,
v
,
a
t
,
a
n
,
ϕ
,
κ
)
T
x = (p_x, p_y, \theta, v, a_t, a_n, \phi, \kappa)^T
x=(px,py,θ,v,at,an,ϕ,κ)T,其中
p
=
(
p
x
,
p
y
)
T
p = (p_x, p_y)^T
p=(px,py)T 表示后轮中心的位置,v是相对于车辆坐标系的纵向速度,
a
t
a_t
at 和
a
n
a_n
an 分别表示纵向和横向加速度,
ϕ
\phi
ϕ 是前轮的转向角,
κ
\kappa
κ 是曲率。完整的轨迹表示
σ
(
t
)
:
[
0
,
T
s
]
\sigma(t) : [0, T_s]
σ(t):[0,Ts] 制定为:
σ
(
t
)
=
σ
i
(
t
−
T
^
i
)
,
∀
i
∈
{
1
,
2
,
.
.
.
,
n
}
,
t
∈
[
T
^
i
,
T
^
i
+
1
)
,
(
12
)
\sigma(t)=\sigma_i(t-\hat{T}_i),\forall i\in\{1,2,...,n\},t\in[\hat{T}_i,\hat{T}_{i+1}),\qquad(12)
σ(t)=σi(t−T^i),∀i∈{1,2,...,n},t∈[T^i,T^i+1),(12)
其中
T
s
=
∑
i
=
1
n
T
i
T_{s}=\sum_{i=1}^{n} T_{i}
Ts=∑i=1nTi 是整个轨迹的持续时间,
T
^
i
=
∑
j
=
1
i
−
1
T
j
\hat{T}_{i}=\sum_{j=1}^{i-1} T_{j}
T^i=∑j=1i−1Tj 是第i段的起始点的时间戳,
T
^
1
=
0
\hat{T}_{1}=0
T^1=0。舒适度指标定义为:
C
=
∑
k
=
1
3
∫
0
T
k
(
w
1
∣
a
t
−
a
t
∗
∣
+
w
2
∣
a
n
−
a
n
∗
∣
+
w
3
∣
ϕ
˙
−
ϕ
˙
∗
∣
+
w
4
∣
j
t
−
j
t
∗
∣
+
w
5
∣
j
n
−
j
n
∗
∣
+
w
6
∣
κ
˙
−
κ
˙
∗
∣
)
d
t
,
(
13
)
\begin{align*} C=\sum_{k=1}^{3}\int_{0}^{T_{k}}(w_{1}|a_{t}- a_{t}^{*}|+&\,w_{2}|a_{n}- a_{n}^{*}|+ w_{3}|\dot{\phi}-\dot{\phi}^{*}|+ w_{4}|j_{t}- j_{t}^{*}|+ w_{5}|j_{n}- j_{n}^{*}|+ w_{6}|\dot{\kappa}-\dot{\kappa}^{*}|)dt, \end{align*}\qquad(13)
C=k=1∑3∫0Tk(w1∣at−at∗∣+w2∣an−an∗∣+w3∣ϕ˙−ϕ˙∗∣+w4∣jt−jt∗∣+w5∣jn−jn∗∣+w6∣κ˙−κ˙∗∣)dt,(13)
其中
T
k
∈
1
s
,
2
s
,
3
s
T_{k}\in{1 s, 2 s, 3 s}
Tk∈1s,2s,3s 表示考虑的轨迹持续时间,
a
t
,
a
n
,
ϕ
˙
,
j
t
,
j
n
a_{t}^{}, a_{n}^{},\dot{\phi}^{}, j_{t}^{}, j_{n}^{}
at,an,ϕ˙,jt,jn 和
κ
˙
\dot{\kappa}^{}
κ˙ 是来自真实轨迹的对应值,
w
1
,
w
2
,
w
3
,
w
4
,
w
5
,
w
6
w_{1},w_{2},w_{3},w_{4},w_{5},w_{6}
w1,w2,w3,w4,w5,w6 分别是纵向加速度、横向加速度、转向角速度、纵向急动度、横向急动度和曲率率的权重因子。纵向和横向急动度
j
t
j_{t}
jt 和
j
n
j_{n}
jn 分别计算为
a
t
a_{t}
at 和
a
n
a_{n}
an 的时间导数。
通过计算预测轨迹和真实轨迹在这些方面的差值,并为每个时间范围求和这些差值,我们得到一个总体差异得分。得分越低表示舒适度越高,与专家轨迹的相似度越大。最后,通过引入一个归一化因子,我们将舒适度指标表示为百分比,以便于比较分析。更多细节可在附录A.2中找到。
四、实验
图4:nuScenes上Llama 3.2V的定性结果。我们展示了问题(Q)、上下文(C)和答案(A)。通过结合周围视图图像和文本数据,实现了通过在规则基础评分器中进行针对性权重修改来微调驾驶风格。
图5:(a)和(b)展示了轨迹生成和评分过程,其中(a)中的灰色轨迹表示的最优路径是基于最低成本标准为车辆控制所选择的。
图6:(a)显示了HE-Drive与两个基线在真实数据中舒适度指标的比较结果;(b)显示了HE-Drive在闭环数据集OpenScene上的效率指标比较结果。
五、结论
在本文中,我们介绍了HE-Drive,一种新型的人类中心端到端自动驾驶系统,旨在解决现有方法在实现时间一致性和乘客舒适性方面的局限性。HE-Drive集成了稀疏感知模块、基于扩散的运动规划器以及Llama 3.2V指导的轨迹评分系统。稀疏感知模块通过统一检测、跟踪和在线映射,实现了完全稀疏的场景表示。基于扩散的运动规划器在连续空间中生成多模态轨迹,确保时间一致性,并模仿人类决策过程。轨迹评分模块结合了基于规则的方法与Llama 3.2V,以增强通用性、可解释性、稳定性和舒适性。大量实验表明,HE-Drive在开放循环和闭合循环数据集中的性能优于最先进的方法,生成的人类轨迹在时间一致性和乘客舒适性方面得到了改善。
标签:轨迹,End,Like,Driving,评分,text,al,驾驶,et From: https://blog.csdn.net/weixin_41331879/article/details/143450274