Abstract
导航是具有视觉运动能力的智能体的基本技能。我们介绍了导航世界模型(NWM),一个可控的视频生成模型,预测未来的视觉观察的基础上,过去的观察和导航行动。为了捕捉复杂的环境动态,NWM采用了条件扩散Transformer(CDiT),在人类和机器人代理的各种自我中心视频集合上进行训练,并扩展到10亿个参数。在熟悉的环境中,NWM可以通过模拟它们并评估它们是否达到预期目标来规划导航轨迹。与具有固定行为的监督导航策略不同,NWM可以在规划过程中动态地引入约束。实验表明,它的有效性规划轨迹从头开始或排名轨迹采样从外部政策。此外,NWM利用其学习的视觉先验知识,从单个输入图像中想象出陌生环境中的轨迹,使其成为下一代导航系统的灵活而强大的工具。
文章目录
- Abstract
- 1 Introduction
- 2 RelatedWork
- 3 NavigationWorld Models
- 4 Experiments and Results
- 5 Limitations
- 6 Conclusion
1 Introduction
导航是任何具有视觉的生物体的基本技能,通过允许代理定位食物,庇护所和避免捕食者,在生存中发挥着至关重要的作用。为了成功地在环境中导航,智能代理主要依靠视觉,使它们能够构建其周围环境的表示,以评估距离并捕获环境中的地标,所有这些都有助于规划导航路线。
当人类代理人计划时,他们经常想象他们的未来轨迹,考虑约束和反事实。另一方面,当前最先进的机器人导航策略(Sridhar等人,2024年; Shah等人,2023)是“硬编码的”,并且在训练之后,不能容易地引入新的约束(例如,“禁止左转”)。当前有监督的视觉导航模型的另一个限制是它们不能动态地分配更多的计算资源来解决困难的问题。我们的目标是设计一种可以缓解这些问题的新模型。
在这项工作中,我们提出了一个导航世界模型(NWM),经过训练,可以根据过去的帧表示和动作来预测视频帧的未来表示(见图1(a))。NWM接受了从各种机器人代理收集的视频片段和导航操作的培训。在训练之后,NWM通过模拟潜在的导航计划并验证它们是否达到目标来规划新的导航轨迹(参见图1(B))。为了评估其导航技能,我们在已知环境中测试了NWM,评估了其独立或通过对外部导航策略进行排序来规划新轨迹的能力。在规划设置中,我们在模型预测控制(MPC)框架中使用NWM,优化使NWM能够达到目标的动作序列。在排名设置中,我们假设访问现有的导航策略,例如NoMaD(Sridhar等人,2024),它允许我们采样轨迹,使用NWM模拟它们,并选择最佳轨迹。我们的NWM在与现有方法结合使用时可实现具有竞争力的独立性能和最先进的结果。
NWM在概念上类似于最近用于离线基于模型的强化学习的基于扩散的世界模型,例如DIAMOND(Alonso等人)和GameNGen(Valevski等人,2024年)的报告。然而,与这些模型不同,NWM是在广泛的环境和实施例范围内训练的,利用了来自机器人和人类代理的导航数据的多样性。这使我们能够训练一个大型的扩散Transformer模型,该模型能够有效地根据模型大小和数据进行缩放,以适应多种环境。我们的方法还与新视图合成(NVS)方法如NeRF(Mildenhall等人,2021),零壹二三(刘等,2023年)和GDC(货车Hoorick等人,2024年),从中我们得到了启示。然而,与NVS方法不同,我们的目标是训练一个单一的模型,用于在不同环境中导航,并从自然视频中建模时间动态,而不依赖于3D先验知识。
为了学习NWM,我们提出了一种新的条件扩散Transformer(CDiT),经过训练可以预测下一个图像状态,并将过去的图像状态和动作作为上下文。与DiT(皮布尔斯和谢,2023)不同,CDiT的计算复杂度与上下文帧的数量呈线性关系,并且它可以在不同的环境和实施例中为训练到1B参数的模型提供有利的扩展,与标准DiT相比,需要的FLOP少4倍,同时实现更好的未来预测结果。
在未知环境中,我们的结果表明,NWM受益于对来自Ego4D的无标签、无动作和无奖励视频数据的培训。定性地说,我们观察到单幅图像的视频预测和生成性能得到了改善(参见图1(c))。量化,与额外的未标记的数据,NWM产生更准确的预测时,在保持了斯坦福大学围棋(Hirose等人,2018年)数据集。
图1我们从机器人及其相关导航动作的视频片段中训练导航世界模型(NWM)(a)。在训练之后,NWM可以通过合成它们的视频并对最终帧与目标(B)的相似性进行评分来评估轨迹。我们使用NWM从头开始规划或排名专家导航轨迹,提高下游视觉导航性能。在未知的环境中,NWM可以从单个图像中模拟想象的轨迹(c)。在上面的所有示例中,模型的输入是第一个图像和动作,然后模型自动回归合成未来的观察结果。
我们的贡献如下。我们引入了导航世界模型(NWM),并提出了一种新的条件扩散Transformer(CDiT),它有效地扩展到1B参数,显着降低计算要求相比,标准的DiT。我们通过来自不同机器人代理的视频片段和导航动作训练CDiT,通过独立模拟导航计划或与外部导航策略一起进行规划,实现最先进的视觉导航性能。最后,通过在无动作和无奖励视频数据(如Ego4D)上训练NWM,我们证明了在不可见环境中改进的视频预测和生成性能。
2 RelatedWork
目标条件视觉导航是需要感知和规划技能的机器人技术中的重要任务(Sridhar等人,2024年; Shah等人;Pathak等人,2018年; Mirowski等人,2022年;查普洛特等人;Fu等人,2022年)的报告。给定上下文图像和指定导航目标的图像,目标条件视觉导航模型(Sridhar等人,2024年; Shah等人)如果环境已知,则旨在生成一条通向目标的可行路径,否则将探索该路径。最近的视觉导航方法如NoMaD(Sridhar等人,2024)通过行为克隆和时间距离目标来训练扩散策略,以在条件设置中遵循目标或在无条件设置中探索新环境。以前的方法,如主动神经SLAM(Chaplot等人)使用神经SLAM与分析规划器一起规划3D环境中的轨迹,而其他方法如(Chen等人)通过强化学习来学习策略。在这里,我们展示了世界模型可以使用探索性数据来规划或改进现有的导航策略。
与学习策略不同,世界模型的目标(Ha和Schmidhuber,2018)是模拟环境,例如,给定当前状态和行动以预测下一个状态和相关奖励。先前的工作已经表明联合学习策略和世界模型可以提高Atari上的采样效率(Hafner等人,B、a; Alonso等人),模拟机器人环境(Seo等人,2023),甚至当应用于真实的世界的机器人时(Wu等人,2023年)的报告。最近,汉森等人提出通过引入动作和任务嵌入来使用跨任务共享的单一世界模型,而Yang等人;Lin等人(2024 b)建议用语言描述动作,布鲁斯等人(2024)建议学习潜在动作。世界模型也在游戏模拟的背景下进行了探索。金刚石(Alonso等)和GameNGen(Valevski等人,2024)提出使用扩散模型来学习像Atari和Doom这样的计算机游戏的游戏引擎。我们的工作受到这些工作的启发,并且我们的目标是学习可以在许多环境和用于导航的不同实施例之间共享的单个通用扩散视频Transformer。
在计算机视觉中,生成视频一直是一个长期存在的挑战(Kondratyuk等人;Blattmann等人,2023年; Girdhar等人,2023年; Yu等人,2023年; Ho等人,2022年; Tulyakov等人,2018年b; Bar-Tal等人,2024年)的报告。最近,使用诸如索拉(布鲁克斯等人,2024)和MovieGen(Polyak等人,2024年)的报告。过去的工作提出在给定结构化动作对象类类别的情况下控制视频合成(Tulyakov等人,2018 a)或动作图(Bar等人,2021年)的报告。视频生成模型以前在强化学习中用作奖励(Escontrela等人,2024),预训练方法(托马尔等人,2024),用于模拟和规划操纵动作(Finn和Levine,2017; Liang等人,2024)和用于在室内环境中生成路径(Hirose等人,2019 b; Koh等人,2021年)的报告。有趣的是,扩散模型(Sohl-Dickstein等人,2015; Ho等人,2020)对于像生成这样的视频任务都是有用的(Voleti等人,2022)和预测(Lin等人,2024 a),而且还用于视图合成(Chan等人,2023;普尔等人;Tung等人,2025年)的报告。不同的是,我们使用条件扩散Transformer来模拟用于规划的轨迹,而不需要显式3D表示或先验。
3 NavigationWorld Models
3.1 Formulation
接下来,我们来描述我们的NWM公式。直观地说,NWM是一个模型,它接收世界的当前状态(例如,图像观察)和描述移动到哪里以及如何旋转的导航动作。然后,该模型根据智能体的观点产生世界的下一个状态。
我们被提供了一个以自我为中心的视频数据集,以及代理导航动作 D = { ( x 0 , a 0 , . . . , x T , a T ) } i = 1 n D = \{(x_0, a_0, ..., x_T, a_T)\}_{i=1}^n D={(x0,a0,...,xT,aT)}i=1n,其中 x i ∈ R H × W × 3 x_i \in \mathbb{R}^{H\times W\times3} xi∈RH×W×3 是一张图像,而 a i = ( u , ϕ ) a_i = (u, \phi) ai=(u,ϕ) 是一个导航命令,由平移参数 u ∈ R 2 u \in \mathbb{R}^2 u∈R2 给出,该参数控制前后和左右移动,以及一个偏航角 ϕ ∈ R \phi \in \mathbb{R} ϕ∈R。
这可以通过使 u ∈ R 3 u ∈ R3 u∈R3和θ ∈ R 3 ∈ R3 ∈R3定义偏航、俯仰和滚转而自然地扩展到三维。为了简单起见,我们假设在具有固定俯仰和滚转的平坦表面上导航。
导航动作ai可以被完全观察到(如在Habitat(Savva等人,2019)),例如,朝着墙壁向前移动将触发来自环境的基于物理的响应,这将导致代理留在原地,而在其他环境中,我们基于代理位置的变化来计算导航动作。
我们的目标是学习一个世界模型 F F F,这是一个从先前的潜在观察值 s τ \mathbf{s}_\tau sτ和动作 a τ a_\tau aτ到未来潜在状态表示 s t + 1 s_{t+1} st+1的随机映射:
s
i
=
e
n
c
θ
(
x
i
)
s_i=enc_\theta(x_i)
si=encθ(xi)
s
τ
+
1
∼
F
θ
(
s
τ
+
1
∣
s
τ
,
a
τ
)
(1)
s_{\tau+1}\sim F_\theta(s_{\tau+1}\mid\mathbf{s}_\tau,a_\tau)\tag{1}
sτ+1∼Fθ(sτ+1∣sτ,aτ)(1)
其中 s τ = ( s τ , . . . , s τ − m ) \mathbf{s}_\tau=(s_\tau,...,s_{\tau-m}) sτ=(sτ,...,sτ−m)是通过预训练的VAE编码的过去 m m m个视觉观察值(Blattmann et al., 2023)。使用VAE的好处是可以处理压缩的潜在变量,允许将预测解码回像素空间进行可视化。
由于这种表述的简单性,它可以自然地跨环境共享,并且很容易扩展到更复杂的动作空间,例如控制机械臂。不同于Hafner et al.(a),我们的目标是在不使用任务或动作嵌入的情况下,训练一个单一的世界模型跨环境和身体,类似于Hansen et al.。
方程1的表述模型了动作但不允许控制时间动态。我们通过引入时间偏移输入 k ∈ [ T min , T max ] k\in[T_{\text{min}},T_{\text{max}}] k∈[Tmin,Tmax],设置 a τ = ( u , ϕ , k ) a_\tau=(u,\phi,k) aτ=(u,ϕ,k),从而现在 a τ a_\tau aτ指定了时间变化 k k k,用于确定模型应向前(或向后)移动多少步。因此,给定当前状态 s τ s_\tau sτ,我们可以随机选择 k k k,对相应的视频帧进行标记,然后 s τ + 1 s_{\tau+1} sτ+1将是相应的标记集。导航动作可以近似为从时间 τ \tau τ到 τ + k \tau+k τ+k的累加:
u
τ
→
τ
+
k
=
∑
t
=
τ
τ
+
k
u
t
u_{\tau\to\tau+k}=\sum_{t=\tau}^{\tau+k}u_t
uτ→τ+k=t=τ∑τ+kut
ϕ
τ
→
τ
+
k
=
∑
t
=
τ
τ
+
k
ϕ
t
m
o
d
2
π
(2)
\phi_{\tau\to\tau+k}=\sum_{t=\tau}^{\tau+k}\phi_t\mod2\pi\tag{2}
ϕτ→τ+k=t=τ∑τ+kϕtmod2π(2)
这种表述允许学习导航动作,同时也学习环境的时间动态。在实践中,我们允许时间偏移最多为 ± 16 \pm16 ±16秒。
可能出现的一个挑战是动作和时间的纠缠。例如,如果到达某个特定位置总是发生在特定时间,模型可能会仅依赖时间而忽略后续动作,反之亦然。实际上,数据可能包含自然的反事实情况——例如在不同时间到达同一区域。为了鼓励这些自然的反事实情况,我们在训练过程中为每个状态采样多个目标。我们将在第4节中进一步探讨这种方法。
3.2 Diffusion Transformer asWorld Model
如前所述,我们将Fθ设计为随机映射,以便它可以模拟随机环境。这是使用条件扩散Transformer(CDiT)模型来实现的,如下所述。
条件扩散Transformer体系结构。
我们使用的架构是一个时间自回归Transformer模型,该模型利用高效的CDiT模块(见图2),在输入动作调节的情况下,对输入延迟序列应用×N次。CDiT通过将第一注意力块中的注意力仅约束到来自正被去噪的目标帧的令牌来实现时间高效的自回归建模。为了对来自过去帧的标记进行调节,我们引入了一个交叉注意层,使得来自当前目标的每个查询标记都注意到来自过去帧的标记,这些标记用作键和值。然后,交叉注意使用跳过连接层将表示上下文化。
为了对连续动作(如平移 u u u、旋转 ϕ \phi ϕ和时间偏移 k k k)以及扩散时间步 t t t进行条件化,我们将每个标量映射到正弦-余弦特征,然后应用一个两层的MLP G G G,将其从 R \mathbb{R} R映射到 R d \mathbb{R}^d Rd。最后,我们将所有嵌入求和得到一个用于条件化的单个向量:
ξ = G u ( ψ ( u ) ) + G θ ( ψ ( θ ) ) + G k ( ψ ( k ) ) + G t ( ψ ( t ) ) \xi=G_u(\psi(u))+G_\theta(\psi(\theta))+G_k(\psi(k))+G_t(\psi(t)) ξ=Gu(ψ(u))+Gθ(ψ(θ))+Gk(ψ(k))+Gt(ψ(t))
ξ \xi ξ然后被输入到一个AdaLN(Xu et al.,2019)块中,生成用于调制层归一化(Lei Ba et al.,2016)输出以及注意力层输出的缩放和偏移系数。在无标签数据上进行训练时,我们在计算 ξ \xi ξ时简单地忽略显式的导航动作(见公式3)。
另一种方法是简单地使用DiT(皮布尔斯和谢,2023),然而,在完整输入上应用DiT在计算上是昂贵的。表示每帧输入令牌的数量,m表示帧的数量,d表示令牌的维度。帧的数量,以及 d d d 为令牌维度。缩放多头注意力层 (Vaswani, 2017) 的复杂度主要由注意力项 O ( m 2 ⋅ n 2 ⋅ d ) O(m^2 \cdot n^2 \cdot d) O(m2⋅n2⋅d),该项与上下文长度呈二次关系。相比之下,我们的 CDiT 块的复杂度主要由交叉注意力层的复杂度 O ( m ⋅ n 2 ⋅ d ) O(m \cdot n^2 \cdot d) O(m⋅n2⋅d),该复杂度与上下文呈线性关系,允许我们使用更长的上下文大小。我们在第 4 节中分析了这两种设计选择。CDiT 与原始的 Transformer 块 (Vaswani, 2017) 相似,但没有在上下文令牌上应用昂贵的自注意力。
扩散训练。
在前向过程中,根据随机选择的时间步
t
∈
{
1
,
…
,
T
}
t \in \{1, \ldots, T\}
t∈{1,…,T},向目标状态
s
τ
+
1
s_{\tau+1}
sτ+1 添加噪声。噪声状态
s
τ
+
1
(
t
)
s_{\tau+1}^{(t)}
sτ+1(t) 可以定义为:
s
τ
+
1
(
t
)
=
α
t
s
τ
+
1
+
1
−
α
t
ϵ
s_{\tau+1}^{(t)} = \sqrt{\alpha_t} s_{\tau+1} + \sqrt{1 - \alpha_t} \epsilon
sτ+1(t)=αt
sτ+1+1−αt
ϵ,其中
ϵ
∼
N
(
0
,
I
)
\epsilon \sim \mathcal{N}(0, I)
ϵ∼N(0,I) 是高斯噪声,
{
α
t
}
\{\alpha_t\}
{αt} 是控制方差的噪声调度。随着
t
t
t 的增加,
s
τ
+
1
(
t
)
s_{\tau+1}^{(t)}
sτ+1(t) 收敛到纯噪声。反向过程试图从噪声版本
s
τ
+
1
(
t
)
s_{\tau+1}^{(t)}
sτ+1(t) 恢复原始状态表示
s
τ
+
1
s_{\tau+1}
sτ+1,条件是上下文
s
τ
\mathbf{s}_\tau
sτ、当前动作
a
τ
a_\tau
aτ 和扩散时间步
t
t
t。我们定义
F
θ
(
s
τ
+
1
(
t
)
∣
s
τ
,
a
τ
,
t
)
F_\theta(s_{\tau+1}^{(t)} | \mathbf{s}_\tau, a_\tau, t)
Fθ(sτ+1(t)∣sτ,aτ,t) 为神经网络模型,该模型由
θ
\theta
θ 参数化,预测每一步添加的噪声。我们遵循与 DiT (Peebles and Xie, 2023) 相同的噪声调度和超参数。
训练目标。模型训练以最小化噪声目标 s τ + 1 ( t ) s_{\tau+1}^{(t)} sτ+1(t) 与预测目标 F θ ( s τ + 1 ( t ) ∣ s τ , a τ , t ) F_\theta(s_{\tau+1}^{(t)} | \mathbf{s}_\tau, a_\tau, t) Fθ(sτ+1(t)∣sτ,aτ,t) 之间的均方误差,旨在学习去噪过程:
L θ = E s τ + 1 , a τ , s τ , ϵ , t [ ∥ s τ + 1 − F θ ( s τ + 1 ( t ) ∣ s τ , a τ , t ) ∥ 2 ] . \mathcal{L}_\theta = \mathbb{E}_{s_{\tau+1}, a_\tau, \mathbf{s}_\tau, \epsilon, t} \left[ \| s_{\tau+1} - F_\theta(s_{\tau+1}^{(t)} | \mathbf{s}_\tau, a_\tau, t) \|^2 \right]. Lθ=Esτ+1,aτ,sτ,ϵ,t[∥sτ+1−Fθ(sτ+1(t)∣sτ,aτ,t)∥2].
在这个目标中, t t t 随机采样,确保模型学习在所有级别的噪声下去噪帧。通过最小化该损失,模型学习基于上下文 s τ \mathbf{s}_\tau sτ 和动作 a τ a_\tau aτ 从 s τ + 1 ( t ) s_{\tau+1}^{(t)} sτ+1(t) 重建 s τ + 1 s_{\tau+1} sτ+1,从而在序列中生成逼真的未来帧。
3.3 Navigation Planning withWorld Models
在这里,我们将描述如何使用经过训练的NWM来规划导航轨迹。直觉上,如果我们的世界模型熟悉一个环境,我们可以用它来模拟导航轨迹,并选择到达目标的轨迹。在一个未知的、脱离分销环境的环境中,长期规划可能依赖于想象力。
给定潜在编码 s 0 s_0 s0和导航目标 s ∗ s^* s∗,我们寻找一系列动作 ( a 0 , . . . , a T ) (a_0, ..., a_T) (a0,...,aT),以最大化到达 s ∗ s^* s∗的可能性。设 S ( s T , s ∗ ) \mathcal{S}(s_T, s^*) S(sT,s∗)表示在初始条件 s 0 s_0 s0,动作序列 a = ( a 0 , … , a T ) \mathbf{a} = (a_0, \ldots, a_T) a=(a0,…,aT),以及通过自回归展开NWM(导航世界模型)得到的状态序列 s = ( s 1 , … , s T ) ∼ F θ ( ⋅ ∣ s 0 , a ) \mathbf{s} = (s_1, \ldots, s_T) \sim F_\theta(\cdot | s_0, \mathbf{a}) s=(s1,…,sT)∼Fθ(⋅∣s0,a)下,达到状态 s ∗ s^* s∗的非归一化得分。
我们定义能量函数 E ( s 0 , a 0 , … , a T , s T ) \mathcal{E}(s_0, a_0, \ldots, a_T, s_T) E(s0,a0,…,aT,sT),使得最小化能量等同于最大化非归一化的感知相似性得分,并遵循对状态和动作可能存在的约束:
E ( s 0 , a 0 , … , a T , s T ) = − S ( s T , s ∗ ) + ∑ τ = 0 T I ( a τ ∉ A valid ) + ∑ τ = 0 T I ( s τ ∉ S safe ) , \mathcal{E}(s_0, a_0, \ldots, a_T, s_T) = -\mathcal{S}(s_T, s^*) + \sum_{\tau=0}^T \mathbb{I}(a_\tau \notin \mathcal{A}_{\text{valid}}) + \sum_{\tau=0}^T \mathbb{I}(s_\tau \notin \mathcal{S}_{\text{safe}}), E(s0,a0,…,aT,sT)=−S(sT,s∗)+τ=0∑TI(aτ∈/Avalid)+τ=0∑TI(sτ∈/Ssafe),
相似度是通过使用预训练的VAE解码器(Blattmann等人,2023)将 s ∗ s^* s∗和 s T s_T sT解码为像素,然后测量感知相似度(Zhang等人,2018a;Fu等人,2024)来计算的。像“从不左转然后右转”这样的约束可以通过限制 a τ a_\tau aτ属于有效动作集 A valid \mathcal{A}_{\text{valid}} Avalid来编码,“从不探索悬崖边缘”则确保这些状态 s τ s_\tau sτ处于安全状态集 S safe \mathcal{S}_{\text{safe}} Ssafe中。 I ( ⋅ ) \mathbb{I}(\cdot) I(⋅)表示指示函数,如果任何动作或状态约束被违反,则施加一个很大的惩罚。
这个目标可以被重新表述为模型预测控制(MPC)问题,并且我们使用交叉熵方法(Rubinstein,1997)对其进行优化,交叉熵方法是一种简单的无导数和基于群体的优化方法,最近与世界模型一起用于规划(Zhou et al.,2024;汉森等人)。我们在附录A中包括交叉熵方法的概述和完整的优化技术细节。
掩码语言模型排序导航轨迹。
假设我们有一个现有的导航策略
Π
(
a
∣
s
0
,
s
∗
)
\Pi(\mathbf{a}|s_0, s^*)
Π(a∣s0,s∗),我们可以使用NWMs 对采样的轨迹进行排序。这里我们使用NoMaD (Sridhar et al., 2024),一种最先进的机器人导航策略。为了对轨迹进行排序,我们从
Π
\Pi
Π 中抽取多个样本,并选择能量最低的一个,如 Eq. 5 所示。
4 Experiments and Results
我们描述了实验设置,我们的设计选择,并比较NWM以前的方法。补充材料中包括其他结果。
4.1 Experimental Setting
Dataset
对于所有机器人数据集(SCAND(Karnan等人,2022)、TartanDrive(Triest等人,2022)、RECON(Shah等人,2021)和HuRoN(Hirose等人,2023)),我们可以访问机器人的位置和旋转,从而可以推断与当前位置相比的相对动作(参见等式(2).为了标准化代理之间的步长,我们将代理在帧之间行进的距离除以它们的以米为单位的平均步长,确保不同代理的动作空间是相似的,此外,我们过滤掉向后移动,遵循NoMaD(Sridhar等人,2024年)的报告。另外,我们使用未标记的Ego4D(Grauman等人,2022)的视频,在那里我们考虑的唯一行动是时移。SCAND提供了在不同环境中进行社交合规导航的视频片段,TartanDrive专注于越野驾驶,RECON涵盖了开放世界导航,HuRoN捕捉社交互动。我们在未标记的Ego4D视频和GO斯坦福大学上进行训练(Hirose等人,2018年)作为未知的评价环境。有关完整的详细信息,请参见附录B.1。
Evaluation Metrics.
我们使用绝对轨迹误差(ATE)和相对姿态误差(RPE)评估预测的导航轨迹(Sturm等人,2012年)的报告。为了检查世界模型预测与地面实况图像在语义上有多相似,我们应用LPIPS(Zhang等人,2018b)和DreamSim(Fu等人,2024),通过比较深度特征来测量感知相似性,以及用于像素级质量的PSNR。对于图像和视频合成质量,我们使用FID(Heusel等人,2017年)和FVD(Unterthiner等人,2019年),其评估生成的数据分布。更多详情请参见附录B.1。
Baselines.
我们考虑以下所有基线。
- DIAMOND(Alonso等)是基于UNet的扩散世界模型(Ronneberger等人,2015)架构。我们在离线强化学习环境中使用DIAMOND,遵循其公共代码。扩散模型经过训练,以56x56分辨率进行自回归预测,并通过上采样器获得224x224分辨率的预测。我们改变他们的动作嵌入,使用线性层来处理我们的连续动作。
- GNM(Shah等人,2023)是一种通用的目标条件导航策略,它是在机器人导航数据集的数据集汤上训练的,具有完全连接的轨迹预测网络。GNM在多个数据集上进行训练,包括SCAND,TartanDrive,GO斯坦福大学和RECON。
- NoMaD(Sridhar等人,2024)使用扩散策略扩展了GNM,用于预测机器人探索和视觉导航的轨迹。NoMaD是在GNM和HuRoN使用的相同数据集上训练的。
Implementation Details.
在默认的实验设置中,我们使用1B参数的CDiT-XL,上下文为4帧,总批量大小为1024,以及4个不同的导航目标,最终总批量大小为4096。我们使用稳定扩散(Blattmann等人,VAE分词器,类似于DiT(皮布尔斯和谢,2023)。我们使用AdamW(Loshchilov,2017)优化器,学习率为8 e-5。训练后,我们从每个模型中采样5次,以报告平均值和标准差结果。XL大小的模型在8台H100机器上训练,每台机器都有8个GPU。除非另有说明,否则我们使用与DiT-*/2型号相同的设置。
4.2 Ablations
在已知环境RECON上对验证集轨迹进行单步4秒未来预测,对模型进行评估。我们通过测量LPIPS、DreamSim和PSNR来评估地面真实帧的性能。我们在图3中提供了定性示例。
模型大小和CDiT。
我们比较了CDiT(见3.2节),与所有上下文标记都作为输入的标准DiT相比。我们假设,对于导航已知环境,模型的容量是最重要的,图5中的结果表明,CDiT在高达1B参数的模型中确实表现更好,同时消耗的FLOP少于×2。令人惊讶的是,即使使用相同数量的参数(例如,CDiT-L与DiT-XL相比),CDiT也要快4倍,性能更好。
Number of Goals.
我们在给定固定上下文的情况下训练具有可变数量的目标状态的模型,将目标数量从1更改为4。每个目标是在当前状态周围的±16秒窗口内随机选择的。表1中报告的结果表明,使用4个目标可以显著提高所有指标的预测性能。
Context size
我们在训练模型的同时将条件帧的数量从1到4变化(见表1)。不出所料,更多的上下文会有所帮助,而在短上下文的情况下,模型往往会“失去方向”,导致预测结果不佳。
时间和行动条件反射。
我们用时间和动作条件来训练我们的模型,并测试每个输入对预测性能的贡献(我们将结果包含在表1中)。我们发现,随着时间的推移运行模型只会导致性能较差,而不对时间进行调节也会导致性能小幅下降。这证实了两个输入数据均对模型有利。
4.3 Video Prediction and Synthesis
我们评估我们的模型如何遵循地面真实动作并预测未来状态。该模型以第一个图像和上下文帧为条件,然后使用地面真实动作自回归预测下一个状态,并反馈每个预测。我们将预测与1、2、4、8和16秒的地面实况图像进行比较,在RECON数据集上报告FID和LPIPS。图4显示了在4 FPS和1 FPS下与DIAMOND相比随时间推移的性能,表明NWM预测比DIAMOND准确得多。最初,NWM 1 FPS变体表现更好,但在8秒后,由于累积的错误和上下文丢失,预测降级,并且4 FPS变得上级。参见图3中的定性示例。
Generation Quality.
为了评估视频质量,我们自动回归预测视频的速度为4 FPS,持续16秒以创建视频,同时根据实际情况进行调整。然后,我们评估了使用FVD生成的视频的质量,并与Diamond(Alonso等人)进行了比较。图6中的结果表明,NWM可以输出更高质量的视频。
4.4 Planning Using a Navigation World Model
接下来,我们将描述一些实验,这些实验测量了我们使用NWM导航的效果。我们在附录B.2中提供了实验的全部技术细节。
Standalone Planning.
我们证明了我们的世界模型可以有效地独立用于有目标的导航。我们以过去的观察结果和目标图像为条件,并使用交叉熵方法来找到最小化最后预测图像与目标图像的LPIPS相似性的轨迹(参见等式5)。为了对动作序列进行排名,我们执行NWM并测量最后一个状态和目标之间的LPIPS 3次,以获得平均分数。我们生成长度为8的轨迹,时间偏移为k = 0.25。我们在表2中评估模型性能。我们发现,使用NWM进行规划会导致具有竞争力的结果与国家的最先进的政策。
Planning with Constraints.
在世界模型中进行规划允许合并约束。例如,一个智能体可能被限制为沿直线移动或只转一圈。我们证明,我们可以计划使用NWM,同时满足约束。在向前优先中,智能体向前移动5步,然后向左或向右移动3步。在左-右优先中,智能体向左或向右转动3步,然后向前移动5步。在直线然后向前,代理在向前移动之前在任何方向上直线移动3步。为了设置这些约束,我们可以简单地将相应的动作硬连线为零,例如,在左-右优先中,我们将前三个动作的向前运动设置为零,并运行独立规划来优化剩余的动作。完整详情见附录B.2。最后,我们报告了每个设置的最终位置和最终偏航之间的差异的范数,相对于无约束规划,其中代理在任何方向上都是直线。
表3中的结果表明,NWM可以有效地规划,同时满足约束条件,观察规划性能只有微小的差异。我们在图9中包括了在左右优先约束下的规划轨迹的示例。
使用NavigationWorld模型进行排名。
NWM可以增强目标条件导航中现有的导航策略。在过去的观察和目标图像上调节NoMaD,我们对n ∈ {16,32}个轨迹进行采样,每个轨迹的长度为8,并使用NWM通过自回归跟随动作来评估它们。最后,我们通过测量LPIPS与目标图像的相似性来对每个轨迹的最终预测进行排名(参见图7)。我们报告了所有域内数据集的ATE和RPE(见表2),发现对轨迹进行排名可以产生最先进的导航性能,采样轨迹越多,结果越好。
4.5 Generalization to Unknown Environments
在这里,我们尝试添加未标记的数据,并询问NWM是否可以使用想象力在新环境中进行预测。显然,在这个实验中,我们在所有域内数据集上训练了一个模型,以及来自Ego 4D的未标记视频的susbet,在那里我们只能访问时移动作。我们训练了一个CDiT-XL模型,并在Go斯坦福大学数据集以及其他随机图像上进行了测试。我们在表4中报告了结果,发现根据所有指标,在未标记数据上进行训练可以显著提高视频预测,包括提高生成质量。我们在图8中包括定性示例。与域内(图3)相比,该模型在生成想象环境的遍历时,更快地打破并消除了幻觉路径。
5 Limitations
我们发现了多种限制。首先,当应用于分布外数据时,我们注意到模型倾向于缓慢丢失上下文,并生成类似于训练数据的下一个状态,这是在图像生成中观察到的一种现象,被称为模式崩溃(Thanh-Tung和Tran,2020; Srivastava等人,(2017年版)。我们在图10中给出了这样一个例子。其次,虽然模型可以进行规划,但它难以模拟行人运动等时间动态(尽管在某些情况下确实如此)。这两个限制都有可能通过更长的上下文和更多的训练数据来解决。此外,该模型目前使用3个自由度的导航动作,但扩展到6个自由度的导航和潜在的更多(如控制机器人手臂的关节)也是可能的,这一点我们留待将来的工作。
6 Conclusion
我们提出的导航世界模型(NWM)提供了一个可扩展的,数据驱动的方法来学习导航策略。NWM通过我们的CDiT架构在不同的环境中进行训练,能够灵活地适应各种场景。NWM可以通过模拟导航结果独立地计划或排名外部策略,这也允许它纳入新的约束。这种方法将视频学习、视觉导航和基于模型的规划联系在一起,有可能为自我监督系统打开大门,这些系统不仅可以感知,还可以采取行动。
以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!
标签:tau,动作,FAIR,李飞飞,模型,NWM,World,导航,我们 From: https://blog.csdn.net/qq_29868553/article/details/144327524如有侵权,请联系我删除。xingyezn@163.com