CMU最新论文：机器人智慧流畅的躲避障碍物论文详细讲解

标签：障碍物机器人策略训练论文 RA 敏捷 CMU pi

CMU华人博士生Tairan He最新论文：Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion
代码开源：Code: https://github.com/LeCAR-Lab/ABS
B站实际效果展示视频地址：bilibili效果地址
我会详细解读论文的内容,让我们开始吧。

敏捷且安全:学习无碰撞的高速腿式机器人移动

摘要

腿式机器人在杂乱环境中导航必须兼顾敏捷性以提高执行任务的效率,同时要确保安全性以避免与障碍物或人发生碰撞。现有研究要么开发保守的控制器(速度<1.0 m/s)以确保安全性,要么专注于敏捷性而不考虑潜在的致命碰撞。本文介绍了"敏捷且安全(ABS)"系统,它是一种基于学习的控制框架,可实现四足机器人的敏捷且无碰撞移动。

作者首先指出,腿式机器人在杂乱环境中导航时,需要在敏捷性和安全性之间进行权衡。如果太过保守,移动速度会很慢;如果太过激进,可能会发生碰撞。现有方法通常偏向其中一个极端。而本文提出的ABS系统旨在同时实现高敏捷性和高安全性。

ABS涉及一个敏捷策略来执行敏捷的运动技能以在障碍物之间穿行,以及一个恢复策略来防止失败,共同实现高速和无碰撞导航。ABS中的策略切换由学习得到的基于控制理论的可达-避免(reach-avoid)值网络控制,该网络还作为目标函数指导恢复策略,从而在闭环中保护机器人的安全。

ABS包含两个关键部分:

敏捷策略:负责在障碍物之间执行敏捷的运动技能,实现高速移动。
恢复策略:负责在敏捷策略可能失败时防止机器人发生碰撞,确保安全性。

两个策略的切换由一个可达-避免值网络控制。该网络不仅提供切换阈值,还为恢复策略提供梯度信息作为优化目标,使系统形成闭环,持续保证安全。

训练过程涉及在仿真中学习敏捷策略、可达-避免值网络、恢复策略和外部感知表示网络。这些训练好的模块可以直接部署到真实环境中,利用机载传感和计算,在狭窄的室内和室外空间中实现高速和无碰撞导航,环境中包含静态和动态障碍物(图1)。
在这里插入图片描述

这四个模块都是在仿真环境中通过强化学习的方式来训练的,然后可以直接部署到真实机器人上,利用机器人自身的传感器和计算资源,实现在各种复杂环境下的高速无碰撞移动。

1. 引言

腿式机器人在杂乱环境中的敏捷移动是一个非平凡的挑战,因为敏捷性和安全性之间存在固有的权衡,并且对于需要强健性和效率的实际应用(如搜救、灾难响应和警用机器人)至关重要。现有工作通常表现出有限的敏捷性(速度<1 m/s)以确保安全性,或者只专注于最大化敏捷性而不考虑导航场景中的安全性。我们的工作与之不同,实现了高速(最大速度>3 m/s)、无碰撞的四足机器人在杂乱环境中的移动。

作者再次强调了敏捷性和安全性的权衡问题,指出现有方法要么为了安全而牺牲了速度,要么为了速度而忽略了安全。而本文的工作与众不同,同时实现了3 m/s以上的高速度和无碰撞移动。作者还指出这种能力对许多实际应用场景都非常重要。

现有工作中的敏捷性局限源于多种因素。在问题表述方面,一些工作将移动和导航规划解耦为两个子任务并构建分层系统。这种解耦不仅限制了控制器找到最优解,而且导致了保守的行为以确保安全性,从而限制了系统充分发挥移动敏捷性。相比之下,本工作学习端到端控制器,直接输出关节级动作以实现无碰撞移动并到达指定目标位置。我们的方法受到最近一些工作的启发,其中机器人通过将移动与导航相结合来学习端到端控制器,以克服具有挑战性的地形。

作者分析了现有工作敏捷性不足的原因。一些工作采用分层系统,将移动控制和导航规划解耦为两个独立的模块。这种解耦虽然简化了系统设计,但限制了性能,导致了过于保守的策略。

而本文采用端到端学习的思路,直接让控制器输出关节动作,同时兼顾移动能力和避障导航。这种思路受到了一些将移动与导航相结合的工作的启发。

在控制器方面,一些工作采用具有简化模型的基于模型的方法,如模型预测控制(MPC)和势函数,以保证安全性。模型失配和潜在的约束违反(如打滑),以及在线计算负担,限制了这些控制器实现敏捷运动和在野外稳定部署的能力。另一方面,最近基于模型无关强化学习(RL)在腿式移动方面的进展已经展示了基于模型的控制器尚未实现的显著敏捷运动技能,尽管在杂乱环境中可能不安全。我们利用模型无关RL的灵活性和敏捷性,并使用基于控制理论的工具进一步保障其安全性。

作者指出,另一些工作采用基于模型的控制方法如MPC,虽然可以提供安全性保证,但实际使用时会受到模型失配、约束违反等问题的影响,限制了运动的敏捷性。

近年来,基于强化学习的无模型方法在腿式机器人领域取得了很大进展,展现出了超越传统方法的运动能力。但它们在复杂环境中可能缺乏安全保障。

本文希望继承强化学习的优势,同时用控制论工具来提升其安全性。

我们提出的ABS框架不仅仅是一个单一的RL策略。首先,我们有一个感知型敏捷策略,它将避障融入到移动中,如第四节所述,使我们的Go1机器人能够以高达3.1 m/s的速度在障碍物之间快速移动。然而,RL策略不能保证安全性,所以当敏捷策略可能失败时,我们用另一个恢复策略来保护机器人(见第六节)。为了决定采用哪个策略,我们使用了基于学习的、以策略为条件的可达-避免(RA)值网络来量化敏捷策略的风险等级。这受到[30]的启发,其中无模型RA值可以基于Hamilton-Jacobi可达性理论[3]被有效地学习。RA值网络通过一个带折扣的RA Bellman方程训练,数据由敏捷策略在仿真中收集。除了作为阈值,可微的RA值网络还提供梯度信息来指导恢复策略,从而在闭环中保护机器人,这将在第五节中进一步介绍。

本文的ABS框架包含两个互补的策略:

感知型敏捷策略:通过强化学习将避障能力与高速移动能力相结合。单凭这个策略可以实现3.1m/s的高速度,但不能保证绝对安全。
恢复策略:用于在敏捷策略可能失败时介入,保护机器人安全。

为了平滑地切换这两个策略,我们训练了一个RA值网络,它可以根据当前状态和敏捷策略,预测该策略的风险程度。这个RA网络的训练受到Hamilton-Jacobi可达性理论的启发,通过解决一个Bellman方程来进行。它的数据来自于敏捷策略在仿真器中的轨迹。

RA网络不仅提供一个切换阈值,它的梯度信息还可以指导恢复策略的优化,使系统形成一个闭环来持续保证安全性。

为了获得可以在不同场景中泛化的避障行为,我们使用低维外部感知特征来训练策略和RA值:从机器人到障碍物的几条射线的行进距离。为此,我们额外训练了一个外部感知表示(或称射线预测)网络,用仿真数据将深度图像映射到射线距离,如第七节所述。通过这样做,我们实现了具有机载感知和计算的高速移动中的强健避障。

为了使训练好的策略具有较好的泛化能力,作者没有直接使用原始的传感器数据如图像作为输入,而是提取了一个低维特征:从机器人射出的若干条射线的长度。

为了在真实环境中获得这个射线长度特征,作者额外训练了一个射线预测网络,可以从深度相机图像预测出这个特征,使整个系统可以完全依赖机载传感器和计算资源。

简要地说,我们的贡献如下:

一种用于高速移动中避障的感知型敏捷策略,采用了新颖的训练方法。
一种新颖的数据驱动控制论方法,用于估计以学习的敏捷策略为条件的RA值。
一种双策略结构,其中敏捷策略和恢复策略协作实现高速无碰撞移动,RA值控制策略切换并指导恢复策略。
一种外部感知表示网络,预测低维障碍物信息,实现泛化的避障能力。
在室内外障碍物环境中验证了ABS的卓越安全性和最先进的敏捷性。

作者总结了本文的五点贡献:

开发了一种感知型敏捷移动策略及其新颖的训练方法。
提出一种数据驱动的方法来估计与该敏捷策略相关联的RA值。
构建了一个双策略结构,通过RA值实现两个策略的协作与切换。
设计了一个外部感知表示网络,使系统获得了泛化的避障能力。
在真实世界的各种场景中验证了ABS的安全性和敏捷性。

2. 相关工作

A. 敏捷的腿式移动

基于模型的方法如MPC使用简化的模型和手工设计的步态来实现动态的腿式移动。尽管它们在仿真和实验室条件下表现出色,但在野外易受模型失配和意外打滑的影响。在线计算负担也限制了感知型基于模型的控制器实现敏捷运动。

传统的MPC等基于模型的方法虽然在可控环境下表现不错,但在实际环境中容易受建模误差和环境变化的影响,且计算量大不易实现敏捷动作。

最近,基于RL的控制器在稳健的移动和敏捷的运动技能方面显示出了前景,包括高速奔跑、具有挑战性的地形通过、跳跃和跌倒恢复。然而,现有的敏捷移动工作大多研究如何实现快速或技巧性的运动。在杂乱环境中,这些方法需要一个高层导航模块来避障,这通常是保守的,大大限制了运动远低于运动极限。相比之下,本文研究了用于多功能导航的敏捷避障。

最新的基于强化学习的方法在稳健性和敏捷性方面展现了优势,实现了高速奔跑、复杂地形通过、跳跃、跌倒恢复等高难度动作。

但现有工作主要关注开阔地形下的极限运动能力,在障碍物环境中则需要依赖于保守的高层避障模块,无法充分发挥运动潜力。

本文则着眼于将敏捷性与避障能力相统一,以实现灵活导航。

B. 腿式移动中的避障

经典方法通过在构型空间中进行无碰撞运动规划来处理腿式机器人中的避障问题,而不考虑机器人动力学,导好的,让我们继续讨论这篇论文的相关工作部分。

导致了缓慢和静态稳定的步态。基于MPC的方法通过将到障碍物的距离作为优化约束,将规划和控制相结合。然而,它们受到前面提到的基于模型的控制器的缺点的影响,并且运动缓慢(速度<0.5 m/s)。

传统的避障方法主要有两类:

在构型空间内进行运动规划,忽略了机器人的动力学特性,导致只能采用缓慢且静态稳定的步态。
基于MPC的方法,将与障碍物的距离作为硬约束引入优化问题。但它们也受到模型失配等问题的制约,难以实现高速移动。

基于学习的方法是另一种选择。一些现有工作训练输出twist指令(即线速度和角速度)的基于RL的策略,由运动控制器来跟踪执行,而速度指令被限制在1 m/s以内以确保安全性。然而,导航规划和运动控制的解耦使高速移动存在风险,因为高层规划器无法意识到底层跟踪误差。Yang等人提出了一种端到端的基于RL的解决方案,将深度图像和本体感知数据直接映射到关节动作,但机器人只能向前行走,速度限制在约0.4 m/s。相比之下,我们的工作部署了一个端到端的敏捷策略,用于全向快速移动和避障,并用RA值和恢复策略保护机器人。据我们所知,我们的工作是第一个验证四足机器人无碰撞移动的最大速度高达3.1 m/s。即使在有动态对抗性障碍物的狭窄空间中,我们的系统仍然可以达到2.5 m/s的峰值速度和1.5 m/s的平均速度。

还有一些工作尝试用强化学习的方法来解决避障问题:

有的工作训练一个策略输出速度指令,再用一个底层控制器去跟踪执行。但为了安全,速度指令通常被限制在较低的水平。这种分层结构使得高速移动存在风险,因为上层规划并不知道下层执行的偏差。
也有端到端的方法直接从感知信息生成关节控制指令。但目前的工作速度还很有限。

本文采用了端到端策略来实现高速移动和避障,并通过RA值和恢复策略来提供安全保障。在作者的实验中,机器人在障碍物环境下实现了3.1m/s的最高速度,即使在动态障碍、狭窄空间的情况下也能达到2.5m/s,远超现有工作。

C. 安全强化学习

执行安全RL的方法主要有两类:1)端到端的方法和2)分层的方法。

基于Lagrange乘子的方法是最具代表性的端到端安全RL方法,它们求解一个原始-对偶优化问题以满足安全约束,其中Lagrange乘子可以与策略参数一起优化。然而,约束在收敛之前就被强制执行,阻碍了探索并降低了回报。

分层安全RL方法使用动力学的底层结构和基于控制论的安全证书来保护不安全的RL动作。这些方法通常基于在学习之前就已知动力学或安全证书函数的假设,这严重限制了它们在高维复杂系统中的可扩展性。

一些最新的工作学习安全预测网络(或安全评论家)和安全备份策略,当安全评论家指示名义策略不安全时,用它们来保护RL。然而,这些框架缺乏安全评论家和备份策略之间的相互作用,依赖于备份策略可以恢复安全而无需显式优化以满足安全评论家的苛刻假设。

安全强化学习主要有两大类方法:

端到端的方法,如基于Lagrange乘子的方法。它们将安全约束与策略优化相结合构建单一问题求解,但过早引入约束会影响探索和性能。
分层的方法,利用系统动力学的先验知识和控制论工具来约束RL的行为。但它们通常依赖于已知的动力学模型或安全证书,在复杂系统上难以应用。

最近出现了一些工作,通过学习安全评估网络和安全备份策略,来为RL提供保护。但这些工作通常假设备份策略可以自动恢复安全,缺乏与安全评估模块的良性互动。

我们的方法与分层方法一致,但采用了一种独特的策略。我们专注于估计敏捷策略的可达-避免值,并将可达-避免值的梯度信息反馈到系统中,以指导恢复策略在闭环中运行。这种创新方法实现了一个动态自适应的恢复过程。值得注意的是,我们所有的模块都是在仿真中使用模型无关的方法训练的,提高了我们方法的泛化性和可扩展性。

本文的方法属于分层结构,但有其独特之处:

我们估计与敏捷策略相关联的RA值,用于指示策略的安全程度。
我们将RA值的梯度信息反馈给恢复策略,指导其优化过程,构成一个闭环。这使得恢复策略可以动态调整,与RA值保持一致。

此外,我们采用无模型方法,所有模块都在仿真器中进行训练,提高了方法的泛化性和可扩展性。

D. 可达-避免问题和Hamilton-Jacobi分析

可达-避免(RA)问题涉及导航系统以到达目标并避开某些不期望的状态。Hamilton-Jacobi (HJ)可达性分析通过分析相关的Hamilton-Jacobi偏微分方程来解决这个问题,该方程提供了一组系统为了保持安全必须远离的状态。

可达-避免(RA)问题的目标是规划一个轨迹,使系统到达目标集合而避开某些危险状态集合。

Hamilton-Jacobi (HJ)可达性分析是求解RA问题的经典方法。它通过分析Hamilton-Jacobi偏微分方程,给出系统应该避免的状态集合,从而保证安全性。

HJ可达性分析面临计算挑战,其复杂度随系统维度呈指数增长。最近的基于学习的方法尝试通过学习满足相关HJ偏微分方程和约束的值函数网络来将HJ可达性分析扩展到高维系统。然而,它们仍然需要在学习之前明确系统的Hamilton函数表达式。

我们的方法建立在另一系列利用收缩性质推导出时间折扣的可达-避免Bellman方程的工作之上。然而,与以前在RL训练期间学习策略无关的RA值的工作不同,我们学习策略相关的RA值网络。这不仅通过避免全局RA集合的可识别性问题来降低计算负担,而且也最适合我们训练的敏捷策略。类似地,关于神经控制势函数的一项同期工作也将特定策略的安全过滤器应用于屏蔽复杂系统,降低复杂性。

HJ可达性分析在高维系统上应用会面临计算瓶颈。最近的一些工作利用函数逼近来缓解这一问题,通过学习一个满足HJ方程和相关条件的值函数来逼近可达集。但它们通常需要预先知道系统的Hamilton函数具体形式。

本文采用另一类方法,利用动力系统的收缩性质,推导出一个带折扣因子的RA Bellman方程。与之前的工作不同,我们学习与特定策略相关联的RA值函数。这避免了求解全局RA集合的高复杂度,且与我们训练的敏捷策略更加契合。这一思路与最近关于神经控制势函数的工作类似,都是通过引入特定策略来降低安全分析的复杂性。

3. 概述和预备知识

A. 术语表

我们在表1中列出了全文将要用到的重要符号和缩写,以供参考。

B. 问题表述

1) 动力学

设 s t ∈ S ⊂ R n s s_t \in S \subset \mathbb{R}^{n_s} st∈S⊂Rns 为 t t t 时刻的状态,其中 n s n_s ns 是状态空间 S S S 的维度; a t ∈ A ⊂ R n a a_t \in A \subset \mathbb{R}^{n_a} at∈A⊂Rna 为 t t t 时刻的控制输入,其中 n a n_a na 是动作空间 A A A 的维度。系统动力学定义为:
s t + 1 = f ( s t , a t ) , (1) s_{t+1} = f(s_t, a_t), \tag{1} st+1=f(st,at),(1)
其中 f : S × A → S f:S \times A \rightarrow S f:S×A→S 是一个将当前机器人状态和控制映射到下一状态的函数。为简单起见,本文考虑可以没有解析形式的确定性动力学。我们将从本体感知和/或外部感知得到的机器人观测记为 o t = h ( s t ) o_t = h(s_t) ot=h(st),其中 h : S → O h:S\rightarrow O h:S→O 是传感器映射。敏捷策略和恢复策略的详细观测空间和动作空间将在第四节和第六节介绍。

作者在这里介绍了系统的数学表示。

用 s t s_t st 表示t时刻的状态,是一个 n s n_s ns 维向量。
a t a_t at 表示t时刻的控制输入,是一个 n a n_a na 维向量。
系统的动力学方程(1)用函数 f f f 来描述状态的演化过程。本文考虑确定性但不必显式已知的动力学。
o t o_t ot 表示t时刻的观测,通过传感器映射 h h h 从状态得到。

敏捷策略和恢复策略具体采用的观测和动作变量将在后面章节说明。

2) 目标和策略

目标条件强化学习通过一个目标条件策略 π : O × Γ → A \pi:O\times\Gamma\rightarrow A π:O×Γ→A 学习到达目标状态 G ∈ Γ G\in\Gamma G∈Γ。给定奖励函数 r : S × A × Γ → R r:S\times A\times\Gamma\rightarrow\mathbb{R} r:S×A×Γ→R 和折扣因子 γ R L \gamma_{RL} γRL,策略被训练以最大化目标分布 p G p_G pG 下的期望累积回报:
J ( π ) = E a t ∼ π ( ⋅ ∣ o t , G ) , G ∼ p G [ ∑ t γ R L t r ( s t , a t , G ) ] . (2) J(\pi) = \mathbb{E}_{a_t\sim\pi(\cdot|o_t,G),G\sim p_G} \left[ \sum_t \gamma_{RL}^t r(s_t,a_t,G) \right]. \tag{2} J(π)=Eat∼π(⋅∣ot,G),G∼pG[t∑γRLtr(st,at,G)].(2)

本文采用目标条件强化学习的框架来训练策略:

G G G 表示目标状态,是策略 π \pi π 的条件变量之一。 Γ \Gamma Γ 是目标的分布空间。
强化学习通过最大化累积奖励来优化策略,奖励函数定义为 r r r, γ R L \gamma_{RL} γRL 是累积奖励的折扣因子。
期望累积奖励 J ( π ) J(\pi) J(π) 在策略、观测、目标的联合分布下取期望,用于评估一个策略的性能。

3) 失败集合、目标集合和可达-避免集合

我们将失败集合 F ⊆ S F\subseteq S F⊆S 定义为不安全状态(如碰撞),机器人不允许进入。失败集合可以用一个Lipschitz连续函数的零下水平集表示,即 s ∈ F ⇔ ζ ( s ) > 0 s\in F\Leftrightarrow \zeta(s)>0 s∈F⇔ζ(s)>0。目标集合 Θ ⊂ S \Theta\subset S Θ⊂S 定义为期望状态(即目标状态)。类似地,目标集合可以用一个Lipschitz连续函数的零下水平集表示,即 s ∈ Θ ⇔ l ( s ) ≤ 0 s\in \Theta\Leftrightarrow l(s)\leq 0 s∈Θ⇔l(s)≤0。我们用 ξ s t π ( ⋅ ) \xi^\pi_{s_t}(\cdot) ξstπ(⋅) 表示从状态 s t s_t st 出发( ξ s t π ( 0 ) = s t \xi^\pi_{s_t}(0)=s_t ξstπ(0)=st),使用策略 π \pi π 直到 s T s_T sT 的未来轨迹。以策略 π \pi π 为条件的可达-避免集合定义为

R A π ( Θ ; F ) : = { s t ∈ S ∣ ξ s t π ( T − t ) ∈ Θ ∧ ∀ t ′ ∈ [ 0 , T − t ] , ξ s t π ( t ′ ) ∉ F } , (3) RA^\pi(\Theta; F) := \{s_t\in S | \xi^\pi_{s_t}(T-t)\in\Theta \wedge \forall t'\in[0,T-t], \xi^\pi_{s_t}(t')\notin F\}, \tag{3} RAπ(Θ;F):={st∈S∣ξstπ(T−t)∈Θ∧∀t′∈[0,T−t],ξstπ(t′)∈/F},(3)

它表示在策略 π \pi π 的控制下,能够使系统到达 Θ \Theta Θ 且在此之前所有时间步都避免了 F F F 的状态集合。

失败集合 F F F 定义为一些不安全状态,如碰撞,可以用函数 ζ \zeta ζ 的水平集表示。
目标集合 Θ \Theta Θ 定义为一些期望状态,如目标位置,可以用函数 l l l 的水平集表示。
ξ s t π ( ⋅ ) \xi^\pi_{s_t}(\cdot) ξstπ(⋅) 表示从 s t s_t st 出发,在策略 π \pi π 控制下的状态轨迹。
可达-避免集合 R A π ( Θ ; F ) RA^\pi(\Theta; F) RAπ(Θ;F) 是在策略 π \pi π 控制下,从其出发能在有限时间内到达目标集合 Θ \Theta Θ 且中途不经过失败集合 F F F 的所有状态的集合。

4) 可达-避免值和时间折扣可达-避免Bellman方程

我们定义策略相关的可达-避免值为: V R A π ∗ ( s ) ≤ 0 ⇔ s ∈ R A π ( Θ ; F ) V_{RA}^{\pi*}(s)\leq 0 \Leftrightarrow s\in RA^{\pi}(\Theta; F) VRAπ∗(s)≤0⇔s∈RAπ(Θ;F)。根据相关证明,可以容易地扩展得到值函数 V R A π ∗ ( s ) V^{\pi*}_{RA}(s) VRAπ∗(s) 满足如下的定点可达-避免Bellman方程(我们的策略相关值函数是一般值函数的特例):
V R A π ∗ ( s ) = max ⁡ { ζ ( s ) , min ⁡ { l ( s ) , V R A π ∗ ( f ( s , π ( s ) ) ) } } . (4) V_{RA}^{\pi*}(s) = \max\left\{\zeta(s), \min \{l(s), V_{RA}^{\pi*}(f(s,\pi(s)))\}\right\}. \tag{4} VRAπ∗(s)=max{ζ(s),min{l(s),VRAπ∗(f(s,π(s)))}}.(4)
然而,不能保证式(4)在值函数空间中会收缩。为了便于数据驱动的逼近,我们利用时间折扣的可达-避免Bellman方程来使策略相关的折扣可达-避免值 V R A π ( s ) V^\pi_{RA}(s) VRAπ(s) 收缩,其定义为

V R A π ( s ) = γ R A max ⁡ { ζ ( s ) , min ⁡ { l ( s ) , V R A π ( f ( s , π ( s ) ) ) } } + ( 1 − γ R A ) max ⁡ { l ( s ) , ζ ( s ) } . (5) \begin{aligned} V_{RA}^\pi(s) = \gamma_{RA}&\max\left\{\zeta(s),\min\{l(s),V_{RA}^\pi(f(s,\pi(s)))\}\right\} \\ &+ (1-\gamma_{RA})\max\{l(s),\zeta(s)\}. \tag{5} \end{aligned} VRAπ(s)=γRAmax{ζ(s),min{l(s),VRAπ(f(s,π(s)))}}+(1−γRA)max{l(s),ζ(s)}.(5)

可达-避免值 V R A π ∗ ( s ) V_{RA}^{\pi*}(s) VRAπ∗(s) 对应于状态 s s s 是否属于可达-避免集合。如果 V R A π ∗ ( s ) ≤ 0 V_{RA}^{\pi*}(s) \leq 0 VRAπ∗(s)≤0,则 s ∈ R A π ( Θ ; F ) s\in RA^\pi(\Theta;F) s∈RAπ(Θ;F)。
理想情况下, V R A π ∗ V_{RA}^{\pi*} VRAπ∗ 应满足定点Bellman方程(4)。但这个方程在值函数空间上不一定是收缩的,数值求解可能不稳定。
为此,作者引入了一个折扣因子 γ R A \gamma_{RA} γRA,定义了折扣可达-避免值 V R A π ( s ) V_{RA}^\pi(s) VRAπ(s),并推导出它满足的Bellman方程(5)。
这个带折扣的方程具有良好的收缩性,更利于数值求解。同时当折扣因子趋于1时,折扣值也会收敛到原始的可达-避免值。

根据相关结论,可以证明当 γ R A ∈ [ 0 , 1 ) \gamma_{RA}\in[0,1) γRA∈[0,1) 时, V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 总是 V R A π ∗ ( s ) V_{RA}^{\pi*}(s) VRAπ∗(s) 的下界,且当 γ R A \gamma_{RA} γRA 趋近于1时, V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 收敛到 V R A π ∗ ( s ) V_{RA}^{\pi*}(s) VRAπ∗(s)。注意 V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 是 V R A π ∗ ( s ) V_{RA}^{\pi*}(s) VRAπ∗(s) 的下界意味着 V R A π ( s ) ≤ 0 ⇒ s ∈ R A π ( Θ ; F ) V_{RA}^\pi(s)\leq 0 \Rightarrow s\in RA^{\pi}(\Theta;F) VRAπ(s)≤0⇒s∈RAπ(Θ;F),这表明基于 V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 阈值的屏蔽方法可以使系统停留在基于控制论的可达-避免集合 R A π ( Θ ; F ) RA^\pi(\Theta;F) RAπ(Θ;F) 内。

作者进一步指出,可以证明:

对任意 γ R A ∈ [ 0 , 1 ) \gamma_{RA}\in[0,1) γRA∈[0,1),折扣值 V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 总是原始值 V R A π ∗ ( s ) V_{RA}^{\pi*}(s) VRAπ∗(s) 的下界。
当折扣因子趋于1时,折扣值会收敛到原始值。
下界性质意味着,如果 V R A π ( s ) ≤ 0 V_{RA}^\pi(s)\leq 0 VRAπ(s)≤0,则状态 s s s 一定属于真正的可达-避免集合。

因此,我们可以用学到的 V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 来构建一个屏蔽机制:如果 V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 超过一定阈值,就切换到安全策略。这种机制可以保证系统始终处于真正的可达-避免集合中,实现安全性。

C. 系统架构

在这里插入图片描述

如图2所示,我们提出的ABS框架包含敏捷策略 π A g i l e \pi_{Agile} πAgile 和恢复策略 π R e c o v e r y \pi_{Recovery} πRecovery 的双策略结构,二者协同工作实现敏捷且安全的运动技能。敏捷策略根据目标指令(目标2D位置和朝向)执行敏捷运动技能,以在障碍物之间导航机器人,同时具有基本的避障能力(见第四节)。恢复策略负责在敏捷策略可能失败时通过快速跟踪twist指令(2D线速度 v x c v^c_x vxc, v y c v^c_y vyc 和偏航角速度 ω z c \omega^c_z ωzc)来保护敏捷策略(见第五节C和第六节)。两个策略都输出关节目标,由PD控制器跟踪。

本文的系统由两个策略构成(图2):

敏捷策略 π A g i l e \pi_{Agile} πAgile:负责高速移动和避障。它根据目标位置和朝向的指令来规划运动。
恢复策略 π R e c o v e r y \pi_{Recovery} πRecovery:负责在敏捷策略失效时介入。它跟踪速度和角速度指令来规避碰撞。

两个策略的切换由可达-避免(RA)值决定。RA值反映了当前状态下敏捷策略的安全程度。

两个策略的输出都是一些关节目标角度,最终由一个PD控制器来执行。

在部署过程中,策略切换由敏捷策略的RA值控制,RA值使用神经网络 V ^ \hat{V} V^ 来估计(见第五节)。给定一个安全阈值 V t h r e s h o l d = − ϵ V_{threshold} = -\epsilon Vthreshold=−ϵ,其中 ϵ \epsilon ϵ 是一个小的正数,我们有:

如果 V ^ ≥ V t h r e s h o l d \hat{V}\geq V_{threshold} V^≥Vthreshold,我们搜索一个twist指令,在保证安全的基础上驱动机器人尽可能接近目标,基于(21)式进行优化。恢复策略接管控制,跟踪搜索得到的twist指令。
如果 V ^ < V t h r e s h o l d \hat{V}<V_{threshold} V^<Vthreshold,则敏捷策略接管控制。

我们期望系统在大多数时间激活敏捷策略,而只在有风险的情况下使用恢复策略,直到恢复到敏捷策略可以安全运行的状态,即 V ^ < V t h r e s h o l d \hat{V}<V_{threshold} V^<Vthreshold。

在实际使用中,系统根据RA值 V ^ \hat{V} V^ 在两个策略间切换:

如果 V ^ \hat{V} V^ 高于阈值 V t h r e s h o l d V_{threshold} Vthreshold,说明当前敏捷策略存在安全隐患,就切换到恢复策略。恢复策略会搜索一个安全的速度指令来跟踪。
如果 V ^ \hat{V} V^ 低于阈值,就使用敏捷策略。

理想情况下,系统应该绝大部分时间使用敏捷策略以获得高速移动,只在必要时短暂切换到恢复策略,直到恢复到安全状态。

为了避障,敏捷策略和RA值网络都需要外部感知输入。受相关工作启发,我们选择使用一个低维外部感知表示:从机器人射向障碍物的11条射线的长度,类似于稀疏的激光雷达读数。我们训练了一个网络,将原始深度图像映射到预测的射线长度(见第七节),射线长度作为敏捷策略和RA值网络的部分观测。

避障需要环境感知能力。本文没有直接使用高维图像,而是将其压缩为一个11维向量,表示从机器人射出的11条射线的长度,反映了障碍物的距离。

作者训练了一个神经网络,可以从深度图像预测这个射线长度特征。该特征作为敏捷策略和RA网络的输入。这种做法受到了一些早期工作的启发。

综上所述,如图2(a)所示,ABS需要在仿真中训练四个模块:

敏捷策略(第四节):通过RL训练以在障碍物中实现最大化的敏捷性。我们设计奖励函数以鼓励最敏捷的运动技能。
RA值网络(第五节):训练以指示敏捷策略的安全性。我们使用数据驱动的方法基于RA Bellman方程(5)对其进行训练,并通过在仿真中执行敏捷策略收集数据。
恢复策略(第六节):训练以从高速运动中快速跟踪twist指令。
射线预测网络(第七节):训练以从深度图像预测射线距离。我们通过在仿真中执行敏捷策略来收集合成深度图像和射线距离。

所有四个模块在训练后都可以直接部署到真实世界中。

总结来说,ABS包含四个关键模块,它们分别是:

敏捷策略:通过RL最大化运动敏捷性,同时避障。
RA值网络:预测敏捷策略的安全性,为策略切换提供依据。它通过敏捷策略的仿真数据,基于RA Bellman方程来训练。
恢复策略:紧急情况下通过快速跟踪速度指令来规避风险。
射线预测网络:为敏捷策略和RA网络提供表征障碍物的紧凑特征。它在仿真中用深度图像和真值射线长度训练。

所有这些模块都是在仿真环境中训练得到的,但可以直接部署到真实机器人上。

4. 学习敏捷策略

正如第三节C中提到的,我们训练一个敏捷策略以在障碍物之间实现高度敏捷性。先前关于学习敏捷移动的工作通常采用速度跟踪的公式,即在开放平坦地形上跟踪速度指令。然而,为这些速度跟踪策略在杂乱环境中设计导航规划器可能是非平凡的。为了确保安全,规划器可能不得不保守,无法充分发挥移动策略的敏捷性。

相反,我们使用目标追踪公式来最大化敏捷性,受相关工作的启发。具体而言,我们训练机器人在片段时间内到达指定目标而不发生碰撞所需的感觉运动技能。通过在基座坐标系中追求高速度的奖励项,也鼓励了敏捷性。通过这样做,机器人自然学会在避免碰撞的同时实现最大敏捷性。

传统的学习敏捷运动的方法,是训练一个策略来跟踪速度指令。但是如何在复杂环境中为这种策略设计一个导航规划器是有难度的。规划器为了安全考虑通常会比较保守,无法充分利用运动策略的能力。

本文采用了一种目标追踪的公式,策略的目标是规定时间内到达指定位置,同时避免碰撞。此外还设置了追求高速度的奖励,以鼓励敏捷性。

通过这种方式,策略可以自主学习如何在保证安全的前提下实现最大速度。

本节介绍我们敏捷策略学习的细节。关于目标追踪和速度跟踪公式在敏捷性方面的详细比较将在第九节A1中给出。

A. 观测空间和动作空间

敏捷策略的观测空间由以下部分组成:足端接触状态 c f ∈ { 1 , 2 , 3 , 4 } c_f\in\{1,2,3,4\} cf∈{1,2,3,4},基座角速度 ω \omega ω,基座坐标系下的投影重力 g g g,基座坐标系下的目标指令 G c G_c Gc(即目标的相对位置和朝向),剩余的片段时间 T − t T-t T−t,关节位置 q q q,关节速度 q ˙ \dot{q} q˙,前一帧的动作 a a a,以及外部感知(即射线距离的对数值) R R R。为简洁起见,我们这里省略了基于时间步的下标( t − 1 t-1 t−1表示动作, t t t表示其他变量)。我们将所有这些变量的集合称为 o A g i l e o_{Agile} oAgile。

在这些观测中,只有 g g g 和 G c G_c Gc 分别需要定向和里程计的状态估计器。其他所有值都可以直接从原始传感器数据中获得,而不会有累积漂移。基于IMU的定向估计(即横滚角和俯仰角)通常非常准确,并且我们的策略可以有效地处理里程计漂移(因为我们甚至可以在运行中突然改变目标,见第九节D)。因此,我们的敏捷策略对不准确的状态估计器是鲁棒的,而这可能是基于模型的控制器的问题。

敏捷策略的动作空间由12维关节目标角度组成。一个PD控制器通过将这些关节目标角度 a a a 转换为关节力矩来跟踪它们:

τ = K p ( a − q ) − K d q ˙ . (6) \tau = K_p(a-q) - K_d\dot{q}. \tag{6} τ=Kp(a−q)−Kdq˙.(6)

一个全连接的MLP将观测 o A g i l e o_{Agile} oAgile 映射到动作 a a a。

作者详细介绍了敏捷策略的观测空间和动作空间。

观测空间包括:

足端接触状态
基座角速度
重力方向
目标位置和朝向
剩余时间
关节位置和速度
上一时刻的动作
射线长度(外部感知)

其中大部分信息可以直接通过传感器获得,只有重力方向和目标信息需要状态估计。作者指出,策略对状态估计误差有一定的鲁棒性。

动作空间就是12个关节的目标角度。系统最终通过一个PD控制器将其转换为关节力矩。

策略本身是一个MLP网络,将观测映射到动作。

B. 奖励

我们的奖励函数由多个项的总和组成:

r = r p e n a l t y + r t a s k + r r e g u l a r i z a t i o n , (7) r = r_{penalty} + r_{task} + r_{regularization}, \tag{7} r=rpenalty+rtask+rregularization,(7)

其中每一项都可以进一步分为几个子项。

1) 惩罚项

我们使用一个简单的惩罚设计:

r p e n a l t y = − 100 ⋅ 1 ( undesired collision ) , (8) r_{penalty} = -100 \cdot \mathbf{1}(\text{undesired collision}), \tag{8} rpenalty=−100⋅1(undesired collision),(8)

其中undesired collision是指在基座、大腿和小腿上的碰撞,以及在足端的水平碰撞。

2) 任务项

任务奖励为:

r t a s k = 60 ⋅ r p o s s o f t + 60 ⋅ r p o s t i g h t + 30 ⋅ r h e a d i n g − 10 ⋅ r s t a n d + 10 ⋅ r a g i l e − 20 ⋅ r s t a l l , (9) \begin{aligned} r_{task} = & 60 \cdot r_{possoft} + 60 \cdot r_{postight} + 30 \cdot r_{heading} \\ & - 10 \cdot r_{stand} + 10 \cdot r_{agile} - 20 \cdot r_{stall}, \end{aligned} \tag{9} rtask=60⋅rpossoft+60⋅rpostight+30⋅rheading−10⋅rstand+10⋅ragile−20⋅rstall,(9)

即一个软位置跟踪项 r p o s s o f t r_{possoft} rpossoft 鼓励目标到达的探索,一个紧位置跟踪项 r p o s t i g h t r_{postight} rpostight 强化机器人停在目标处,一个航向跟踪项 r h e a d i n g r_{heading} rheading 调节机器人在目标处附近的朝向,一个站立项 r s t a n d r_{stand} rstand 鼓励在目标处的站立姿态,一个敏捷项 r a g i l e r_{agile} ragile 鼓励高速度,以及一个停滞项 r s t a l l r_{stall} rstall 惩罚等待行为。这些项确保机器人应该尽可能快地到达目标,并具有适当的朝向和姿态,同时不浪费时间。

具体来说,我们的跟踪项( r p o s s o f t r_{possoft} rpossoft, r p o s t i g h t r_{postight} rpostight, r h e a d i n g r_{heading} rheading)采用相同的形式,如下所示,灵感来自于学习RL导航规划器的工作:

r t r a c k ( possoft/postight/heading ) = 1 1 + error σ ⋅ 1 ( t > T − T r ) T r , (10) r_{track(\text{possoft/postight/heading})}=\frac{1}{1+\frac{\text{error}}{\sigma}} \cdot \frac{\mathbf{1}(t>T-T_r)}{T_r}, \tag{10} rtrack(possoft/postight/heading)=1+σerror1⋅Tr1(t>T−Tr),(10)

其中 σ \sigma σ 用于归一化跟踪误差, T T T是片段长度, T r T_r Tr是一个时间阈值。这样做,机器人只需要在 T − T r T-T_r T−Tr 之前到达目标就可以最大化跟踪奖励,而不受诸如目标速度等可能限制敏捷性的显式运动约束。对于软位置跟踪,我们设置 σ s o f t = 2 m \sigma_{soft}=2\text{m} σsoft=2m, T r = 2 s T_r=2\text{s} Tr=2s,误差是到目标的距离。对于紧位置跟踪,我们设置 σ t i g h t = 0.5 m \sigma_{tight}=0.5\text{m} σtight=0.5m, T r = 1 s T_r=1\text{s} Tr=1s。对于航向跟踪,我们设置 σ h e a d i n g = 1 rad \sigma_{heading}=1\text{rad} σheading=1rad, T r = 2 s T_r=2\text{s} Tr=2s,误差是到目标航向的相对偏航角。我们进一步在到目标的距离大于 σ s o f t \sigma_{soft} σsoft 时禁用 r h e a d i n g r_{heading} rheading,这样就不会影响避障。

站立项定义为

r s t a n d = ∥ q − q ˉ ∥ 1 ⋅ 1 ( t > T − T r , s t a n d ) T r , s t a n d ⋅ 1 ( d g o a l < σ t i g h t ) , (11) r_{stand} = \|q-\bar{q}\|_1 \cdot \frac{\mathbf{1}(t>T-T_{r,stand})}{T_{r,stand}} \cdot \mathbf{1}(d_{goal}<\sigma_{tight}), \tag{11} rstand=∥q−qˉ∥1⋅Tr,stand1(t>T−Tr,stand)⋅1(dgoal<σtight),(11)

其中 q ˉ \bar{q} qˉ 是站立的标称关节位置, T r , s t a n d = 1 s T_{r,stand}=1\text{s} Tr,stand=1s, d g o a l d_{goal} dgoal 是到目标的距离。

敏捷项是鼓励敏捷移动的核心项。它定义为

r a g i l e = max ⁡ { ReLU ( v x v m a x ) ⋅ 1 ( correct direction ) , 1 ( d g o a l < σ t i g h t ) } , (12) r_{agile} = \max\left\{ \text{ReLU}\left(\frac{v_x}{v_{max}}\right)\cdot \mathbf{1}(\text{correct direction}), \mathbf{1}(d_{goal}<\sigma_{tight})\right\}, \tag{12} ragile=max{ReLU(vmaxvx)⋅1(correct direction),1(dgoal<σtight)},(12)

其中 v x v_x vx 是机器人基坐标系下的前向速度, v m a x = 4.5 m/s v_{max}=4.5\text{m/s} vmax=4.5m/s 是一个无法达到的 v x v_x vx 上界(基于硬件数据手册),而"correct direction"表示机器人朝向与机器人-目标连线之间的夹角小于105度。为了最大化这一项,机器人要么快速奔跑,要么停在目标处。

如果机器人在 d g o a l > σ s o f t d_{goal}>\sigma_{soft} dgoal>σsoft 时静止不动,并且机器人没有朝"correct direction",则停滞项 r s t a l l r_{stall} rstall 为1。这一项惩罚机器人浪费时间。

奖励函数由三部分组成:惩罚项、任务项和正则化项。

惩罚项主要防止机器人与环境发生碰撞。

任务项鼓励机器人快速、准确地到达目标:

有软硬两个位置跟踪奖励,确保机器人能到达目标附近并精确停在目标点。
航向跟踪奖励使机器人在目标处有正确的朝向。在离目标较远时,该奖励会被禁用以避免干扰避障。
站立奖励使机器人在目标处保持站立姿态。
敏捷奖励鼓励机器人要么全速向前,要么停在目标点,是实现高速运动的关键。
停滞惩罚防止机器人原地不动浪费时间。

作者采用了一些技巧来设计这些奖励,如对跟踪误差进行归一化,引入一个容忍时间阈值等,以允许策略灵活规划运动。

3) 正则化项

正则化奖励为:
r r e g u l a r i z a t i o n = − 2 ⋅ v z 2 − 0.05 ⋅ ( ω x 2 + ω y 2 ) − 20 ⋅ ( g x 2 + g y 2 ) − 0.0005 ⋅ ∥ τ ∥ 2 2 − 20 ⋅ ∑ i = 1 12 ReLU ( ∣ τ i ∣ − 0.85 ⋅ τ i , l i m ) − 0.0005 ⋅ ∥ q ˙ ∥ 2 2 − 20 ⋅ ∑ i = 1 12 ReLU ( ∣ q ˙ i ∣ − 0.9 ⋅ q ˙ i , l i m ) − 20 ⋅ ∑ i = 1 12 ReLU ( ∣ q i ∣ − 0.95 ⋅ q i , l i m ) − 2 × 1 0 − 7 ⋅ ∥ q ¨ ∥ 2 2 − 4 × 1 0 − 6 ⋅ ∥ a ˙ ∥ 2 2 − 20 ⋅ 1 ( fly ) , (13) \begin{aligned} r_{regularization} = & -2\cdot v_z^2 - 0.05\cdot(\omega_x^2+\omega_y^2) - 20\cdot(g_x^2+g_y^2) \\ & -0.0005\cdot\|\tau\|_2^2 - 20\cdot\sum_{i=1}^{12}\text{ReLU}(|\tau_i|-0.85\cdot\tau_{i,lim}) \\ & -0.0005\cdot\|\dot{q}\|_2^2 -20\cdot\sum_{i=1}^{12}\text{ReLU}(|\dot{q}_i|-0.9\cdot\dot{q}_{i,lim}) \\ & -20\cdot\sum_{i=1}^{12}\text{ReLU}(|q_i|-0.95\cdot q_{i,lim}) \\ & -2\times10^{-7}\cdot\|\ddot{q}\|_2^2 - 4\times10^{-6}\cdot\|\dot{a}\|_2^2 \\ & -20\cdot\mathbf{1}(\text{fly}), \end{aligned} \tag{13} rregularization=−2⋅vz2−0.05⋅(ωx2+ωy2)−20⋅(gx2+gy2)−0.0005⋅∥τ∥22−20⋅i=1∑12ReLU(∣τi∣−0.85⋅τi,lim)−0.0005⋅∥q˙∥22−20⋅i=1∑12ReLU(∣q˙i∣−0.9⋅q˙i,lim)−20⋅i=1∑12ReLU(∣qi∣−0.95⋅qi,lim)−2×10−7⋅∥q¨∥22−4×10−6⋅∥a˙∥22−20⋅1(fly),(13)

其中 τ \tau τ 是关节力矩, τ l i m \tau_{lim} τlim 是硬件力矩限制, q ˙ l i m \dot{q}_{lim} q˙lim 是硬件关节速度限制, q l i m q_{lim} qlim 是硬件关节位置限制,"fly"是指机器人与地面没有接触。我们惩罚"fly"的情况,因为它们使机器人基座不可控,威胁系统的安全性。

正则化项包含了一系列惩罚,用于鼓励机器人的运动更加平稳、高效、安全:

惩罚z方向(垂直方向)的速度和x-y方向(水平方向)的角速度,以抑制不必要的振动。
惩罚倾斜,保持机身稳定。
惩罚大的关节力矩、速度和位置,避免超出执行器限制。
惩罚大的关节加速度和加加速度,使运动更平滑。
惩罚悬空(没有支撑脚着地),此时机器人失去控制,容易跌倒。

C. 仿真训练

1) 仿真器

我们使用基于GPU的Isaac Gym仿真器,它支持我们用PPO算法并行训练1280个环境。

2) 地形

在这里插入图片描述

我们在随机地形上训练敏捷策略,遵循一个课程以促进学习。为了防止过度利用仿真动力学而产生不稳定的步态,地形被随机采样为平坦、粗糙或低矮障碍物,如图3所示。随着难度等级从0上升到9,粗糙地形和障碍物的高度差从0cm增加到7cm。

3) 障碍物

我们用半径40cm的圆柱体作为训练障碍物。对于每个片段,我们在一个覆盖原点和目标的11m×5m的矩形区域内随机分布0~8个障碍物。为了便于学习,我们也应用了一个课程,其中较高的难度等级有更多的障碍物。

4) 域随机化

我们进行域随机化以实现从仿真到真实的迁移。随机化的设置如表2所列。在这些项中,有两项至关重要:illusion和ERFI-50。Illusion使策略对看不见的几何形状(如墙壁)更加鲁棒:如果射线距离大于 d g o a l + 0.3 d_{goal}+0.3 dgoal+0.3,它就用 U ( d g o a l + 0.3 , ray distance ) U(d_{goal}+0.3,\text{ray distance}) U(dgoal+0.3,ray distance) 范围内的随机值覆盖观测到的射线距离。ERFI-50通过随机力矩扰动隐式地对真实世界的动力学进行系统辨识,我们在本工作中增加了一个课程以避免阻碍学习的早期阶段。我们还随机偏置关节位置以对电机编码器的偏移误差进行建模。

作者在仿真训练中采用了以下设置:

使用Isaac Gym仿真器,可以高度并行化训练过程。
随机生成平坦、粗糙、有障碍物的地形,并随训练进程提高难度,以促进策略的泛化能力。
随机放置圆柱体作为障碍物。障碍物数量也随训练难度增加。
在状态观测、动力学参数等多个方面进行域随机化,以缩小真实环境与仿真环境的差距。其中两个关键技术是:
Illusion:通过添加随机噪声,使策略对看不见的障碍物(如墙壁)更鲁棒。
ERFI-50:通过施加随机扰动,模拟真实执行器的动力学误差。

通过这些设置,策略可以在仿真环境中学习应对不确定性,从而更好地迁移到真实世界。

5) 课程学习

如上所述,我们应用一个课程,其中难度等级可以改变地形、障碍物分布和域随机化。对于难度等级的分配,我们遵循Zhang等人的设计:当一个片段结束时,如果 d g o a l < σ t i g h t d_{goal}<\sigma_{tight} dgoal<σtight,机器人会升到更高的等级,如果 d g o a l > σ s o f t d_{goal}>\sigma_{soft} dgoal>σsoft,机器人会降到更低的等级。如果机器人在最高等级被提升,它将按照文献的做法转到随机等级。

作者在训练中采用了课程学习的策略,即随着训练的进行逐步提高任务难度。难度等级将影响地形的复杂度、障碍物的密度以及域随机化的强度。

难度等级的调整规则如下:

如果一个片段结束时,机器人到达目标点的距离 d g o a l d_{goal} dgoal 小于 σ t i g h t \sigma_{tight} σtight (紧位置阈值),就提升难度。
如果 d g o a l d_{goal} dgoal 大于 σ s o f t \sigma_{soft} σsoft (软位置阈值),就降低难度。
如果机器人已经在最高难度下被提升,就随机选择一个难度重新开始。

5. 学习和使用可达-避免值

虽然敏捷策略通过相应的奖励学习了一定的避障行为,但它并不能保证安全性。为了保护机器人,我们建议使用RA值来预测故障,然后恢复策略可以根据RA值来挽救机器人。

受Hsu等人的启发,我们以模型无关的方式学习RA值,与典型的基于模型的可达性分析方法形成对比。这更适合基于模型无关RL的策略。此外,与文献不同的是,我们不学习全局RA值,而是将其与策略相关联,如第三节B4所述。学习得到的RA值函数将仅根据观测预测敏捷策略的故障。

A. 学习RA值

为了避免在高维空间中过拟合并使RA值具有泛化能力,我们使用一组简化的观测作为RA值函数的输入:

o R A = { [ v ; ω ] ; G x , y c ; R } , (14) o_{RA}=\{[v;\omega];G^c_{x,y};R\}, \tag{14} oRA={[v;ω];Gx,yc;R},(14)

即基座速度、目标在机器人坐标系下的(x,y)位置以及外部感知。这些分量是质心观测,显著影响安全性和目标到达。另一方面,我们这里不使用关节级的观测(如 q q q 和 q ˙ \dot{q} q˙),因为它们是高维的,与目标到达的相关性较小。我们训练一个RA值网络 V ^ \hat{V} V^ 来近似RA值:

V R A π A g i l e ( s ) ≈ V ^ ( o R A ) . (15) V_{RA}^{\pi_{Agile}}(s) \approx \hat{V}(o_{RA}). \tag{15} VRAπAgile(s)≈V^(oRA).(15)

基于式(5),我们通过梯度下降最小化每个片段的如下损失:

L = 1 T ∑ t = 1 T ( V ^ ( o R A , t ) − V ^ t a r g e t ) 2 , (16) L=\frac{1}{T}\sum_{t=1}^T(\hat{V}(o_{RA,t})-\hat{V}_{target})^2, \tag{16} L=T1t=1∑T(V^(oRA,t)−V^target)2,(16)

其中

V ^ t a r g e t = γ R A max ⁡ { ζ ( s t ) , min ⁡ { l ( s t ) , V ^ o l d ( o R A , t + 1 ) } } + ( 1 − γ R A ) max ⁡ { l ( s t ) , ζ ( s t ) } , (17) \begin{aligned} \hat{V}_{target} = \gamma_{RA}&\max\{\zeta(s_t),\min\{l(s_t),\hat{V}_{old}(o_{RA,t+1})\}\} \\ & + (1-\gamma_{RA})\max\{l(s_t),\zeta(s_t)\}, \end{aligned} \tag{17} V^target=γRAmax{ζ(st),min{l(st),V^old(oRA,t+1)}}+(1−γRA)max{l(st),ζ(st)},(17)

我们设置折扣因子 γ R A = 0.999999 \gamma_{RA}=0.999999 γRA=0.999999 以最佳地逼近 R A π ( Θ ; F ) RA^{\pi}(\Theta;F) RAπ(Θ;F),因为当 γ R A \gamma_{RA} γRA 接近1时, V R A π ( s ) V_{RA}^\pi(s) VRAπ(s) 收敛到 V R A π ∗ ( s ) V_{RA}^{\pi*}(s) VRAπ∗(s)。 V ^ o l d \hat{V}_{old} V^old 指代上一次迭代的 V ^ \hat{V} V^,我们设置 V ^ o l d ( o R A , T + 1 ) = + ∞ \hat{V}_{old}(o_{RA,T+1})=+\infty V^old(oRA,T+1)=+∞。

为了学习与敏捷策略相关的RA值,作者没有直接学习全局RA值,而是训练了一个神经网络 V ^ \hat{V} V^ 来拟合策略相关的RA值。该网络的输入是一组简化的观测 o R A o_{RA} oRA,包括机器人速度、目标位置和外部感知特征,它们与安全性和目标到达高度相关。

网络的训练采用了监督学习的方式,通过最小化真实值与目标值(式17)间的均方误差(式16)来进行。目标值根据RA值的Bellman方程(式5)来计算。

与文献不同,本文学习的是策略相关的RA值,而不是整个系统动力学的全局RA值。这避免了需要对动作空间进行优化的复杂性。此外,策略相关的RA值学习可以采用两阶段的离线方式,即先收集数据,再拟合RA值,更加稳定。

与文献不同,我们的方法学习以策略为条件的可达-避免值,而不是解决与整个系统动力学相关的、策略无关的全局可达-避免值,后者涉及在动作空间 A A A 上求解另一个最小值问题。我们的方法提供了几个优势:1)简单性:如式(5)中突出显示的,这种简单性源于避免了需要在整个动作空间中求解下一个状态的最小值。2)两阶段离线学习:我们的方法可以通过两阶段离线方式学习。这涉及首先收集策略轨迹,然后训练以策略为条件的可达-避免值。与文献中提出的在线训练方法相比,这种两阶段过程增强了稳定性。

B. 实现

根据文献,为了理论保证, l ( s ) l(s) l(s) 和 ζ ( s ) \zeta(s) ζ(s) 应该是Lipschitz连续的。在我们的实现中,我们将 l ( s ) l(s) l(s) 定义为

l ( s ) = tanh ⁡ log ⁡ d g o a l σ t i g h t , (18) l(s) = \tanh\log\frac{d_{goal}}{\sigma_{tight}}, \tag{18} l(s)=tanhlogσtightdgoal,(18)

从而使其Lipschitz连续,将其限制在(-1,1)内,并将 d g o a l ≤ σ t i g h t d_{goal}\leq\sigma_{tight} dgoal≤σtight 设置为"到达"。

关于失败,我们自然有

ζ ( s ) = 2 ∗ 1 ( undesired collision ) − 1. (19) \zeta(s) = 2*\mathbf{1}(\text{undesired collision})-1. \tag{19} ζ(s)=2∗1(undesired collision)−1.(19)

然而,这个定义违反了Lipschitz连续性。因此,我们以事后的方式软化该函数:当发生undesired collision时,最后10个时间步的 ζ \zeta ζ 值被重新标记为-0.8,-0.6,…,0.8,1.0。

对于RA数据集采样,我们使障碍物分布与训练敏捷策略时的最高难度相同。我们用训练好的敏捷策略进行200k个片段的仿真,并收集这些轨迹用于RA学习。
在这里插入图片描述

图4可视化了针对一组特定障碍物学习到的RA值。随着机器人速度的变化,RA值的形态也相应地变化。RA值的符号可以合理地指示敏捷策略的安全性。

在RA值的具体实现中,作者采用了一些技巧来满足理论要求,并提高学习效果:

将目标指示函数 l ( s ) l(s) l(s) 设计为与目标距离的对数相关,并进行tanh变换,使其满足Lipschitz连续性,并将值域限制在(-1,1)。
将碰撞指示函数 ζ ( s ) \zeta(s) ζ(s) 软化,即当碰撞发生时,将前一段时间的 ζ \zeta ζ 值进行渐变标记,而不是直接设为1。这个技巧虽然破坏了Lipschitz连续性,但可以提高学习效果。
在收集训练数据时,障碍物的分布与训练敏捷策略时的最高难度设置相同,以获得更有代表性的数据。

作者还可视化了学习到的RA值,它可以合理地反映不同状态下敏捷策略的安全程度,验证了学习的有效性。RA值的分布也随机器人速度而变化,体现了RA值与策略的相关性。

C. 使用RA值进行恢复

RA值提供了一个以敏捷策略为条件的故障预测,我们建议使用RA值来指导恢复策略。具体而言,机器人使用RA值函数决定最优twist以避免碰撞,并采用恢复策略来跟踪这些twist指令。当且仅当 V ^ ( o R A ) ≥ V t h r e s h o l d \hat{V}(o_{RA})\geq V_{threshold} V^(oRA)≥Vthreshold时,恢复策略作为备份的屏蔽策略被触发。我们设置 V t h r e s h o l d = − 0.05 V_{threshold}=-0.05 Vthreshold=−0.05以补偿学习误差,同时不会导致过于保守的屏蔽。

在恢复过程中,我们假设恢复策略训练良好,使得机器人的twist接近指令
t w c = [ v x c , v y c , 0 , 0 , 0 , ω z c ] , (20) tw_c=[v_x^c,v_y^c,0,0,0,\omega_z^c], \tag{20} twc=[vxc,vyc,0,0,0,ωzc],(20)
并且如果在给定目标和外部感知的情况下机器人的twist是安全的,机器人应该尽量接近目标。因此,twist指令通过如下优化获得:
t w c = arg ⁡ min ⁡ d g o a l f u t u r e s.t. V ^ ( [ t w c ; G x , y c ; R ] ) < V t h r e s h o l d , (21) tw_c = \arg\min d_{goal}^{future} \quad \text{s.t.} \quad \hat{V}([tw_c;G_{x,y}^c;R]) < V_{threshold}, \tag{21} twc=argmindgoalfutures.t.V^([twc;Gx,yc;R])<Vthreshold,(21)
其中 d g o a l f u t u r e d_{goal}^{future} dgoalfuture是指跟踪twist指令一小段时间 δ t = 0.05 s \delta t=0.05\text{s} δt=0.05s后到目标的近似距离。这是基于机器人基座中的线性化位移积分来计算的:

δ x = v x c δ t − 0.5 v y c ω z c δ t 2 , δ y = v y c δ t + 0.5 v x c ω z c δ t 2 . (22) \begin{aligned} \delta x &= v_x^c\delta t - 0.5v_y^c\omega_z^c\delta t^2, \\ \delta y &= v_y^c\delta t + 0.5v_x^c\omega_z^c\delta t^2. \end{aligned} \tag{22} δxδy=vxcδt−0.5vycωzcδt2,=vycδt+0.5vxcωzcδt2.(22)
在这里插入图片描述

在实践中,当初始化为当前twist时,带有约束上的Lagrange乘子的梯度下降可以在5步内求解式(21),从而实现实时部署。图8给出了twist优化过程的可视化,其中搜索得到的twist始终满足安全约束(即 V ^ < V t h r e s h o l d \hat{V}<V_{threshold} V^<Vthreshold)。

RA值不仅预测了敏捷策略的失败概率,还可以用于指导恢复策略的行为。具体来说:

一旦RA值 V ^ ( o R A ) \hat{V}(o_{RA}) V^(oRA) 超过某个安全阈值 V t h r e s h o l d V_{threshold} Vthreshold,就触发恢复策略进行干预。 V t h r e s h o l d V_{threshold} Vthreshold 的设置需要在补偿学习误差和避免过度保守之间权衡。

恢复策略的目标是寻找一个速度指令 t w c tw_c twc,在保证安全的前提下尽量接近原目标。这可以表示为一个带约束的优化问题(式21)。其中安全约束即要求在给定指令下,RA值要低于阈值。

目标函数 d g o a l f u t u r e d_{goal}^{future} dgoalfuture 表示执行该指令一小段时间后,机器人预计与目标之间的距离。它可以通过简化的运动学模型(式22)来估计。

该优化问题可以通过梯度下降高效求解,满足实时性需求。图8直观展示了优化过程,搜索得到的指令可以很好地均衡安全性与任务目标。

本节巧妙地利用了RA值将安全性量化为一个连续可导函数,并据此构建了一个优化问题,使恢复策略具备了感知能力,可以动态规划轨迹。这体现了RA值的实用价值。