24年12月来自清华和南洋理工的论文“AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation”。
执行普通语言条件下的双手操作任务,对于从家政服务到工业装配等许多应用都非常重要。然而,由于动作空间高维,收集双手操作数据的成本很高,这对处理一般双手操作任务的传统方法提出了挑战。相比之下,单手策略最近在广泛的任务中表现出令人印象深刻的通用性,因为扩展的模型参数和训练数据,可以为双手系统提供可共享的操作知识。为此,一种名为 AnyBimanual 的即插即用方法,将预训练的单手策略迁移到普通的双手操作策略,只需要很少的双手演示。
具体而言,首先引入一个技能管理器来动态调度从预训练的单手策略中发现的用于双手操作任务技能表示,它将技能基元与面向任务的补偿线性组合来表示双手操作指令。为了缓解单手和双手系统之间的观察差异,提出一个视觉对齐器,生成用于工作区视觉嵌入的软掩码,旨在将单手策略模型中每只手臂的视觉输入与预训练阶段的视觉输入对齐。AnyBimanual 在 RLBench2 的 12 个模拟任务上表现出色,成功率比以前的方法提高了 12.67%。在 9 个真实任务上的实验,其平均成功率为 84.62%。
AnyBimanual 如图所示:
双手系统在机器人操作中发挥着重要作用,因为它能够高效地完成家政服务 [72]、机器人手术 [33] 和工厂中的部件装配 [9] 等各种任务。与单手系统相比,双手系统扩大了工作空间,能够通过用一只手臂稳定目标,用另一只手臂与目标交互来处理更复杂的操作任务 [30, 45]。即使对于单手策略可以处理的任务,双手系统通常也更有效率,因为可以同时完成多个动作步骤 [31]。由于现代机器人应用需要机器人与不同的任务和目标交互,因此设计一个可推广的双手操作策略模型,是可取的。
为了增强操作智体的泛化能力,先前的研究利用大语言模型 (LLM) 和视觉-语言模型 (VLM) 等基础模型的高级推理和语义理解能力将任务分解为可执行的子任务,这些子任务可以通过外部低级控制器解决 [26, 27, 34, 37, 44],因此在处理需要复杂和精确低级运动的接触丰富任务时会遇到困难。为了推广到接触丰富的任务,最近的方法 [1, 41, 51] 倾向于直接从大规模遥操作数据 [17, 40, 55] 中学习机器人基础模型,这在各种单手任务中表现出了令人印象深刻的泛化能力。然而,在现实世界中,双手演示的获取成本极其昂贵,通常需要配备额外传感器的专门遥控系统,并进行精细标定,人力成本很高 [12, 18, 22, 56, 62, 73]。为了应对这一挑战,最近的方法旨在通过利用人类的归纳偏差来简化学习预算,例如参数化的原子运动可以详细描述位置和旋转 [5, 15] 或为每个手臂分配稳定和动作角色 [24, 45, 54],从而减少对大量专家数据的需求。然而,可共享的原子运动和固定的合作模式很难在不同的双手操作任务中推广,这限制了这类方法的部署场景。
可泛化的双手操作。双手操作智体 [6、11、22、24、27、31、38、45、68、71] 能够通过预测双手操作的轨迹来处理各种各样的任务,这在从家政服务 [72]、机器人手术 [33] 到工厂零部件装配 [9] 等复杂应用中具有重要意义。为了实现可泛化的双手操作多任务学习,早期的研究尝试利用预训练基础模型(如 LLM [53] 和 VLM [10])中出现的普通理解和推理能力,其中基础模型被提示为低级执行器生成高级规划。但是,直接利用基础模型进行训练的性能瓶颈在于预定义的低级执行器,它很难推广到拉直绳子等接触密集型任务。为了克服这一挑战,在单手设置下提出了对大规模真实世界演示进行预训练的机器人基础模型 [7、8、17、41、46、51],该模型在日常操作任务中表现出很高的通用性。然而,双手任务需要两个高自由度手臂的精确协调,这使得用于训练可通用策略的演示的远程操作也成本高昂。虽然最近的一些方法 [13、16、18、22、65、73] 已经开发出更专业的远程操作系统来降低这些成本,但扩大演示以获得高泛化能力仍然是一个挑战。为了解决演示的有限性,提出了替代方法 [30, 45, 60],将双手系统分解为稳定臂和动作臂,简化双手策略的学习。然而,这些方法通常依赖于每个手臂的预定义角色,这使得它们不适用于需要更灵活协作模式的任务。
基于技能的方法。技能学习 [70] 是智能体获得可在不同任务之间迁移新能力的过程,这对于跨任务泛化具有重要意义。因此,技能学习在增强不同模型的泛化方面具有吸引力,例如游戏智体 [57]、机器人操纵 [43] 和自动驾驶 [20]。利用技能学习的最初尝试是编排一组预定义的技能 [48],但这阻碍了它们向未见过任务的可扩展性。为了克服这个限制,[15, 43] 提出从数据中学习可共享的技能基元。例如,技能 diffuser [43] 引入了一个分层规划框架,将可学习的技能嵌入集成到条件轨迹生成中,实现了不同组合任务的准确执行。在双手操作领域,技能学习以手工制作的基元为主。例如,[2–4, 14, 19, 21, 23, 29, 32, 64, 66] 提出利用参数化的原子运动来缩小双手动作空间的高维性,这在模板化的双手操作任务中表现出令人瞩目的效果。虽然预定义的原子动作确实提高了特定任务的成功率,但即使是人类用户也很难指定它们,这限制了这些方法的部署场景。
带腿机器人运动学习。带腿机器人运动导航学习,侧重于使机器人能够穿越各种地形。先前的研究(Wang,2023b;Long,2024)完全依赖于机器人在避障等场景中的本体感受信息斗争。其他端到端基于视觉的方法(Kareer,2023;Yang,2022;Imai,2022;Yang,2023)由于传感器的限制,容易受到极端环境条件(例如强烈的阳光)的影响。Lee(2020)和 Miki(2022)除了深度摄像头外还结合了激光雷达传感器来改善地形感知,但依赖于时间效率低下的两个-状态训练。
双手操作的策略学习任务可以定义如下。为了完成用自然语言指定的各种操作任务,双手智体需要根据视觉观察和机器人状态以交互方式预测两个末端执行器的动作,其中运动由低级规划器(例如 RRT-Connect)获取。第 t 个时间步的观察 o/t 包括从 RGB 和深度图像转换而来的体素 v/t [31, 50] 和机器人本体感受 p/t。第 t 个时间步每个末端执行器的动作 a/t 包含位置 a/trans、方向 a/rot、夹持器打开状态 a/open 和运动规划器中防撞的使用 a/col。对于训练数据,人类演示者为每个任务指令 l 生成一组有限的 M 条离线专家轨迹 D = {(o, aleft/1, aright/1), …, (o, aleft/M, aright/M)},其中 a^arm/t, arm ∈ A = {left, right} 演示左、右夹持器的动作。现有方法直接从专家演示中学习策略模型,这在单任务设置中已显示出有效性。然而,由于双手系统中数据收集成本高,专家演示的稀缺限制了这些方法在任务之间的通用性。为了解决这个问题,提出将预训练的可通用单手策略迁移到一般的双手操作。
如图显示 AnyBimanual 方法的总体流程。对于语言分支,用预训练的文本编码器 [49] 将双手指令解析为具有高级语义的语言嵌入,其中技能管理器使用组合和补偿来调度技能基元,增强指导不同分支相关子任务的语言嵌入。因此,可以提示预训练的单手策略模型为每个分支生成可行的操作策略,这些策略具有可共享的操作知识,并且在任务之间具有很高的泛化能力。对于视觉分支,将 RGB-D 输入体素化到体素空间作为观测,并使用 3D 稀疏体素编码器对体素观测进行token化,以获得信息丰富的体表示。视觉对齐器生成一个软空间掩码,将单手策略模型的视觉表示与预训练期间的表示对齐,从而可以最小化单手和双手系统之间的观察差异,从而增强策略可迁移性。使用两个预训练的单手模型,根据文本嵌入和视觉表示来预测左右机器人动作,其中预训练的单手策略可以是基于多模态Transformer的策略 [7、8、17、41、50] 或基于扩散的策略 [39、51]。
为了将单手操作策略迁移到双手设置而不降低普遍性,提出一个技能管理器,将单手基础模型中的动作策略分解为技能基元,并集成双手系统的基元。然而,给定的离线专家演示 D 不包含任何显式的中间技能基元或子任务边界,而只提供了低级末端执行器姿势和高级自然语言指令。因此,设计一种无监督的自动技能发现方法,在训练过程中从离线双手操作数据集中学习技能表征及其模式。在测试阶段,技能管理器根据高级语言指令预测不同加权的基元技能组合来协调每只手臂,从而能够将预训练的单手策略有效地迁移到不同的双手操作任务。
通过组合技能集中的原语,单手策略模型的语言嵌入可以表示为这些原语的线性组合。如图所示,考虑双手任务“交接”,可以通过调度两个单手原始技能来明确解决,即左臂将块“放置”到右侧夹持器上,而右臂从左侧夹持器上“拾取”它。
虽然通过预训练单一策略的每个语言嵌入都可以表示为技能集的线性组合,但指定每个技能重要性的组合权重在整个任务完成过程中都是动态的。参数化一个名为技能管理器的多模型transformer,动态预测每个时间步骤中每个臂的组合权重。
技能管理器以整体双手视觉和语言的嵌入、本体感觉作为输入,并将每只手臂的重建单手语言嵌入分配为输出,动态调度每只手臂的技能原语。最后,将组合的技能基元与初始的双手语言嵌入连接起来,增强全局上下文,然后将其发到相应的单手策略。
为了更新技能库,希望发现的技能表示能够提供信息,编码可在各种任务中共享的基本机器人动作,从而增强框架的通用性。技能子空间需要彼此正交且不相交,以重建具有稀疏组合和补偿的语言嵌入,这隐式地强制每个技能的表示捕捉独立的基本动作。
尽管技能管理器能够在语言模态中实现泛化,但就视觉环境而言,从单手工作空间到双手工作空间的分布迁移,仍然可能损害模型性能。为了缓解观察差异,提出一个视觉对齐器 q,它在每个步骤 t 预测两个空间软掩码来编辑体素空间,以便每个手臂单手策略模型的分解子空间与预训练阶段的子空间对齐。
分解后的观察,表示工作空间的局部性,其然后通过双手观察进行增强,形成最终的视觉嵌入。因此,每只手臂的增强视觉表征,既包含特定于具身的信息,也包含全局背景,然后通过两个单手策略模型来解码最佳双手动作。
目标是缩小单手和双手设置之间的视觉域差距,以便单手策略中预训练的常识知识能够以高适应性进行迁移。由于无法访问常见用法中的单手预训练数据,因此改为对视觉对齐器施加互斥先验知识。整个双手工作空间的相互排斥划分,将自然地将一只手臂及其目标与另一只手臂及其目标分开,这与单手配置非常相似。因此,通过最大化两个软掩码之间的差异,双手操作智体的体素输入可以分解为与预训练阶段的体素输入有效一致的单手视觉表示。
分解后的技能和体表示用于传递两个预训练的单手策略,预测两个终端执行器的最佳动作。假设可以访问预训练的单手策略 p,它本质上是一个多模型多任务神经网络,以视觉和语言嵌入为输入,输出终端执行器动作。AnyBimanual 是一种与模型无关的即插即用方法,这表明预训练的单手策略 p 架构在不同架构中都很灵活,例如基于多模态 Transformer 的策略 [41, 50] 和扩散策略 [39, 51]。
为了进行基准测试,在 RLBench2 [31] 上进行了模拟实验,如图所示。这是一个双手版本,由先前工作 [28、35、39、47、63、69] 中广泛使用的 RLBench [36] 基准扩展而来。按照 [31] 中的设置,用 12 个语言条件的双手操作任务,这些任务的挑战级别各不相同。多样化的任务套件要求智体获得并正确安排可共享的技能以实现高成功率,而不仅仅是模仿有限的专家演示。为了进行观察,用六个分辨率为 256×256 的摄像头来覆盖整个工作空间。在训练阶段,为每个任务提供 20 或 100 个演示,并在测试集中评估每个任务的 25 个episodes以减轻随机性。
实验的真实世界设置包括两个配备 Robotiq 2F-85 夹持器的 Universal Robots UR5e 机械手,由两个 Xbox 操纵杆控制,用于收集演示,如图所示。经过标定的前置 RGB-D Realsense 摄像头以 30 Hz 的频率提供 640 × 480 分辨率的图像以供观察。为每个任务收集 30 个真实世界的人类演示用于训练,而评估则使用 Nvidia RTX 4080 GPU 进行。
将 AnyBimanual 与最先进的通用双手操作智体进行比较,包括基于体素的方法 PerAct^2 [31] 及其领导者-追随者版本 PerAct-LF,两者都是从众所周知的单手策略 PerAct [50] 修改而来的,以及基于多视图图像的方法 RVT [28]-LF。为了排除模型参数的影响,还实现一个计数器,它直接结合两个预训练 PerAct [50] 策略。请注意,所提出的方法与模型无关,它支持单臂策略之间的不同通信机制,因此迁移所有 3 个基线以验证 AnyBimanual 的多功能性。评估指标是任务成功率,它定义为智体在 25 步内成功完成指示目标的情节百分比。
按照常见的训练方法 [28、31、50],对训练集中的专家演示使用 SE(3) 观察增强,如图所示,以提高智体的稳健性。为了公平比较,所有比较的方法都在两个 NVIDIA RTX 3090 GPU 上进行 100k 次迭代训练,总批次大小为 4。用 LAMB 优化器 [67] 以恒定学习率为 5×10−4 来更新模型参数,这与以前的技术 [28、31、50] 一致。
如图所示真实机器人任务分类法。按照 [42],根据协作模式将 9 个真实世界任务分为 5 类:协作和不协作,不协作的分为同步和异步,协作的分成松耦合和紧耦合,进一步紧耦合分为对称和不对称。