交互式智能代理基础模型：迈向通用人工智能的新途径

人工智能咨询培训老师叶梓转载标明出处

传统的AI系统主要集中在收集有用的感官信息上，而新一代的通用AI系统不仅要能够理解环境，还要能够以有意义的方式与之交互。交互式智能代理基础模型代表了开发具有跨任务和数据模态单一神经模型训练能力的通用AI系统的重要一步，这种方法在数据、计算和模型参数方面具有高度的可扩展性。

斯坦福、微软研究院和加州大学洛杉矶分校的研究团队提出了一种交互式智能代理基础模型（Interactive Agent Foundation Model），这是一种新颖的多任务代理训练范式，旨在通过统一的预训练策略，训练AI代理在不同领域、数据集和任务中表现出色。该模型结合了视觉遮蔽自编码器、语言建模和下一动作预测等多种预训练策略，构建了一个多功能且适应性强的AI框架，并在机器人技术、游戏AI和医疗保健三个不同的领域中展示了其性能。

代理范式

设想一个机器人，在被拆箱后，它能够立刻与非专业用户进行交流，并迅速适应家庭环境中的家务任务。这样的场景不仅体现了代理AI技术在用户体验和自主性方面的显著进步，也标志着机器人技术从实验室走向日常生活的重要一步。

为了支持这种交互式多模态通用代理系统，研究者们提出了五个主要模块：(1) 环境与感知中的代理，包括任务规划和观察；(2) 代理学习；(3) 记忆；(4) 动作；(5) 认知和意识（这里使用“意识”来表示代理对其状态和周围环境的一定程度的感知）。这种方法与以往的交互策略的一个关键区别在于，经过训练后，代理的动作将直接影响任务规划，因为代理不需要从环境中接收反馈就能规划其下一步动作。

具身代理范式被定义为“任何能够基于感官输入自主采取合适和无缝行动的智能代理，无论是在物理世界还是在代表物理世界的虚拟或混合现实环境中”。具身代理被构想为协作系统的一部分，它利用其视觉-语言能力与人类沟通，并根据人类的需求执行广泛的行动。因此，具身代理有望减轻虚拟现实和物理世界中的繁琐任务。

为了实现这一目标，研究者们认为具身代理系统至少需要三个关键组成部分：

多模态感知：与人类一样，多模态感知对代理理解环境（如游戏环境）以完成各种任务至关重要。特别是视觉感知，对能够解析视觉世界的代理（例如图像、视频、游戏玩法）非常有用。
导航和操纵规划：规划对于长期任务非常重要，如在机器人环境中导航和执行复杂任务。同时，规划应基于良好的感知和交互能力，以确保计划能够在环境中实现。
与人类和环境的交互：许多任务需要AI与人类或环境进行多轮交互。实现它们之间的流畅交互将提高AI完成任务的有效性和效率。

代理基础模型

研究者们设计的模型架构旨在有效处理文本、视觉和代理令牌作为输入。为了实现这一目标，他们采用了两个预训练的子模块来进行初始化。视觉编码器使用了CLIP ViT-B16，这是一个强大的视觉模型，能够将输入的图像转换为特征表示。而动作和语言模型则使用了OPT-125M，这是一个预训练的语言模型，能够处理文本数据。

模型的一个关键创新点是引入了一个额外的线性层，这个层负责将视觉编码器的嵌入转换到与语言模型的令牌嵌入空间相匹配的格式。这样，模型就可以接受文本提示和视频帧作为输入，并通过联合训练的变换层来预测文本或动作令牌。为了将先前的时间步骤纳入考虑，模型在预训练过程中还将之前的动作和视觉帧作为输入。

在预训练策略方面，研究者们采取了一种多任务学习方法，让模型在广泛的机器人和游戏任务上进行训练。每个输入样本包含了文本指令、视频和动作令牌，形成了一个序列。模型需要学习如何根据文本指令和视频内容来预测动作令牌。

预训练损失函数由三部分组成：语言建模损失、遮蔽图像自编码损失和动作建模损失。语言建模损失使用了标准的因果语言建模损失，用于最小化指令中每个令牌的条件概率的负对数似然。遮蔽图像自编码损失通过随机遮蔽图像块并重建这些块来计算，以像素空间中的均方误差作为衡量标准。动作建模损失则最小化了每个动作令牌的条件概率的负对数似然，考虑到了所有先前的信息，包括文本令牌、视觉令牌和先前的动作令牌。

通过这种预训练方法，模型能够学习如何在理解文本指令和视觉信息的基础上，预测和生成合适的动作。这种联合训练的方法有助于模型在多模态环境中进行有效的交互和决策。

任务

研究者首先聚焦于机器人技术任务。他们讨论了模型在这一领域的应用情况。研究者选择了Language-Table和CALVIN两个数据集来评估模型如何处理语言引导的操纵任务。Language-Table数据集涉及机器人根据语言指令重新排列桌面上的对象，而CALVIN数据集则展示了机器人根据抽象指令执行复杂操纵任务的能力。这些任务不仅考验了模型对语言指令的理解能力，也检验了其将指令转化为精确动作的能力。

接着是游戏任务，特别是Minecraft和Bleeding Edge两款游戏。研究者利用了由承包商收集的游戏演示数据，并采用了GPT-4V技术来为视频标注更具体的指令。这种方法不仅提高了模型对游戏中物体和动作分类的准确性，也使得模型能够更好地理解和预测玩家的行为。

研究者最后探讨了模型在医疗保健领域的应用。他们使用了医院ICU病房中记录的真实场景作为数据集，这些场景包括了护士对患者进行的各种护理活动。研究者利用这些数据来训练和评估模型在视频字幕生成、视觉问答和RASS评分预测等任务上的表现。这些任务要求模型不仅要理解医疗场景的视觉信息，还要能够处理和生成与医疗保健相关的自然语言。

实验

在预训练实验部分，研究者们进行了一项综合性的训练，涉及了多种数据集，包括机器人、游戏和视频数据。他们使用了大规模的视频帧，总计约1340万帧，来训练一个277M参数的模型。这个训练过程使用了特定的学习率调度策略，并在多个GPU上进行了长时间训练。实验结果显示，模型在预训练过程中损失逐渐下降，这表明模型能够有效地从多种模态数据中学习。

在机器人技术实验中，研究者们专注于评估模型在物理世界中执行任务的能力。他们使用了特定的机器人操作数据集，如Language-Table和CALVIN，这些数据集包含了根据语言指令进行物体操控的任务。预训练模型在这些数据集上进行了微调，实验结果表明，微调后的模型在动作预测方面表现出了较高的成功率，这证明了模型能够理解语言指令并将其转化为机器人的物理动作。

在CALVIN和Language-Table上进行机器人微调的结果，以及相应的评估指标

游戏实验部分评估了模型在虚拟环境中的表现，尤其是在Minecraft和Bleeding Edge这两款游戏中。研究者们利用了游戏视频和玩家动作数据来训练模型，并测试了模型预测玩家动作的能力。实验结果显示，预训练和微调后的模型在动作预测方面取得了显著的性能提升，尤其是在Minecraft中预测玩家使用工具和与环境互动的动作。

在医疗保健实验中，研究者们探索了模型在处理医院ICU环境中视频数据的能力。他们使用了护士标注的视频数据来训练模型进行视频字幕生成、视觉问答和RASS评分预测。模型在这些任务上的表现显示了其在理解医疗场景和辅助临床决策方面的潜力。特别是在RASS评分预测任务中，模型能够根据视频内容预测患者的镇静或激动状态，这为自动化医疗文档记录提供了新的可能性。

消融分析中研究者首先展示了模型在预训练过程中损失函数的变化情况。通过绘制损失曲线，他们分析了模型在不同训练周期下的表现，以及损失函数各个组成部分对整体性能的贡献。这些曲线不仅反映了模型学习效率的动态变化，还揭示了训练过程中可能存在的问题，如过拟合或欠拟合。

通过图10比较了本模型与GPT-4V的能力。实验结果显示，本模型能够输出低级别的动作预测，例如在Minecraft和Bleeding Edge中的精准操作，而GPT-4V则无法始终如一地输出这样细致的控制指令，它更多地提供高层次的指令。

当使用GPT-4V选择给定帧历史的动作时，发现它给出合理的高级动作，但不会选择精确的低级动作，突出了预训练模型的重要性

研究者们在表3中提供了一些微调模型预测动作的例子，这些例子展示了模型如何根据文本指令和起始帧来预测动作，并通过与实际动作的对比来评估模型的准确性。

在表4中，研究者们评估了模型在医疗保健文本生成和RASS评分动作识别方面的性能，并提供了相应的评估指标。结果表明，通过在机器人技术和游戏数据上进行代理预训练，可以提高动作识别的性能，但对文本生成能力的提升并不显著。

表2和表4中显示代理预训练策略的效果，与从头开始训练和对等的视觉-语言基线的比较表明，使用冻结视觉编码器进行微调的常用方法（类似于LLaVA或Mini-GPT-4）在医疗保健数据集上的动作识别性能不如联合微调。

实验表明，通过在机器人技术和游戏数据上进行预训练，即使在未见过的医疗保健等领域进行微调，模型也能有效地建模各种领域中的动作。

论文链接：https://arxiv.org/abs/2402.05929

标签：动作,训练,人工智能,模型,新途径,代理,任务,交互式,研究者
From： https://blog.csdn.net/yetzi1975/article/details/141359634

交互式智能代理基础模型：迈向通用人工智能的新途径

代理范式

代理基础模型

任务

实验

相关文章

赞助商

阅读排行