首页 > 其他分享 >交互式智能代理基础模型:迈向通用人工智能的新途径

交互式智能代理基础模型:迈向通用人工智能的新途径

时间:2024-08-20 21:22:49浏览次数:7  
标签:动作 训练 人工智能 模型 新途径 代理 任务 交互式 研究者

 人工智能咨询培训老师叶梓 转载标明出处

传统的AI系统主要集中在收集有用的感官信息上,而新一代的通用AI系统不仅要能够理解环境,还要能够以有意义的方式与之交互。交互式智能代理基础模型代表了开发具有跨任务和数据模态单一神经模型训练能力的通用AI系统的重要一步,这种方法在数据、计算和模型参数方面具有高度的可扩展性。

能够感知并作用于不同领域和应用的代理AI系统

斯坦福、微软研究院和加州大学洛杉矶分校的研究团队提出了一种交互式智能代理基础模型(Interactive Agent Foundation Model),这是一种新颖的多任务代理训练范式,旨在通过统一的预训练策略,训练AI代理在不同领域、数据集和任务中表现出色。该模型结合了视觉遮蔽自编码器、语言建模和下一动作预测等多种预训练策略,构建了一个多功能且适应性强的AI框架,并在机器人技术、游戏AI和医疗保健三个不同的领域中展示了其性能。

代理范式

设想一个机器人,在被拆箱后,它能够立刻与非专业用户进行交流,并迅速适应家庭环境中的家务任务。这样的场景不仅体现了代理AI技术在用户体验和自主性方面的显著进步,也标志着机器人技术从实验室走向日常生活的重要一步。

支持交互式多模态通用代理系统的代理AI范式。图中展示了五个主要模块

为了支持这种交互式多模态通用代理系统,研究者们提出了五个主要模块:(1) 环境与感知中的代理,包括任务规划和观察;(2) 代理学习;(3) 记忆;(4) 动作;(5) 认知和意识(这里使用“意识”来表示代理对其状态和周围环境的一定程度的感知)。这种方法与以往的交互策略的一个关键区别在于,经过训练后,代理的动作将直接影响任务规划,因为代理不需要从环境中接收反馈就能规划其下一步动作。

具身代理范式被定义为“任何能够基于感官输入自主采取合适和无缝行动的智能代理,无论是在物理世界还是在代表物理世界的虚拟或混合现实环境中”。具身代理被构想为协作系统的一部分,它利用其视觉-语言能力与人类沟通,并根据人类的需求执行广泛的行动。因此,具身代理有望减轻虚拟现实和物理世界中的繁琐任务。

为了实现这一目标,研究者们认为具身代理系统至少需要三个关键组成部分:

  1. 多模态感知:与人类一样,多模态感知对代理理解环境(如游戏环境)以完成各种任务至关重要。特别是视觉感知,对能够解析视觉世界的代理(例如图像、视频、游戏玩法)非常有用。

  2. 导航和操纵规划:规划对于长期任务非常重要,如在机器人环境中导航和执行复杂任务。同时,规划应基于良好的感知和交互能力,以确保计划能够在环境中实现。

  3. 与人类和环境的交互:许多任务需要AI与人类或环境进行多轮交互。实现它们之间的流畅交互将提高AI完成任务的有效性和效率。

代理基础模型

研究者们设计的模型架构旨在有效处理文本、视觉和代理令牌作为输入。为了实现这一目标,他们采用了两个预训练的子模块来进行初始化。视觉编码器使用了CLIP ViT-B16,这是一个强大的视觉模型,能够将输入的图像转换为特征表示。而动作和语言模型则使用了OPT-125M,这是一个预训练的语言模型,能够处理文本数据。

交互式代理框架的概述。基础模型设计用于处理多模态信息,传达各种抽象级别的任务

模型的一个关键创新点是引入了一个额外的线性层,这个层负责将视觉编码器的嵌入转换到与语言模型的令牌嵌入空间相匹配的格式。这样,模型就可以接受文本提示和视频帧作为输入,并通过联合训练的变换层来预测文本或动作令牌。为了将先前的时间步骤纳入考虑,模型在预训练过程中还将之前的动作和视觉帧作为输入。

在预训练策略方面,研究者们采取了一种多任务学习方法,让模型在广泛的机器人和游戏任务上进行训练。每个输入样本包含了文本指令、视频和动作令牌,形成了一个序列。模型需要学习如何根据文本指令和视频内容来预测动作令牌。

预训练损失函数由三部分组成:语言建模损失、遮蔽图像自编码损失和动作建模损失。语言建模损失使用了标准的因果语言建模损失,用于最小化指令中每个令牌的条件概率的负对数似然。遮蔽图像自编码损失通过随机遮蔽图像块并重建这些块来计算,以像素空间中的均方误差作为衡量标准。动作建模损失则最小化了每个动作令牌的条件概率的负对数似然,考虑到了所有先前的信息,包括文本令牌、视觉令牌和先前的动作令牌。

统一标记框架
通用预训练策略,用于预测输入标记

通过这种预训练方法,模型能够学习如何在理解文本指令和视觉信息的基础上,预测和生成合适的动作。这种联合训练的方法有助于模型在多模态环境中进行有效的交互和决策。

任务

研究者首先聚焦于机器人技术任务。他们讨论了模型在这一领域的应用情况。研究者选择了Language-Table和CALVIN两个数据集来评估模型如何处理语言引导的操纵任务。Language-Table数据集涉及机器人根据语言指令重新排列桌面上的对象,而CALVIN数据集则展示了机器人根据抽象指令执行复杂操纵任务的能力。这些任务不仅考验了模型对语言指令的理解能力,也检验了其将指令转化为精确动作的能力。

机器人和游戏预训练管道

接着是游戏任务,特别是Minecraft和Bleeding Edge两款游戏。研究者利用了由承包商收集的游戏演示数据,并采用了GPT-4V技术来为视频标注更具体的指令。这种方法不仅提高了模型对游戏中物体和动作分类的准确性,也使得模型能够更好地理解和预测玩家的行为。

研究者最后探讨了模型在医疗保健领域的应用。他们使用了医院ICU病房中记录的真实场景作为数据集,这些场景包括了护士对患者进行的各种护理活动。研究者利用这些数据来训练和评估模型在视频字幕生成、视觉问答和RASS评分预测等任务上的表现。这些任务要求模型不仅要理解医疗场景的视觉信息,还要能够处理和生成与医疗保健相关的自然语言。

医疗保健任务的高层次概述
利用护士标记的注释来训练多模态代理

实验

在预训练实验部分,研究者们进行了一项综合性的训练,涉及了多种数据集,包括机器人、游戏和视频数据。他们使用了大规模的视频帧,总计约1340万帧,来训练一个277M参数的模型。这个训练过程使用了特定的学习率调度策略,并在多个GPU上进行了长时间训练。实验结果显示,模型在预训练过程中损失逐渐下降,这表明模型能够有效地从多种模态数据中学习。

100个预训练周期的总预训练损失曲线

在机器人技术实验中,研究者们专注于评估模型在物理世界中执行任务的能力。他们使用了特定的机器人操作数据集,如Language-Table和CALVIN,这些数据集包含了根据语言指令进行物体操控的任务。预训练模型在这些数据集上进行了微调,实验结果表明,微调后的模型在动作预测方面表现出了较高的成功率,这证明了模型能够理解语言指令并将其转化为机器人的物理动作。

在CALVIN和Language-Table上进行机器人微调的结果,以及相应的评估指标

游戏实验部分评估了模型在虚拟环境中的表现,尤其是在Minecraft和Bleeding Edge这两款游戏中。研究者们利用了游戏视频和玩家动作数据来训练模型,并测试了模型预测玩家动作的能力。实验结果显示,预训练和微调后的模型在动作预测方面取得了显著的性能提升,尤其是在Minecraft中预测玩家使用工具和与环境互动的动作。

在Minecraft和Bleeding Edge上的动作预测BLEU-4分数

在医疗保健实验中,研究者们探索了模型在处理医院ICU环境中视频数据的能力。他们使用了护士标注的视频数据来训练模型进行视频字幕生成、视觉问答和RASS评分预测。模型在这些任务上的表现显示了其在理解医疗场景和辅助临床决策方面的潜力。特别是在RASS评分预测任务中,模型能够根据视频内容预测患者的镇静或激动状态,这为自动化医疗文档记录提供了新的可能性。

消融分析中研究者首先展示了模型在预训练过程中损失函数的变化情况。通过绘制损失曲线,他们分析了模型在不同训练周期下的表现,以及损失函数各个组成部分对整体性能的贡献。这些曲线不仅反映了模型学习效率的动态变化,还揭示了训练过程中可能存在的问题,如过拟合或欠拟合。

通过图10比较了本模型与GPT-4V的能力。实验结果显示,本模型能够输出低级别的动作预测,例如在Minecraft和Bleeding Edge中的精准操作,而GPT-4V则无法始终如一地输出这样细致的控制指令,它更多地提供高层次的指令。

当使用GPT-4V选择给定帧历史的动作时,发现它给出合理的高级动作,但不会选择精确的低级动作,突出了预训练模型的重要性

研究者们在表3中提供了一些微调模型预测动作的例子,这些例子展示了模型如何根据文本指令和起始帧来预测动作,并通过与实际动作的对比来评估模型的准确性。

微调模型为Minecraft和Bleeding Edge预测的动作示例

在表4中,研究者们评估了模型在医疗保健文本生成和RASS评分动作识别方面的性能,并提供了相应的评估指标。结果表明,通过在机器人技术和游戏数据上进行代理预训练,可以提高动作识别的性能,但对文本生成能力的提升并不显著。

在医疗保健文本生成和RASS评分动作识别方面的性能,以及相应的评估指标

表2和表4中显示代理预训练策略的效果,与从头开始训练和对等的视觉-语言基线的比较表明,使用冻结视觉编码器进行微调的常用方法(类似于LLaVA或Mini-GPT-4)在医疗保健数据集上的动作识别性能不如联合微调。

实验表明,通过在机器人技术和游戏数据上进行预训练,即使在未见过的医疗保健等领域进行微调,模型也能有效地建模各种领域中的动作。

论文链接:https://arxiv.org/abs/2402.05929

标签:动作,训练,人工智能,模型,新途径,代理,任务,交互式,研究者
From: https://blog.csdn.net/yetzi1975/article/details/141359634

相关文章

  • 人工智能:引领商业创新的未来
    在人工智能的浪潮中,企业如何驾驭这股力量,实现商业的飞跃?本文将带您深入了解人工智能在商业领域的应用,并探讨其对未来工作方式的影响。应用领域:认知自动化、参与与洞察人工智能的应用主要分为三个领域:认知自动化、认知参与和认知洞察。在认知自动化方面,机器学习、机器人流程自......
  • 零基础小白看过来!人工智能到底是学习什么?算法是什么?难不难学?
    #人工智能到底是学什么?#以豆包、ChatGPt、文心一言、通义千问为代表的大模型;以百度、华为、特斯拉、蔚小理为代表的自动驾驶;以讯飞、百度为代表的语音识别技术,以及手机上的人脸识别等等,都依托于人工智能技术。可见人工智能是个广义的学科,涉及基础层、技术层、应用层的技术,......
  • 【人工智能时代】- 如何部署AI大模型?
    部署AI大模型可以采取多种方式,根据搜索结果,以下是一些推荐的部署方案和步骤:Ollama部署方案Ollama是一个开源项目,旨在简化大型语言模型(LLM)的本地部署过程。它提供了类似于OpenAI的API接口,方便集成大型语言模型到应用程序中。硬件要求:运行Ollama模型需要一定的硬件资源,例如7B......
  • 1. Streamlit制作交互式可视化网页应用
    1.title和write创建简单文本应用 2.添加交互组件__text_input__selectbox__file_uploader 3.绘制图标_折线图line_chart和柱状图pyplot 4.1.创建交互式页面_主页页面 4.2.创建交互式页面_关于页面 ......
  • 计算机毕业设计Python深度学习游戏推荐系统 Django PySpark游戏可视化 游戏数据分析
    基于Spark的TapTap游戏数据分析系统技术栈:  -python  -django  -scrapy  -vue3  -spark  -element-plus  -echarts   功能板块:0.爬虫模块:  通过scrapy抓取taptap游戏网站数据,从分类页开始抓取全站游戏的数据1.首页......
  • 四十、【人工智能】【机器学习】- 梯度下降(Gradient Descent Algorithms)算法模型
     系列文章目录第一章【机器学习】初识机器学习第二章【机器学习】【监督学习】-逻辑回归算法(LogisticRegression)第三章【机器学习】【监督学习】-支持向量机(SVM)第四章【机器学习】【监督学习】-K-近邻算法(K-NN)第五章【机器学习】【监督学习】-决策树(......
  • Java-人工智能初学者实用手册-全-
    Java人工智能初学者实用手册(全)零、前言在一切都由技术和数据驱动的现代世界中,人工智能变得越来越重要,它是使任何系统或流程自动化的过程,以自动执行复杂的任务和功能,从而实现最佳生产率。面向初学者的Java人工智能实践解释了使用流行的基于Java的库和框架来构建智能应用程......
  • 聊聊2024 年人们对人工智能的信任程度有多高?
    引言随着人工智能渗透到人们生活的各个方面,了解人们对技术的信任变得越来越重要。尽管人工智能有可能彻底改变行业并改善日常生活,但它却伴随着着迷与怀疑。了解公众对人工智能的普遍感受以及这些看法可能如何随着使用而改变,可以让其他人了解人工智能信任的现状及其未来影响......
  • [Day 57] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
    區塊鏈的零知識證明技術一、引言隨著區塊鏈技術的不斷發展,如何在保護用戶隱私的同時確保數據的完整性和可信度成為了研究的焦點。零知識證明(Zero-KnowledgeProof,ZKP)技術就是其中的一項關鍵技術,它允許一方在不洩露任何額外信息的情況下,向另一方證明其擁有某種知識或信息。本......
  • TransformControls 用于在网页中进行 3D 场景中物体的交互式操作
    demo案例:https://techbrood.com/threejs/examples/#misc_controls_transformTransformControls是Three.js中的一个类,用于在网页中进行3D场景中物体的交互式操作。让我们来详细讲解它的输入参数、输出、属性和方法:输入参数:TransformControls构造函数通常接受两个参数:camer......