多模态AI系统很可能会在我们的日常生活中无处不在。将这些系统具身化为物理和虚拟环境中的代理是一种有前途的方式,以使其更加互动化。目前,这些系统利用现有的基础模型作为构建具身代理的基本构件。将代理嵌入这样的环境中,有助于模型处理和解释视觉和上下文数据的能力,这是创建更复杂且具备上下文感知的AI系统的关键。例如,一个能够感知用户动作、人类行为、环境对象、音频表达以及场景整体情绪的系统,可以用于指导代理在特定环境中的响应行为。
图1:Agent AI系统的概述,该系统可以在不同领域和应用中进行感知和行动。Agent AI正逐渐成为迈向通用人工智能(AGI)的一条有前景的途径。Agent AI的训练展示了其在物理世界中实现多模态理解的能力。通过利用生成式AI和多个独立的数据源,该系统提供了一个与现实无关的训练框架。在跨现实数据的训练下,大型基础模型可以应用于物理和虚拟世界中的代理及动作相关任务。我们展示了一个能够在不同领域和应用中感知和行动的Agent AI系统的总体概览,并展望其作为一种基于代理范式的AGI发展路径。
为了加速基于代理的多模态智能研究,我们将“Agent AI”定义为一类能够感知视觉刺激、语言输入和其他与环境相关的数据,并能够生成有意义的具身动作的交互系统。特别是,我们探讨了通过整合外部知识、多感官输入和人类反馈,提升代理基于下一步具身动作预测的系统。我们认为,通过在有依据的环境中开发具身AI系统,可以减轻大型基础模型产生的“幻觉”以及生成不符合环境的输出的倾向。新兴的Agent AI领域涵盖了多模态交互中更广泛的具身和代理层面。除了物理世界中的代理行动和交互之外,我们还设想一个未来,人们可以轻松创建任何虚拟现实或模拟场景,并与其中具身的代理互动。
这份《AI Agent:多模态交互前沿调查》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
PDF书籍: 完整版本链接获取
标签:模态,李飞飞,视频,AI,模型,代理,Agent,任务 From: https://blog.csdn.net/Z4400840/article/details/145259594