首页 > 其他分享 >大模型驱动的自主智能体全面调研

大模型驱动的自主智能体全面调研

时间:2024-09-30 14:48:41浏览次数:12  
标签:LLMs 智能 记忆 模块 驱动 评估 调研

人工智能咨询培训老师叶梓 转载标明出处

基于LLMs构建的自主智能体,有望实现类似人类的决策能力。图 1 展示了LLMs驱动的自主智能体领域的增长趋势。从2021年1月到2023年8月,不同颜色代表不同类别的智能体。例如,游戏智能体旨在模拟游戏玩家,而工具智能体主要关注工具使用。

然而,目前对于如何构建和评估LLMs驱动的自主智能体的研究还比较分散,缺乏系统性的总结。为了弥补这一空白,来自中国中国人民大学高瓴人工智能学院的研究团队进行了一项全面的研究调查。系统地回顾了LLMs驱动的自主智能体的研究工作。

大模型驱动的自主智能体的构建

架构

图 2 提供了一个统一的框架,展示了LLMs驱动的自主智能体的架构设计。该框架由以下几个模块组成:

  1. 档案模块:确定智能体的角色。
  2. 记忆模块:存储环境信息,帮助智能体回忆过去的行为,规划未来的行动。
  3. 规划模块:使智能体能够根据过去的经验做出决策。
  4. 行动模块:将智能体的决策转化为具体的输出。

档案模块

档案模块通过将角色信息写入提示(prompt)来影响LLM的行为。智能体的角色通常包括基本信息(如年龄、性别和职业)、心理信息(反映智能体的性格)和社会信息(详细描述智能体之间的关系)。

记忆模块

记忆模块对于智能体架构设计至关重要。它存储从环境中感知到的信息,并利用这些记忆来促进未来的行动。记忆模块可以帮助智能体积累经验、自我演化,并以更一致、合理和有效的方式行动。

记忆结构通常受到认知科学研究的启发,包括短期记忆和长期记忆。短期记忆类似于受限于变换器架构上下文窗口的输入信息。长期记忆类似于智能体可以根据需要快速查询和检索的外部向量存储。

  • 统一记忆:只模拟人类的短期记忆,通常通过上下文学习实现,记忆信息直接写入提示。
  • 混合记忆:明确模拟人类的短期和长期记忆。短期记忆临时缓冲最近的感知,而长期记忆随时间巩固重要信息。

规划模块

规划模块的目标是让智能体具备将复杂任务分解为简单子任务的能力。研究者根据智能体在规划过程中是否能接收反馈,将策略分为无反馈规划和有反馈规划。

  • 无反馈规划:智能体在执行动作后不接收可以影响其未来行为的反馈。
  • 有反馈规划:智能体在执行动作后可以接收来自环境、人类和模型的反馈。

行动模块

行动模块负责将智能体的决策转化为具体结果。它位于最下游位置,直接与环境互动。行动模块受档案、记忆和规划模块的影响。

能力获取

智能体能力获取主要分为两类:需要微调LLMs的能力和不需要微调的能力。

需要微调的能力获取

  • 使用人工标注的数据集进行微调:通过人工标注的数据集来微调智能体,使其更好地适应特定任务。

  • 使用LLM生成的数据集进行微调:利用LLM生成的数据集来微调智能体,这种方法成本较低,可以生成更多的样本。

  • 使用真实世界数据集进行微调:直接使用真实世界的数据集来微调智能体,使其更好地适应现实世界的任务。

无需微调的能力获取

  • 提示工程:通过精心设计的提示来增强智能体的能力,或释放LLMs的现有能力。
  • 机制工程:开发专门的模块,引入新的工作规则等策略,以增强智能体的能力。

表 1 提供了现有研究与上述分类法的对应关系,展示了不同研究在智能体构建方面的工作。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

自主智能体在不同领域的应用

社会科学

心理学:LLMs驱动的智能体可以用于进行模拟实验,提供心理健康支持等。例如,通过给LLMs分配不同的角色,让它们完成心理学实验,研究发现LLMs能够产生与涉及人类参与者的研究一致的结果。

政治学和经济学:LLMs驱动的智能体可以用于研究政治学和经济学,包括用于意识形态检测和预测投票模式。

社会模拟:LLMs驱动的智能体被用于构建虚拟环境,模拟社会现象,如信息传播。

法学:LLMs驱动的智能体可以作为法律决策过程中的辅助工具,帮助做出更明智的判断。

研究助理:LLMs驱动的智能体也被用作社会科学研究的多面手助理,从生成文章摘要到提取关键词,再到撰写详细的研究脚本。

自然科学

文档和数据管理:LLMs驱动的智能体展现出在语言理解和使用互联网及数据库工具处理文本方面的强大能力。

实验助手:LLMs驱动的智能体能够独立进行实验,为科学家的研究项目提供支持。

自然科学教育:LLMs驱动的智能体能够与人类流利沟通,常被用于开发基于代理的教育工具。

工程学

土木工程:LLMs驱动的智能体可用于设计和优化复杂的结构,如建筑、桥梁、大坝、道路。

计算机科学与软件工程:LLMs驱动的智能体在自动化编码、测试、调试和文档生成方面提供潜力。

工业自动化:LLMs驱动的智能体可用于实现生产过程的智能规划和控制。

机器人学和体现人工智能:近期的工作开发了更高效的强化学习代理,用于机器人学和体现人工智能。

表 2 展示了LLMs驱动的自主智能体的代表性应用。从心理学到工程学,不同领域的工作展示了智能体的广泛应用。 

LLMs驱动的自主智能体评估

图 5 提供了LLMs驱动的自主智能体应用(左侧)和评估策略(右侧)的全局概览。这展示了智能体在不同领域的广泛应用,从社会科学到工程学。

两种主要的评估方法:主观评估和客观评估。

主观评估

主观评估基于人类判断来衡量智能体的能力,适用于没有评估数据集或很难设计定量指标的场景。

  • 人工标注:此评估方法涉及人类评估者直接对不同智能体生成的输出进行打分或排名。例如,在研究中,作者们聘请了许多标注员,要求他们对与智能体能力直接相关的五个关键问题提供反馈。

  • 图灵测试:此评估策略要求人类评估者区分由智能体和人类创建的输出。如果在给定任务中,评估者无法区分智能体和人类的输出,这表明智能体在该任务上实现了类似人类的性能。

客观评估

客观评估使用可计算、可比较和可跟踪的定量指标来评估LLMs驱动的自主智能体的能力。进行客观评估时,有三个重要方面:评估指标、协议和基准。

  • 指标:为了客观评估智能体的有效性,设计合适的指标非常重要。理想的评估指标应准确反映智能体的质量,并与人类在现实世界中使用它们时的感受保持一致。

  • 协议:除了评估指标外,另一个重要的客观评估方面是如何利用这些指标。常见的评估协议包括现实世界模拟、社交评估、多任务评估和软件测试。

  • 基准:给定指标和协议后,选择合适的基准进行评估是至关重要的。例如,许多研究人员使用ALFWorld、IGLU和Minecraft等模拟环境作为基准来评估智能体的能力。

表 3 总结了先前工作与这些评估策略之间的对应关系。表格中使用了不同的符号来代表主观评估和客观评估的不同方面。

尽管LLMs驱动的自主智能体已经取得了显著的进展,但该领域仍处于初级阶段,面临许多挑战,包括角色扮演能力、人类对齐、提示的鲁棒性、幻觉问题、知识边界和效率等。

论文链接:A survey on large language model based autonomous agents

标签:LLMs,智能,记忆,模块,驱动,评估,调研
From: https://blog.csdn.net/weixin_44292902/article/details/142589200

相关文章

  • 元数据驱动的设想
    本文永久更新地址:1.背景针对相似结构的表单,为了提高ui自动化编写效率,减少以减少重复工作,设想是否可以设计一个针对neoUI2.0通过元数据驱动的方式适应不同业务对象的测试框架2.设计元数据模型-字段名-字段类型-是否必填-是否只读-默认值-业务逻辑(可选,后期扩展)3......
  • Sigmastar SSD201芯片_智能高清显示解决方案
    一、方案描述:SSD201是高度集成的智能高清显示解决方案,主芯片为ARMCortexA7,dulecore,1.2GHz;SSD201内置DDR2,512Mb;支持H.264/H.265解码;支持2D图形引擎;支持MIPI和TTL接口显示屏,分辨率可高达1920x1080@60fps;支持SPI-Nor/NandFlash;支持两路Ethernetports;Built-inR......
  • WLAN无线网卡驱动安装教程
    火影官方驱动下载地址下载WLAN无线网卡驱动下载完成后点击全部解压缩解压完成后有一个安装说明,查看自己的网卡是什么品牌的,不知道就一个一个的全部都安装一遍安装过程不用管显示什么,结束了就进行下一个就行全部运行安装过一遍后重启查看是否有WiFi开关......
  • 驱动更新 IObit Driver Booster PRO v12.0.0.354 绿色版
    驱动更新IObitDriverBoosterPROv12.0.0.354绿色版下载地址:https://pan.quark.cn/s/85f9c35e7944介绍IObitDriverBooster,全球专业级驱动更新软件。检测硬件驱动更新、驱动备份管理、支持离线驱动更新,检测游戏组件、修复设备错误、无声问题、网络问题。提供游戏加速、......
  • 基于python+flask框架的软件测试智能管理系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着信息技术的迅猛发展,软件在各行各业中的应用日益广泛,其质量和稳定性直接关系到用户体验和企业的竞争力。然而,软件开发的复杂性不断提升......
  • 从互联网到人工智能:产品经理转型指南——传统产品经理赚到AI产品经理
    我是一名从事PC/移动互联网的产品经理,从今年年初开始有意向转型进入人工智能领域。毕竟这是一个非常前沿科技型的新要素,越早进入的人,越能享受新科技所带来的各种红利。将此新技术应用到相关业务场景后,也必定会带来新一轮的市场发展。但是,当我搜索了很多资料以后发现:并没有......
  • DDD 领域驱动设计-谈谈 Repository、IUnitOfWork 和 IDbContext 的实践(3)
    DDD领域驱动设计-谈谈Repository、IUnitOfWork和IDbContext的实践(3) 上一篇:《DDD领域驱动设计-谈谈Repository、IUnitOfWork和IDbContext的实践(2)》这篇文章主要是对 DDD.Sample 框架增加Transaction事务操作,以及增加了一些必要项目。虽然现在的IUnitOfWork实......
  • SpringBoot驱动的墙绘艺术在线展示平台
    1绪论1.1研究背景当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规范化管理。这样的大环境让那些止步不前,不接受信息改革带来的信息技术的企业随时面临被淘汰,被取代的风险。......
  • 开源 AI 智能名片 2+1 链动模式 S2B2C 商城小程序的数据运营策略与价值创造
    一、引言1.1研究背景在当今数字化时代,数据运营已成为企业发展的核心驱动力。开源AI智能名片2+1链动模式S2B2C商城小程序作为一种创新的营销工具,与数据运营紧密相连。该小程序通过集成人工智能、大数据分析等先进技术,能够实时收集、分析用户行为数据,为企业提供精准的用......
  • 2024最新高分源码基于SpringBoot+Vue+uniapp的智能无人仓库管理(源码+lw+部署文档+讲
    文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言......