什么是大模型 Agent ?
大模型 Agent,作为一种人工智能体,是具备环境感知能力、自主理解、决策制定及执行行动能力的智能实体。简而言之,它是构建于大模型之上的计算机程序,能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标的智能存在。
Agent 是 AI 大模型应用的主要新形态,在技术架构范式也发生了很大的变化,从面向过程的架构变成了面向目标架构。
—*2*—
Agent 架构设计剖析
大模型虽作为智能体的核心“大脑”,负责思维与决策,但仅凭此并不足以胜任复杂任务的执行。为了全面实现智能体的功能,还需融入类似“神经感官系统”以感知环境,以及“肢体”以执行实际动作的元素。这正是构建 Agent 技术架构的初衷,旨在通过这一框架,将感知、思考与行动三者紧密结合,共同作用于复杂任务的完成。
如上图所示,Agent 共由4个关键部分组成:规划(Planning)、记忆(Memory)、工具(Tools)、行动(Action),下面详细剖析。
1、规划(Planning)
"规划"是智能体的思维模型。类比人类,面对任务,我们先构思解决方案,拆解为子任务,评估工具,执行中反思调整,并考量终止时机。通过大模型提示工程,比如:ReAct、CoT 推理模式,可赋予智能体类似思维模式,精准拆解复杂任务,分步解决。
2、记忆(Memory)
记忆,即信息存储与回忆。智能体模拟人类,设短期记忆存会话上下文,助多轮对话,任务毕则清;长期记忆存用户特征、业务数据,向量数据库速存速查。
3、工具(Tools)
智能体依据“工具”感知环境、执行决策。工具比如:神经感官,助其获取信息、执行任务。配备多样工具并赋权,比如:API 调用业务信息,插件扩展大模型能力,比如:ChatPDF 解析文档、Midjourey 文生图。
4、行动(Action)
智能体依规划与记忆,执行具体行动,包括与外部互动或工具调用,实现输入至输出的转化。比如:智能客服回复、查询天气预报、AI 机器人抓起物体等等。
—*3*—
大模型 Agent 案例
案例一:Agent 预定餐厅
为了更好地理解 大模型 Agent,我们一起来看个生活中的实际场景:假设你需要与朋友在附近吃饭,需要 Agent 帮你预订餐厅。
Agent 会先对您提出的任务进行规划如下:
第一步:获取当前位置
- 推理 1:当前知识不足以回答这个问题,需要知道当前所在位置以及附近的餐厅;
- 行动 1:使用地图工具(Tools)获取当前所在位置;
- 结果 1:得出附近餐厅列表。
第二步:确定匹配餐厅
- 推理 2:确定预订的餐厅,需要知道饮食偏好以及其他细节(比如:吃饭时间、人数);
- 行动 2:从记忆(Memory)中获取您的饮食偏好、人数、时间等信息;
- 结果 2:确定最匹配的餐厅。
第三步:预订餐厅
- 推理 3:基于结果2,评估当前所拥有的工具能否完成餐厅预订;
- 行动 3:使用相关插件工具,进行餐厅预订(Aciton);
- 结果 3:任务完成。
案例二:完成工作报表 Agent
构建【工作报告智能体】整体步骤如下:
第一步:规划(Planning):设计 Prompt 引导大模型拆解“生成工作报告”任务,细化为四步:数据收集、报告整理、汇报人选定、自动提交。
第二步:工具(Tools):针对大模型知识局限,采用 RAG 技术接入私有数据中心 API,获取客户数据;同时接入工作报告应用 API,赋予数据填充与提交权限。
第三步:记忆(Memory):分析员工历史报告,提炼风格、格式、周期、汇报人等特征,形成长记忆库,辅助新报告撰写。
第四步:行动(Action):依托工作报告应用权限,大模型完成报告后自动执行提交,实现全程自动化。
那么,如何系统的去学习大模型LLM?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~