目录:
- 1、全球AI Agent 产品盘点
- 2、概览:基于LLM的自主智能代理,朝AGI更进一步
- 3、技术篇:以LLM为基座,拓展感知和行动等功能模块
- 4、Agent智能体的工作过程
- 5、市面上Agent主要呈现
1、 全球AI Agent 产品盘点:详细点击
开源产品:
- Awesome AI Agents:开源ai-agents列表
- XAgent:清华-超强大模型智能体应用框架,可自行拆解复杂任务,并高效执行。
- ChatDev:清华-多智能体协作开发框架,让多个不同角色的智能体进行协作,自动化开发软件应用。
- AgentVerse:提供了一个多功能的框架,简化了为大型语言模型(LLMs)创建自定义多智能体环境的过程。
- FastGPT:知识库问答系统,可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
- AgentGPT:基于浏览器的 AutoGPT 实现,可通过无代码平台访问
- Jarvis (HuggingGPT):Microsoft 开发的协作系统,使用多个AI模型协同工作
- MetaGPT:多智能体框架,使用单行输入生成各种内容;为GPT分配不同的角色,形成一个协作实体来完成复杂的任务
- MiniGPT-4:视觉语言理解的 AI
- Open Interpreter:让大语言模型在您的计算机上运行代码来完成任务
- SuperAGI:支持开发和部署自主代理
商业智能
- 实在Agent智能体:领先的 RPA 全新模式产品,企业员工使用零代码门槛的个人智能助理
- 澜码Ask XBot:Agent 协助完成数据分析、资料调取等工作
- ability.ai:为企业提供安全、以人为本的自主人工智能代理
2、 概览:基于LLM的自主智能代理,朝AGI更进一步
1.1、AI Agent全文框架图
1.2 何为AI Agent?
AI Agent 是一种能够感知环境、自主决策并执行动作的智能实体。由于Agent涵盖范围广泛且AI Agent的发展仍处于早期,目前学界对于AI Agent的定义尚未达成共识。
- 2000年,赵龙文和侯义斌在《Agent的概念模型及其应用技术》中提出,AI Agent是一个运动于动态环境的、具有较高自制能力的实体,该定义后续被国内多篇文献所接受。
- 2023年,复旦大学NLP团队在《The Rise and Potential of Large Language Model Based Agents: A Survey》中提出,AI Agent能够用传感器感知环境、做决策、用执行器来执行动作。
基于上述定义,我们认为AI Agent应当同时具备环境感知性、决策自主性和动作自为性。
1.3 AI Agent相较ChatGPT有何进步?
AI Agent和ChatGPT均基于LLM大模型,具备理解和推理能力,而AI Agent的进步之处在于:
- 1)从具体功能维度,具备自主决策和行动能力;
- 2)从呈现效果维度,能够自主完成大部分工作,人类仅需设立目标并监督;
- 3)从技术创新维度,是大模型在工程学上的进一步迭代。
1.3.1 从具体功能维度来看,AI Agent具备独立思考和自主决策的能力,输出结果不依赖于prompt的清晰程度
- ChatGPT的回答效果取决于用户prompt的清晰准确程度,对于相对复杂的任务,ChatGPT需要用户给出分步任务指令,才能输出令人满意的回复;
- 而AI Agent具备感知环境、独立思考并做出行动的能力,只要用户设定初始目标,AI Agent即可自行拆解任务、调用工具并输出优质回复,从而提升了易用性和便捷度,降低了用户使用门槛。
以股票研究领域为例,只要用户给出“请帮我生成某公司3Q23业绩点评报告”的初始任务目标:
- AI Agent即可自行拆分任务、设计报告框架,调用工具完成从数据搜集到数据分析、再到图表制作等一系列子任务,并最终输出一份令人满意的点评报告。
- 如下图:ChatGPT与AutoGPT处理任务的流程对比
-
如下图:AI Agent处理业绩点评报告任务示例
1.3.2 从呈现效果维度来看,AI Agent具备行动能力,能够帮助用户完成具体任务,人类只需进行目标设定和过程监督。
- ChatGPT具有较强的文本理解和推理能力,能够对用户提出的问题做出详细解答;
- 而具备行为能力的AI Agent不仅能够像ChatGPT一样指出“如何做”,还能够代替用户“帮你做”。
- 真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段,如下图:
- 初代ChatGPT相当于自动驾驶的L2级别,Copilot相当于L3级别,而AI Agent则相当于L4级别,可以在人类的监督辅助下充当“驾驶员”自主完成大部分工作。
-
腾讯研究院则将人类与AI的合作由初级到高级分为Embedding、Copilot和Agents三种模式。如下图:
-
与Copilot模式下人类主导工作、AI协助完成部分任务初稿相比,在Agents模式下,AI具备更强的任务拆分、工具选择和进度控制能力,人类只需设立目标、提供资源并监督结果,工作的具体展开可全权交由AI代理。
1.3.3 从技术创新维度来看,AI Agent是大模型在工程学上的进一步迭代。
- 大模型是基于工程方法的“大力出奇迹”,以数据、算法和算力等要素资源精巧组合的方式,实现了大模型从量变到质变的过程。
- 而AI Agent在LLM的基础上增加了规划、记忆和执行等功能模块,是工程方法上的延续性创新。
- 我们认为,AI Agent在工程学上的进步有望进一步推动AI学术研究和应用范式探索。
1.4 发展历程:从符号逻辑到泛化学习,逐渐接近AGI
AI Agent的发展历程如下图:
自1965年首个专家系统DENDRA被提出以来,AI Agent在技术迭代方向上大致经历了从符号型Agent到反应型Agent,再到基于强化学习的Agent、基于迁移学习和元学习的Agent,最终到基于LLM的Agent的五个发展阶段。
我们观察到,AI Agent的发展主要依赖于主流AI算法框架的演进,具有从专用到通用,从基于符号逻辑到强调环境感知、再到重视泛化学习的迭代特征。
目前AI Agent的发展正处于基于LLM的Agent的阶段,各类Agent应用快速涌现。我们认为,基于LLM的Agent具体应用的落地有望迎来新一轮高潮。
就AI Agent的未来发展前景而言:
- Yonatan Bisk等在《Experience Grounds Language》中提出,从NLP走向AGI需要经历语料库、互联网、感知、具身及社会属性这五个阶段。
- 复旦大学NLP进一步指出,目前LLM正处于第二阶段,具有互联网规模的文本输入和输出,而在LLM基础上被赋予感知能力和行动能力的AI Agent则处于第三、第四阶段,
- 未来AI Agent或将基于LLM继续迭代具备社会属性,并有望组成Agent Society,带来有组织、有成效的合作,从而走向第五阶段,逐步接近AGI。
2、技术篇:以LLM为基座,拓展感知和行动等功能模块
由于学术界对AI Agent的理论研究仍处早期阶段,且过去更多专注于完成特定任务的专有领域Agent,所以现有文献对于Agent的整体技术框架讨论度相对较低。基于目前热度较高的两篇文章:
- 复旦大学NLP团队的论文《The Rise and Potential of Large Language Model Based Agents: A Survey》
- OpenAI安全团队负责人Lilian Weng的博客《LLM Powered Autonomous Agents》
我们对AI Agent当前主流系统框架及观点进行梳理。我们认为,目前AI Agent开发处于相对初级且快速进展的阶段,产品架构主要是在LLM大模型基础上叠加记忆、规划、行动等功能模块或组件,实则高度依赖大模型本身的能力,随着未来大模型和Agent相关研究逐步深入,AI Agent系统框架和组件形态或将发生较大的改变。
2.1 系统框架:AI Agent = LLM大模型 + Planning规划 + Memory记忆 + Tool Use工具使用
LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。
OpenAI 应用人工智能研究负责人Lilian Weng 在其 Blog:LLM Powered Autonomous Agents 中将LLM Agent定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use) 的集合
其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。
1.1 规划(Planning)
- 子目标和分解:LLM Agent 能够将大型任务分解为较小的、可管理的子目标,以便有效的处理复杂任务;
- 反思和细化:LLM Agent 可以对过去的行为进行自我批评和反省,从错误中吸取经验教训,并为接下来的行动进行分析、总结和提炼,这种反思和细化可以帮助 Agents 提高自身的智能和适应性,从而提高最终结果的质量。
1.2 记忆 (Memory)
- 短期记忆:所有上下文学习都是依赖模型的短期记忆能力进行的;
- 长期记忆:这种设计使得 AI Agents 能够长期保存和调用无限信息的能力,一般通过外部载体存储和快速检索来实现。
1.3 工具使用(Tool use)
- LLM Agent 可以学习如何调用外部 API,以获取模型权重中缺少的额外信息,这些信息通常在预训练后很难更改,包括当前信息、代码执行能力、对专有信息源的访问等。
总结如下:
LLM Agent 常见功能
LLM Agent能够基于大语言模型进行对话、完成任务、推理,并可以展示一定程度的自主行为。下面是LLM Agent 常见的功能:
- 利用LLM本身的语言能力理解指令、上下文和目标
- 利用Tools(工具套件,如计算器、API、搜索引擎等)来收集信息并采取行动完成分配的任务。
- 展示思维链推理、思维树和其他Prompt Engineering概念,建立逻辑关系以得出结论和解决问题。
- 通过将上下文和目标纳入他们的语言生产技能来为特定目的(电子邮件、报告、营销材料)生成量身定制的文本。
- 根据需要,与用户进行不同级别的交互。
- 将不同的 AI 系统(例如带有图像生成器的大型语言模型)耦合在一起,以实现多方面的功能。
3、Agent智能体的工作过程
Agent智能体的工作过程示例
2.1 Prompt提示词【圈定角色范围、阐述任务背景、习惯特色】
- 提示词是Agent接收到的初始输入,它描述了Agent需要完成的任务或解决的问题。
- 提示词可以是文本、图像、语音等多种形式。
- Agent需要对提示词进行解析和理解,以便为后续的任务规划和行动执行提供指导。
- 总结:提示词写得好不好直接影响处理结果
2.2 LLM大模型【理解、提取、识别、选择】
- LLM大模型(Large Language Model)是Agent进行任务规划和知识推理的重要工具。它通过对大量文本数据的学习,具备了强大的语言处理能力和知识推理能力。
- Agent可以利用LLM大模型对提示词进行深入分析,生成可能的解决方案,并进行选择和优化。
2.3 Memory知识库【调用、匹配、当前输入内容、上下文内容、向量数据库】
2.4 Planning任务规划【分析方式、分析思考、推理痕迹】
- 任务规划是Agent根据提示词、LLM大模型以及知识库进行决策和规划的过程。
- 它涉及对任务的分解、目标的设定、路径的规划等多个方面。
- Agent需要综合考虑各种因素,制定出最合适的任务执行方案。
- React:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索API),并以自然语言留下推理的痕迹。
2.5 Action工具使用【执行、返回、执行】
- 行动执行是Agent根据任务规划结果执行具体操作的过程。
- 它可能涉及与环境的交互、数据的收集和处理、决策的调整等多个环节。
- Agent需要准确地执行每一步操作,以确保任务能够顺利完成。
4、市面上Agent主要呈现
目前智能体的呈现主要有以下几个形式:
- Copilot场景助理→ChatGPTs对话式→Flow工作流→Agent自主智能体→Agents多智能体协同
-
更多应用场景详细参见:100个AI Agent应用场景合集
5、全球AI Agent 产品盘点
以下是 100 个 AI Agent 的创新应用场景,详细参见:100个AI Agent应用场景合集
参考
- https://cloud.tencent.com/developer/article/2378832
- 一文详细拆解Agent工作原理
- Agent或是大模型时代重要的落地方向
- 清华等发布ProAgent
- ai agent应用技术介绍-AgentGPT (参考资料部分)
标签:AI,模型,Agent,任务,Agents,LLM From: https://www.cnblogs.com/tgzhu/p/18144366