AI Agent智能体科普入门

标签：基于 AI 模型 Agent 智能 Agents 科普

2024年AI智能体已经在各行各业得到应用，有人说2025将是AI智能体爆发的元年，能不能爆发不知道，但继续扩大应用规模肯定是一个趋势，原因在于基座大模型发展到现在已经到了一个相对成熟甚至说是瓶颈的阶段，各家基座大模型都在互卷，变现不易，把基座大模型应用起来变现，智能体是一个主要的渠道，也该到大模型大范围应用起来的时候了。

AI智能体如此重要，本文作为一篇科普入门文章，希望你读完后明白AI智能体的通用基础知识。现在不敢写“AI智能体读完这篇就够了”之类的文章，原因是目前AI智能已经应用或将应用到很多领域，每个领域都有好多综述论文，要么介绍一下通用知识，要么就某个领域做专门的介绍。下图是AI智能体应用领域的一个展望列表：

图1. 基于大语言模型的AI Agent应用领域展望，来源[3]

本文主要包含以下内容：

什么是AI Agent
AI Agent和工作流的关系
AI Agent的架构
AI Agent框架

1. 什么是AI Agent

先直接给出今天我们要介绍的AI Agent目前的主流定义：能自主感知环境、进行决策、并采取行动以实现特定目标的智能实体。

在这两年基于大模型的的Agent大家多数都把Agent叫做智能体，之前在计算机行业，大家更多把Agent叫代理。

Agent概念可以追溯到哲学领域，指拥有欲望、信念、意图和行动能力的实体，可授权他们自主权进行决策、采取行动，而不只是被动地对外界刺激作出反应[2]。上世纪80年代，AI领域引入了Agent概念，其发展历程跟随了AI发展的几个阶段，包括基于符号推理、基于专家规则、基于强化学习（和环境交互，训练策略得到最大奖励）、基于迁移学习和元学习（Transfer Learning、Meta Learning），到现在基于大语言模型的Agent。

有了大模型后，模型能力强了，对环境的感知和决策是其强项，促使了基于大模型的Agent的热潮。下面我们讲的都默认是基于大模型的AI Agent。

2. AI Agent和工作流的关系

十年前，IT自动化工作流已经是很普及的一种方式，它把工作中的流程设计好，一般在一个流程自动化工具界面上通过拖拽方式按设计创建流程，流程中可以设置if/else条件、迭代循环、各种操作例如文件读写、数据库操作等。然后执行工作流，就按照设计执行，例如常见的审批流程，HR、财务流程等。下图是我曾经用过的一个IT流程自动化工具界面。

图2. IT自动化工作流工具样例

AI Agent和传统工作流比，不同之处表面看可以理解为在传统工作流上增加了大模型能力。更深一层看，正是增加了大模型能力，使得传统的工作流有了大脑，是一个本质的改变。传统工作流是人设计好流程，一步步按部就班执行，有了大模型能力后，大模型作为大脑对接收到的需求进行分析，决策先做什么、后做什么，中途还可以根据不同场景动态调整。

即使有了AI Agent，传统工作流仍然有其用武之地，能用工作流解决的问题，不一定非得用AI Agent，避免拿着锤子找钉子。

3. Agent常见架构

这一部分是重点，阅读了很多篇综述论文，最后决定参考其中的三篇，一篇复旦大学NLP组综述论文，一篇香港中文大学和北大等单位联合的综述，一篇前OpenAI Lilian Weng介绍Agent的博客，具体见文末参考资料部分。

仍然先说结论：虽然各种资料介绍的关于AI Agent架构和组件都有差异，但本质上核心内容是相同的，即：

要和环境交互、感知环境
要思考进行规划、决策、反思，同时要用到各种短期、长期记忆
要根据决策采集行动，其中需要使用各种工具

3.1 复旦大学NLP组综述

图3. 复旦NLP组基于大模型Agent的概念架构

简称综述#1，包括三个部分：Perception、Brain、Action。

Perception感知

对照人的感官系统，如眼睛、耳朵，把从外界接收到的多模态信息转换为Agent能理解的向量表示。分为文本、视觉、语音和其他不同的输入类型。

图4. Perception模块分类

Brain大脑

大脑是重头戏，是Agent的控制中心，负责思考、使用记忆和知识、任务分解、做决策等。是体现大模型发挥作用的地方，具体分为：

自然语言交互：多轮对话、自然语言生成、意图理解。
知识：学习和利用知识，包括语言知识、通用知识、领域知识。
记忆：使用记忆，包括短期记忆和长期记忆。
推理和计划
迁移和泛化

图5. Brain模块分类

Action动作

Action根据大脑决策执行行动，对环境施加影响。涉及各种工具的使用，比如API接口调用，以及具身智能动作。

图5. Action模块分类

单Agent和多Agents

单Agent就是一个Agent独立处理任务，缺点是不能多个Agents之间协作产生更大的作用，所以出现了多Agents模式，以及Agent和人之间的互动。

图6. 单Agent、多Agents、Agent与人互动

多Agents之间有合作关系、相互对抗关系以提高对方性能。

图7. 多Agents间的合作关系、对抗关系

3.2 香港中文大学综述

图8. 基于大语言模型Agent概览

简称综述#2，Agent部分包含：

LLM：通常是领域相关的大语言模型，推理参数例如温度参数可调整，作为Agent的核心，基于当前的观察、历史记忆、奖励信息推理，进行决策。

目标：Agent基于该目标进行任务分解和规划。

动作：综述#1中已讲解。

记忆：综述#1中已讲解，Agent采取行动的时候，环境的反馈和奖励记录到记忆中。

反思Rethink：对上一次执行的结果和环境反馈进行反思、反省。

多Agents

按角色间的关系分为：合作、竞争、既有合作又有竞争的混合、分层级。

按计划和执行类型分为：LLM中心计划分开执行（CPDE，Centralized Planning Decentralized Execution (CPDE) 、分开计划分开执行（DPDE，Decentralized Planning Decentralized Execution）。

图9. 多Agents分类和关系

3.3 Lilian Weng博客

图10应该是国内介绍AI Agent使用最多的一个架构图，我不太确定原创是否来自于OpenAI的Lilian，但Lilian本人以及这篇博客很有影响力。

图10. 基于大语言模型的Agent自治系统总览

已经看过前面综述#1、#2的情况下，上面的组件基本都能理解了，我们还是对主要内容描述一下。

组件1：计划Planning

任务分解：主要方法有思维链Chain of thought（大名鼎鼎的CoT）、在CoT上扩展的思维树Tree of Thoughts。

反思Self-Refection：有三种模式。

模式一：ReAct（Reason+Act，推理+行动），反复执行。

图11. ReAct模式及样例

模式二：Reflexion，根据动态记忆和反思改进推理技能，由Heuristic函数根据运行中的效率和幻觉情况来决定是否停止执行。

图12. Reflexion模式

模式三：Chain of Hindsight，模型根据过去输出的内容来微调，得到更好的模型。

组件2：记忆

记忆按下图分类，其中专门提到一般外部的记忆存到向量库中，从向量库中快速搜索获得内容的概念maximum inner-product search (MIPS)，其常用近似近邻算法approximate nearest neighbors (ANN)，有兴趣的请阅读原文[1]。

图13. 记忆分类

组件3：工具使用

前面已有介绍，此处省略。

和一开始讲的一样，三篇文章虽然架构和描述有差异，但AI Agent的核心内容和部件都基本相同，通过这三篇文章我们对AI Agent有一个入门的科普了解应该是没问题了。

4. AI Agent框架项目

有了理论，最后还是要回到实践使用，看一下使用这些理论已经实现的框架项目有哪些。

项目很多，不同项目所处的层次不一样，有的偏底层，用户可以在上面进行定制化开发，有的偏上层应用，直接拖拽定义，我们列举几个流行的。

LangChain

很著名的框架，可以在上面进行各种定制化，但是多数人反映做简单的应用可以，如果深入后要修改和定制很复杂，成本高。目前97.6k stars。

LangGraph

LangChain旗下的平台，可独立于LangChain使用，提供了有状态、多角色、更细粒度的循环和条件分支控制、多Agents创建功能。目前7.8k stars。

AutoGPT

一个允许你创建、部署、管理Agent实现自己目标的平台，基于它演变的框架很多。目前170k stars。

CrewAI

用于编排复杂AI Agent系统的生产级框架。从简单的自动化到复杂的实际应用，CrewAI提供精确的控制和深度定制。目前23.9k stars。

AutoGen

微软发布的用于构建AI Agent系统的开源框架。它简化了事件驱动的、分布式的、可伸缩的、有弹性的Agent系统创建。目前36.8k stars。

MetaGPT

基于软件开发中各种角色构建多Agents，完成复杂任务。目前46.4k stars。

扣子Coze

字节旗下产品，coze.cn，提供可拖拽的工作流和Agent创建能力，国内比较流行的平台。

Dify

提供从AI Agent 构建到工作流编排、RAG 检索、模型管理等能力，国内比较流行的平台。目前57.2k stars。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。