从零到手搓一个Agent：AI Agents新手入门精通（一）

今日主题：当什么是Agent，与LLM的区别又是啥

这一天，你的女朋友问你（假设我们有女朋友），宝宝，什么是Agent啊，Agent和LLM有什么区别呀，最近大家都在说的Agent究竟是什么，包括很多文章都在写的Agent，还有之前谷歌发布的Agents白皮书究竟是什么，对我们有什么帮助，对我们有什么影响呢？现在，编者专门做了一个系列，从最简单的讲起，解开这个迷雾，这个系列的教程，会帮助你了解基本概念，并且能够手搓一系列的agent

那么，chatgpt是Agent还是LLM，有了LLM为什么还需要Agent呢，这次我们就把概念弄清楚以及有什么用讲清楚

一、LLMs的局限与Agents的诞生（结合ChatGPT举例）

你或许已经体验过 ChatGPT 的强大对话能力，它能流畅地与你聊天、回答问题，甚至帮你写诗、写代码。这背后正是 LLMs（大型语言模型）在发挥作用。LLMs 就像一个超级博览群书的“大脑”，它掌握了海量的文本知识，可以根据你的提问，生成相应的文本回复

那么，为什么说 LLMs 仍然存在局限性呢？让我们以 ChatGPT 为例来看：

1. 知识的滞后性：

举例：你问 ChatGPT “今天的天气怎么样？” 或者 “最新的股票价格是多少？”，它很可能无法给出准确的回答。因为它所拥有的知识来源于训练时的数据，无法实时获取最新的信息。它可能告诉你的是前几天的天气，或者很久之前的股票行情。

解释： LLMs 的知识就像一本厚厚的“旧书”，书里记载着很多知识，但无法知道书出版之后发生的新鲜事。

2. 无法与外界交互：

举例：你让 ChatGPT “帮我预订一张明天的机票”，它会很热情地告诉你预订机票需要哪些步骤，却无法实际帮你预订。你让它 “帮我发送一封邮件给同事”，它也只能为你写好邮件内容，而不能帮你发送出去。

解释： LLMs 只能进行文本理解和生成，它就像一个“只会说”的人，但没有“手脚”去执行实际操作。

3. 缺乏自主行动能力：

举例：你问 ChatGPT “如何制定一个完美的旅行计划”，它会给出你很多建议，例如选择目的地、预订酒店、规划行程等等。但是它不会主动帮你把这些都安排好。它只是在回答你的问题，而不是主动帮你解决问题。

解释： LLMs 只能被动地接收指令，然后给出回答，无法根据目标自主规划行动。就像一个“听话的助手”，但是没有自己的想法和主动性。

二、为了突破这些限制，Agents（智能体）应运而生。

Agents 的核心思想：给 LLMs 配备“手脚”和“大脑”

我们可以将 Agents 想象成一个升级版的 ChatGPT，它不仅具备强大的语言理解和生成能力，还拥有了：

“手脚”（工具）： Agents 可以利用各种工具（例如，搜索引擎、数据库查询工具、邮件发送工具）与外界互动，获取信息、执行操作。就像给 LLMs 配备了可以操作各种工具的 “手脚”。

“大脑”（编排层）： Agents 具备推理和规划能力，可以根据目标自主规划行动，并合理地调用各种工具。就像给 LLMs 配备了一个可以自主思考和决策的“大脑”。

Agents 与 LLMs 的区别：

特性	LLMs (例如 ChatGPT)	Agents (智能体)
核心能力	语言理解和生成	语言理解、推理规划、工具使用、自主行动
知识来源	训练数据	训练数据 + 实时信息 + 外部知识库
与外界交互	无法直接交互	可以通过工具与外界交互
行动能力	无法执行实际操作	可以根据目标自主执行操作
解决问题方式	被动回答问题	主动分析问题、规划行动、解决问题
例如	ChatGPT 可以回答你的问题，但无法帮你订机票或查询天气	Agent 可以帮你预订机票、查询天气、发送邮件，并根据你的需求主动规划行程

简而言之：

* LLMs 就像一个知识渊博的“问答机器人”，你问什么，它答什么。

* Agents 就像一个“智能助手”，它不仅能回答你的问题，还能主动帮你完成任务。

通过这样的解释，希望能够帮助读者更好地理解 LLMs 的局限性，以及 Agents 的优势和价值。Agents 的出现，标志着人工智能正朝着更智能、更强大的方向发展。

知识的局限性： LLMs的知识来源于训练数据，无法获取实时的外部信息，这使得它在处理需要最新资讯的任务时显得力不从心。
行动的局限性： LLMs只能进行文本生成和理解，无法与外部环境交互，更无法执行实际操作，例如查询数据库或发送邮件。

为了克服这些局限，谷歌的研究人员在《New whitepaper Agents》中详细阐述了“Agent”的概念。他们将LLMs与工具和编排层相结合，赋予了LLMs自主行动的能力，使其能够像一个真正的“智能体”一样工作。

三、Agents的核心组件：智能体的“三大支柱”

一个完整的Agent通常由三个核心组件构成，它们相互协作，共同支撑起Agent的智能行为：

模型 (Model): Agent 的“大脑”
角色：负责理解用户输入、进行推理和规划，并选择合适的工具执行任务。
类型： ReAct、Chain-of-Thought、Tree-of-Thought等模型，提供了不同的推理框架，帮助Agent进行多轮交互和决策。
重要性：模型是Agent的核心，其推理能力直接决定了Agent的行动效率和准确性。
工具 (Tools): Agent 与外界交互的“桥梁”
角色：允许Agent访问外部数据和服务，执行各种任务。
类型：可以是各种API，例如数据库查询、搜索引擎、代码执行器、邮件发送器等。
重要性：工具极大地扩展了Agent的能力，使其能够处理更复杂的任务。
编排层 (Orchestration Layer): Agent 的“指挥中心”
角色：负责管理Agent的内部状态，协调模型和工具的使用，并根据目标指导Agent的行动。
类型：可以使用各种推理框架，如ReAct和Chain-of-Thought等，协助Agent进行规划和决策。
重要性：编排层是Agent的“指挥中心”，确保各个组件协同工作，最终实现预定目标。

四、Agents的运作机制：从输入到输出

Agent 的运作流程可以概括为以下几个步骤：

接收输入：接收用户的指令或问题。
理解输入：模型理解用户的意图，并提取关键信息。
推理规划：模型根据用户输入和当前状态，进行推理和规划，确定下一步行动。
选择工具：模型根据目标选择合适的工具。
执行行动： Agent使用工具执行行动，例如查询数据库、发送邮件等。
获取结果： Agent获取工具执行的结果。
输出结果： Agent将结果输出给用户，或进行下一步行动。

相较于传统的LLMs，Agents 具备以下显著优势：

知识扩展：通过工具，Agent可以访问实时信息和外部知识库，突破了训练数据的限制，提供更准确和可靠的信息。
自主行动： Agent 可以根据目标自主决策和行动，无需人工干预，大大提高了效率和灵活性。
多轮交互： Agent 可以管理对话历史和上下文，进行多轮交互，提供更自然和流畅的用户体验。
可扩展性： Agent 可以通过添加新的工具和模型，不断扩展其功能和应用范围。

五、Agents的应用：从智能客服到虚拟助手

Agents 的应用场景非常广泛，以下仅列举部分：

智能客服：自动回答用户问题、处理订单、解决客户问题。
个性化推荐：根据用户兴趣和行为，推荐商品、内容、服务等。
虚拟助手：帮助用户管理日程、预订行程、发送邮件等。
代码生成：根据用户需求，自动生成代码。
智能创作：创作诗歌、小说、剧本等。
知识图谱构建：从文本中提取知识，构建知识图谱。

Agents的开发工具：从LangChain到Vertex AI

为了方便开发者构建 Agents，Google 提供了多种工具和平台：

LangChain：一个开源库，方便开发者将LLMs与工具和编排层结合，构建功能强大的Agents。
LangGraph：一个开源库，帮助开发者构建和可视化 Agents，提供图形化界面，方便设计和测试。
Vertex AI：一个云平台，提供各种AI工具和服务，如Vertex Agent Builder、Vertex Extensions、Vertex Function Calling等，帮助开发者快速构建和部署 Agents。

Agents 的未来充满无限可能，技术发展将推动 Agents 走向更智能化和强大：

更先进的模型：更强大的语言模型将带来更复杂的推理和规划能力。
更丰富的工具：更多种类的工具将为 Agent 提供更丰富的交互方式，例如自然语言处理、图像识别、语音识别和机器人控制等。
更智能的编排层：更智能的编排层将更好地协调模型和工具，提高 Agent 的效率和灵活性。
Agent Chaining：更多专业化的 Agents 将协同工作，解决更复杂的问题。
多模态交互： Agent 将能够处理多种模态数据，如文本、图像和语音，带来更丰富的用户体验。
人机协作： Agent 将与人类更紧密地合作，共同完成更复杂的任务。

六、结语：Agent，AI的未来

Agents 代表着生成式AI模型的进阶形态，它们拥有自主行动能力，能够利用工具与外界交互，并根据目标进行决策，具有更广泛的应用范围和更强大的能力。随着技术的不断发展，Agents 将会改变我们的生活和工作方式，并推动人工智能进入新的发展阶段。未来，Agent 将成为人工智能发展的重要方向，为我们带来更智能、更便捷的未来。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。