什么是AI Agent(LLM Agent)
“Agent”是一个跨学科的概念,涵盖了哲学、计算机科学、经济学、生物学等多个领域。尽管定义和应用范围各异,代理的核心特征在于其自主性、感知和决策能力,以及目标导向的行动能力。理解代理在不同领域中的具体应用和特征,有助于更全面地认识和利用这一概念。
哲学领域中的Agent
在哲学中,Agent通常指具有意图和行动能力的个体或实体。主要特征包括:意图性(Intentionality):代理的行动是基于某种目标或意图的、行动能力(Agency):代理能够自主选择和执行行动、道德和法律责任:代理对其行为的结果负有责任。哲学中的代理可以是人、动物,甚至是具有一定自主性的抽象实体(如公司、政府)。研究内容包括自由意志、道德责任和意识等。
计算机科学和人工智能中的Agent
在计算机科学和人工智能领域,Agent通常指一种能够感知环境、做出决策并采取行动的软件或硬件系统。根据其复杂程度和功能,智能体可以分为以下几类:简单反应智能体(Simple Reflex Agents):基于当前感知做出预定义的反应、基于模型的智能体(Model-Based Agents):维护环境的内部模型,根据模型进行决策、目标导向智能体(Goal-Based Agents):基于目标进行规划和行动、效用导向智能体(Utility-Based Agents):评估不同目标的效用以选择最佳策略。
软件工程中的Agent
在软件工程中,Agent是指一种自主的、具备决策能力的软件组件。这些智能体可以用于自动化任务管理、数据处理和用户交互。特征包括:自主性(Autonomy):智能体可以独立运行和决策,社会性(Social Ability):智能体可以与其他智能体或系统进行交互,反应性和主动性(Reactivity and Proactivity):智能体不仅能够对环境变化做出反应,还能够主动采取行动。
Agent 的复杂程度各不相同,一个简单的恒温器可以是一个 Agent,一个大型的国家或者一个生物群体也可能是个 Agent。感知环境、自主决策、具备行动能力,设定明确的目标和任务,适应环境及学习能力,都是 Agent 的关键特点。
通常来说,一个智能体(Agent)可以分为三个主要模块:大脑(Brain)、感知(Perception)和行动(Action)。
大脑(Brain)
大脑模块是智能体的核心,用于进行规划和决策。这个模块通常由一个大语言模型(如GPT)构成,能够处理复杂的推理和决策任务。大脑模块的主要功能包括:
-
存储感知信息:接收并存储从感知模块传来的环境数据。
-
知识库检索:访问和检索内部知识库中的相关信息,以支持决策过程。
-
计划制定:根据当前的环境状态和目标,制定详细的行动计划。
-
推理决策:进行逻辑推理,选择最优行动策略。
感知(Perception)
感知模块负责对环境进行感知和理解。它通过处理各种类型的数据,如文本、视觉和音频,来拓展智能体对环境的感知能力。感知模块的主要功能包括:
-
文本感知:处理和理解自然语言文本,提取有用信息。
-
视觉感知:通过图像和视频数据识别和理解环境中的物体和场景。
-
音频感知:处理声音和语音信号,识别语音指令和环境声音。
行动(Action)
-
行动模块负责执行大脑模块制定的决策。它调用相关工具和执行具体操作,并根据执行结果提供反馈。行动模块的主要功能包括:
-
工具调用:根据决策调用特定的工具或服务,例如执行某个软件命令或控制硬件设备。
-
任务执行:按照制定的计划执行具体任务,如机器人移动、数据处理等。
-
反馈获取:监控执行过程,获取执行结果,并将反馈信息传回大脑模块进行进一步处理。
模块间的交互
-
感知模块收集和处理环境信息,将处理后的数据传递给大脑模块。
-
大脑模块存储这些信息,并通过知识库检索、计划制定和推理决策来生成具体的行动策略。
-
行动模块根据大脑模块的决策执行具体操作,并提供执行反馈。
示例
自动驾驶智能体
-
大脑:使用深度学习模型进行路径规划和决策,包括路线选择和避障。
-
感知:通过摄像头、激光雷达和雷达感知道路和周围环境。
-
行动:控制车辆的方向盘、油门和刹车,执行驾驶操作。
智能家居助手
-
大脑:根据用户指令和环境数据进行决策,例如调节温度或播放音乐。
-
感知:通过传感器收集家庭环境数据,如温度、湿度和活动情况。
-
行动:控制家电设备,根据用户需求和感知数据执行操作。
这种模块化设计使智能体能够灵活应对各种环境和任务需求,提高系统的效率和可靠性
AI Agent的结构模型
智能体的应用结构主要分为三种类型:这三种结构各有其特点和适用场景,可根据具体应用需求选择合适的智能体应用结构。
单智能体(Single-Agent)系统
单智能体系统指的是在任务处理或决策过程中,仅依赖一个独立的智能体来完成所有工作。该智能体具有感知、决策和行动的能力,并通过与环境进行交互来实现目标。
感知(Perception):智能体通过传感器或其他输入渠道感知周围环境的状态。
决策(Decision-Making):智能体基于感知到的环境状态,使用内部的规则、算法或学习模型进行推理和决策。
行动(Action):根据决策结果,智能体执行相应的行动,影响环境状态,并反馈到下一轮的感知和决策中。
多智能体(Multi-Agent)系统
1. 环境与输入
Relevant Documents: 相关文档,作为任务的输入信息来源,Python Files: Python文件,作为任务的输出信息来源。
2. Agent Alice 与 Agent Bob 的角色
Agent Alice: 任务:从相关文档中提取信息,观察任务要求,行为:根据文档编写Python代码,交互:把生成的代码部分传送给Agent Bob进行检查。
Agent Bob: 任务:检查Agent Alice生成的代码,行为:根据需求进一步测试和验证代码的正确性,交互:将校验后的Python文件输出。
3. Agent Charlie 的角色
Observation(观察):Agent Charlie从环境中观察信息,包括从Agent Alice和Agent Bob那里接收的任务进展。
Memory(记忆):保留和管理任务和代码相关的记忆信息。
Thought(思考):基于观察到的任务信息进行思考和推理,可能通过调用外部的智能体如OpenAI的GPT-3进行高级处理。
Action(行动):在思考和决策之后采取相应的行动,其中包含使用外部工具辅助任务。
4、工具使用
Agent Charlie可能会调用工具来辅助完成特定任务:Python: 编写和测试Python代码,Google搜索: 查找相关信息和资源,计算工具: 进行必要的计算和处理。
5、流程概览
Agent Alice 获取文档内容:从Relevant Documents中获取需要的信息,生成初步的Python代码。
Agent Bob 校验代码:对Agent Alice生成的代码进行检查和验证,并观察是否符合需求。
Agent Charlie 观察并行动:利用观察到的任务信息,思考和决策之后可能调用外部工具进行辅助,并执行必要的行动。
6、协作与循环
多个智能体通过观察环境交互,不断协作,完成使命任务。这种多智能体系统可以显著提高处理复杂任务的效率和准确性。
人机协作系统
结合了人类的智能和机器的计算能力,通过互动和协作完成任务。这种结构特别适用于需要人类进行复杂决策或创意工作的场合,智能体提供辅助和支持。
交互界面:提供直观的用户界面使人类与智能体进行有效的交流和协作。
辅助决策:智能体根据数据分析和算法提供建议和支持,辅助人类决策。
反馈与学习:智能体从人类的反馈中进行学习,优化自身行为和决策策略。
AI Agent的结构模型
一个基于大模型的AI Agent系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。Agent=LLM+规划技能+记忆+工具使用的基础架构,其中LLM扮演了Agent的“大脑”,在这个系统中提供推理、规划等能力。
大模型与规划:Agent 的“大脑”实现任务分解
智能代理(Agent)的“大脑”通过思维链(Chain of Thought)能力来实现任务的分解和处理。大语言模型(LLM)具备逻辑推理的能力,Agent 可以进一步激发和利用这种能力。当大模型规模足够大时,LLM 就具备了强大的推理功能。在简单推理问题上,LLM 已经展示出很高的准确性,但面对复杂推理问题时,有时仍会出现错误。
实际上,用户无法通过 LLM 获得理想回答的一个主要原因在于提示词(Prompt)设计不够合适,无法充分激发出 LLM 的推理能力。通过追加辅助推理提示词,可以显著提升 LLM 的推理效果。例如,《Large Language Models are Zero-Shot Reasoners》这篇论文的测试中,通过在向 LLM 提问时追加“Let’s think step by step”,数学推理测试集 GSM8K 上的推理准确率从 10.4% 提升到 40.7%。
作为智能体代理,Agent 能够根据给定的目标自主创建合适的提示词,从而更好地激发大模型的推理能力。通过这种方式,Agent 可以以更高的效率和准确度进行复杂任务的分解和解决。
AI 一些术语解读
代理(Agent)
代理通常指能够自主进行决策和行为的实体。在哲学中,代理可以是人、动物,甚至是具有自主性的概念或实体。
人工智能代理(AI Agent)
人工智能代理(AI Agent)是能够感知其环境、做出决策并执行相应操作的智能体。它们通过复杂的算法和模型来分析输入信息,并采取合适的行动。
机器人流程自动化(RPA)
机器人流程自动化(RPA)是一种能够模拟人类在计算机上执行手动操作的软件自动化技术。RPA系统可以自动完成大量重复性和基于规则的任务,例如在银行中处理纸质文件输入、票据验证、数据提取、跨系统数据迁移及自动化IT应用操作等。其主要优势包括降低劳动成本、提高生产力、减少出错率、操作可监控以及开发周期短。RPA在金融、办公自动化和IT流程自动化等领域中应用广泛。
Copilot
Copilot 类似于飞机的“副驾驶”。这一概念依托于底层的大型语言模型(LLM),用户只需简单地下达指令,Copilot 就能生成类似于人类撰写的文本及其他内容。
LangChain
LangChain是一个强大的框架,旨在帮助开发人员构建由语言模型(LLM)和聊天模型驱动的端到端应用程序。它提供了一套工具、组件和接口,简化了应用程序的开发过程。这些应用程序包括文档分析和摘要、聊天机器人以及代码分析等。
大型语言模型(LLM)
大型语言模型(LLM)是一种人工智能算法,利用深度学习技术和海量数据集来进行理解、总结、生成和预测新内容。这些模型在处理自然语言方面表现出色,广泛应用于各种语言处理任务中。
感知记忆(Sensory Memory)
感知记忆是信息处理的初始阶段,涉及对通过感官接收的信息进行短暂的存储。通常持续几百毫秒到几秒钟。例如,当你看到一张美丽的风景照片,感知记忆会暂时保存这张照片的颜色和形状。即使闭上眼睛,你也能在脑海中短暂地“看到”这张照片,这就是感知记忆的作用。
短期记忆(Short-term Memory)
短期记忆类似于一个临时工作台,它能够暂时存储和处理少量信息。举例来说,当你试图记住一个电话号码时,你可能会重复念叨这个号码,直到你拨打它,这就是短期记忆在发挥作用。所有的上下文学习(In-context Learning)都依赖于模型的短期记忆来进行。
长期记忆(Long-term Memory)
长期记忆像一个庞大的仓库,能够存储我们的经验、知识和技能,存储时间可以非常长,甚至延续一生。比如,你学会骑自行车的技能,即使多年不骑,你仍然记得怎么骑行,这就是长期记忆。智能体通常通过外部向量存储和快速检索来实现长期记忆。
记忆流(Memory Stream)
记忆流存储了智能体过去的观察、思考和行动序列。就像人脑依赖记忆系统回溯先前的经验来制定策略和做出决策一样,智能体也需要特定的记忆机制来确保能够熟练处理一系列连续任务。
模块化推理、知识与语言(MRKL)
MRKL代表一种构建AI的方法,用于自主代理的神经符号结构。它将推理、知识理解和语言能力作为不同的模块处理,像搭积木一样,每个积木代表AI的某一能力,组合在一起使AI能够进行复杂的思考和交流。
工具增强的语言模型(TALM)
工具增强的语言模型是指通过工具或技术来增强的语言处理模型,通常通过微调实现。例如,一个AI聊天机器人通过接入搜索引擎或其他数据库,能够提供更准确的回答和信息。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
标签:AI,模型,决策,Agent,智能,LLM,感知,揭秘 From: https://blog.csdn.net/aolan123/article/details/139777971