首页 > 其他分享 >大模型_4:Agent

大模型_4:Agent

时间:2024-05-04 09:02:44浏览次数:27  
标签:AI 模型 Agent 任务 Agents LLM

目录:

  •  1、全球AI Agent 产品盘点
  •  2、概览:基于LLM的自主智能代理,朝AGI更进一步
  •  3、技术篇:以LLM为基座,拓展感知和行动等功能模块
  •  4、Agent智能体的工作过程
  •  5、市面上Agent主要呈现

1、 全球AI Agent 产品盘点:详细点击


 开源产品: 

  1. Awesome AI Agents:开源ai-agents列表 
  2. XAgent:清华-超强大模型智能体应用框架,可自行拆解复杂任务,并高效执行。
  3. ChatDev:清华-多智能体协作开发框架,让多个不同角色的智能体进行协作,自动化开发软件应用。
  4. AgentVerse:提供了一个多功能的框架,简化了为大型语言模型(LLMs)创建自定义多智能体环境的过程。
  5. FastGPT:知识库问答系统,可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
  6. AgentGPT:基于浏览器的 AutoGPT 实现,可通过无代码平台访问
  7. Jarvis (HuggingGPT):Microsoft 开发的协作系统,使用多个AI模型协同工作
  8. MetaGPT:多智能体框架,使用单行输入生成各种内容;为GPT分配不同的角色,形成一个协作实体来完成复杂的任务
  9. MiniGPT-4:视觉语言理解的 AI
  10. Open Interpreter:让大语言模型在您的计算机上运行代码来完成任务
  11. SuperAGI:支持开发和部署自主代理

商业智能

  1. 实在Agent智能体:领先的 RPA 全新模式产品,企业员工使用零代码门槛的个人智能助理
  2. 澜码Ask XBot:Agent 协助完成数据分析、资料调取等工作
  3. ability.ai:为企业提供安全、以人为本的自主人工智能代理

 

2、 概览:基于LLM的自主智能代理,朝AGI更进一步


  1.1、AI Agent全文框架图

  •  

1.2 何为AI Agent?

   AI Agent 是一种能够感知环境、自主决策并执行动作的智能实体。由于Agent涵盖范围广泛且AI Agent的发展仍处于早期,目前学界对于AI Agent的定义尚未达成共识。

  • 2000年,赵龙文和侯义斌在《Agent的概念模型及其应用技术》中提出,AI Agent是一个运动于动态环境的、具有较高自制能力的实体,该定义后续被国内多篇文献所接受。
  • 2023年,复旦大学NLP团队在《The Rise and Potential of Large Language Model Based Agents: A Survey》中提出,AI Agent能够用传感器感知环境、做决策、用执行器来执行动作。

  基于上述定义,我们认为AI Agent应当同时具备环境感知性、决策自主性和动作自为性

1.3  AI Agent相较ChatGPT有何进步? 

   AI Agent和ChatGPT均基于LLM大模型,具备理解和推理能力,而AI Agent的进步之处在于:

  • 1)从具体功能维度,具备自主决策和行动能力
  • 2)从呈现效果维度,能够自主完成大部分工作,人类仅需设立目标并监督;
  • 3)从技术创新维度,是大模型在工程学上的进一步迭代。

1.3.1  从具体功能维度来看,AI Agent具备独立思考和自主决策的能力,输出结果不依赖于prompt的清晰程度

  • ChatGPT的回答效果取决于用户prompt的清晰准确程度,对于相对复杂的任务,ChatGPT需要用户给出分步任务指令,才能输出令人满意的回复;
  • 而AI Agent具备感知环境、独立思考并做出行动的能力,只要用户设定初始目标,AI Agent即可自行拆解任务、调用工具并输出优质回复,从而提升了易用性和便捷度,降低了用户使用门槛。

     以股票研究领域为例,只要用户给出“请帮我生成某公司3Q23业绩点评报告”的初始任务目标:

  • AI Agent即可自行拆分任务、设计报告框架,调用工具完成从数据搜集到数据分析、再到图表制作等一系列子任务,并最终输出一份令人满意的点评报告。
  • 如下图:ChatGPT与AutoGPT处理任务的流程对比
  • 如下图:AI Agent处理业绩点评报告任务示例 

1.3.2  从呈现效果维度来看,AI Agent具备行动能力,能够帮助用户完成具体任务,人类只需进行目标设定和过程监督。

  • ChatGPT具有较强的文本理解和推理能力,能够对用户提出的问题做出详细解答;
  • 而具备行为能力的AI Agent不仅能够像ChatGPT一样指出“如何做”,还能够代替用户“帮你做”。
  • 真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段,如下图:
  • 初代ChatGPT相当于自动驾驶的L2级别,Copilot相当于L3级别,而AI Agent则相当于L4级别,可以在人类的监督辅助下充当“驾驶员”自主完成大部分工作。
  •  腾讯研究院则将人类与AI的合作由初级到高级分为Embedding、Copilot和Agents三种模式。如下图:

  • 与Copilot模式下人类主导工作、AI协助完成部分任务初稿相比,在Agents模式下,AI具备更强的任务拆分、工具选择和进度控制能力,人类只需设立目标、提供资源并监督结果,工作的具体展开可全权交由AI代理。

 1.3.3 从技术创新维度来看,AI Agent是大模型在工程学上的进一步迭代。

  • 大模型是基于工程方法的“大力出奇迹”,以数据、算法和算力等要素资源精巧组合的方式,实现了大模型从量变到质变的过程。
  • 而AI Agent在LLM的基础上增加了规划、记忆和执行等功能模块,是工程方法上的延续性创新。
  • 我们认为,AI Agent在工程学上的进步有望进一步推动AI学术研究和应用范式探索。

1.4 发展历程:从符号逻辑到泛化学习,逐渐接近AGI

  AI Agent的发展历程如下图:

  •  

  自1965年首个专家系统DENDRA被提出以来,AI Agent在技术迭代方向上大致经历了从符号型Agent到反应型Agent,再到基于强化学习的Agent、基于迁移学习和元学习的Agent,最终到基于LLM的Agent的五个发展阶段。

  我们观察到,AI Agent的发展主要依赖于主流AI算法框架的演进,具有从专用到通用,从基于符号逻辑到强调环境感知、再到重视泛化学习的迭代特征。

  目前AI Agent的发展正处于基于LLM的Agent的阶段,各类Agent应用快速涌现。我们认为,基于LLM的Agent具体应用的落地有望迎来新一轮高潮。 

  就AI Agent的未来发展前景而言:

  • Yonatan Bisk等在《Experience Grounds Language》中提出,从NLP走向AGI需要经历语料库、互联网、感知、具身及社会属性这五个阶段。
  • 复旦大学NLP进一步指出,目前LLM正处于第二阶段,具有互联网规模的文本输入和输出,而在LLM基础上被赋予感知能力和行动能力的AI Agent则处于第三、第四阶段,
  • 未来AI Agent或将基于LLM继续迭代具备社会属性,并有望组成Agent Society,带来有组织、有成效的合作,从而走向第五阶段,逐步接近AGI。

 

2、技术篇:以LLM为基座,拓展感知和行动等功能模块


由于学术界对AI Agent的理论研究仍处早期阶段,且过去更多专注于完成特定任务的专有领域Agent,所以现有文献对于Agent的整体技术框架讨论度相对较低。基于目前热度较高的两篇文章:

我们对AI Agent当前主流系统框架及观点进行梳理。我们认为,目前AI Agent开发处于相对初级且快速进展的阶段,产品架构主要是在LLM大模型基础上叠加记忆、规划、行动等功能模块或组件,实则高度依赖大模型本身的能力,随着未来大模型和Agent相关研究逐步深入,AI Agent系统框架和组件形态或将发生较大的改变。

2.1 系统框架:AI Agent = LLM大模型 + Planning规划 + Memory记忆 + Tool Use工具使用

 LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。

 OpenAI 应用人工智能研究负责人Lilian Weng 在其 Blog:LLM Powered Autonomous Agents  中将LLM Agent定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use) 的集合

其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。

  •  

 1.1 规划(Planning)

  • 子目标和分解:LLM Agent 能够将大型任务分解为较小的、可管理的子目标,以便有效的处理复杂任务;
  • 反思和细化:LLM Agent 可以对过去的行为进行自我批评和反省,从错误中吸取经验教训,并为接下来的行动进行分析、总结和提炼,这种反思和细化可以帮助 Agents 提高自身的智能和适应性,从而提高最终结果的质量。

 1.2 记忆 (Memory)

  • 短期记忆:所有上下文学习都是依赖模型的短期记忆能力进行的;
  • 长期记忆:这种设计使得 AI Agents 能够长期保存和调用无限信息的能力,一般通过外部载体存储和快速检索来实现。

1.3 工具使用(Tool use)

  • LLM Agent 可以学习如何调用外部 API,以获取模型权重中缺少的额外信息,这些信息通常在预训练后很难更改,包括当前信息、代码执行能力、对专有信息源的访问等。

总结如下:

  •  

LLM Agent 常见功能

   LLM Agent能够基于大语言模型进行对话、完成任务、推理,并可以展示一定程度的自主行为。下面是LLM Agent 常见的功能: 

  • 利用LLM本身的语言能力理解指令、上下文和目标
  • 利用Tools(工具套件,如计算器、API、搜索引擎等)来收集信息并采取行动完成分配的任务。
  • 展示思维链推理、思维树和其他Prompt Engineering概念,建立逻辑关系以得出结论和解决问题。
  • 通过将上下文和目标纳入他们的语言生产技能来为特定目的(电子邮件、报告、营销材料)生成量身定制的文本。
  • 根据需要,与用户进行不同级别的交互。
  • 将不同的 AI 系统(例如带有图像生成器的大型语言模型)耦合在一起,以实现多方面的功能。

 

3、Agent智能体的工作过程


 Agent智能体的工作过程示例

  •  

2.1 Prompt提示词【圈定角色范围、阐述任务背景、习惯特色】 

  • 提示词是Agent接收到的初始输入,它描述了Agent需要完成的任务或解决的问题。
  • 提示词可以是文本、图像、语音等多种形式。
  • Agent需要对提示词进行解析和理解,以便为后续的任务规划和行动执行提供指导。
  • 总结:提示词写得好不好直接影响处理结果

2.2 LLM大模型【理解、提取、识别、选择】

  • LLM大模型(Large Language Model)是Agent进行任务规划和知识推理的重要工具。它通过对大量文本数据的学习,具备了强大的语言处理能力和知识推理能力。
  • Agent可以利用LLM大模型对提示词进行深入分析,生成可能的解决方案,并进行选择和优化。 

2.3 Memory知识库【调用、匹配、当前输入内容、上下文内容、向量数据库】

2.4 Planning任务规划【分析方式、分析思考、推理痕迹】

  • 任务规划是Agent根据提示词、LLM大模型以及知识库进行决策和规划的过程。
  • 它涉及对任务的分解、目标的设定、路径的规划等多个方面。
  • Agent需要综合考虑各种因素,制定出最合适的任务执行方案。 
  • React:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索API),并以自然语言留下推理的痕迹。

 2.5  Action工具使用【执行、返回、执行】

  • 行动执行是Agent根据任务规划结果执行具体操作的过程。
  • 它可能涉及与环境的交互、数据的收集和处理、决策的调整等多个环节。
  • Agent需要准确地执行每一步操作,以确保任务能够顺利完成。

 

4、市面上Agent主要呈现 


 目前智能体的呈现主要有以下几个形式:

  • Copilot场景助理→ChatGPTs对话式→Flow工作流→Agent自主智能体→Agents多智能体协同
  •  

 更多应用场景详细参见:100个AI Agent应用场景合集

 

5、全球AI Agent 产品盘点


 以下是 100 个 AI Agent 的创新应用场景,详细参见:100个AI Agent应用场景合集

 

参考


 

标签:AI,模型,Agent,任务,Agents,LLM
From: https://www.cnblogs.com/tgzhu/p/18144366

相关文章

  • EPAI手绘建模APP新建模型1
    (6) 新建模型图 175 新建模型工具栏-1图 176 新建模型工具栏-2① 新建模型工具栏包括一些建模过程中常用的工具,一般是基于现有模型创建一个或多个新的模型,同样是分步骤完成建模过程。② 挖空模型,选择实体上的面;设置挖空后连接类型,连接类型包括圆弧、相切、相交;挖空后......
  • EPAI手绘建模APP新建模型2
    ⑪ 中轴线,依次选择两条边,在两条边中轴处生成一条新的边。图 187 中轴线⑫ 投影点,选择一个点;选择一条边或者一个面。将点投影到边或者面上,生成新的点。图 188 投影点-1图 189 投影点-2图 190 投影点-3⑬ 投影曲线,选择一条边;选择一个面。将边投影到面上,打开设......
  • 09_模型设定与数据问题
    第9章模型设定与数据问题如果模型设定不当,会带来设定误差(specificationerror)[[#9.1遗漏变量|9.1遗漏变量]][[#9.2无关变量|9.2无关变量]][[#9.3建模策略:“由小到大”还是“由大到小”?|9.3建模策略:“由小到大”还是“由大到小”?]][[#9.4解释变量个数的选择|9.4解释......
  • RNN处理语言时,训练集的特征到底什么样?语言模型改为处理时间序列时,输入特征要怎么改?
    模型输入到底是什么样?1、整个小说作为一个序列,分段,窗口滑动一位一个很长的序列,加个随机初始点,舍弃初始点之前的,然后把剩下的长序列,根据步长平均切成多个子序列,把多个子序列起始下标乱序放在list里。一个子序列可能是很多句话,然后再循环所有子序列,每次取batchsize个子序列X矩阵:......
  • 11_二值选择模型
    第11章二值选择模型11.1二值选择模型的例子解释变量是离散的,不影响回归。比如虚拟变量被解释变量是离散的,不适合进行OLS回归。离散选择模型、定性反应模型最常见的:二值选择行为定义线性概率模型(LinearProbilityModel)$$\left{\begin{array}P(y=1|x)=F(x,......
  • 时间序列预测模型对比——视频笔记
    Autoformer他的特点是加入了自动相关,代替原来的自注意力机制,因为作者认为数据不能简单由数值来判断,而应该根据趋势来判断。他与Dlinear一样,都是用到了decomposition,这个拆分(快速傅里叶变换FFT)基于STL(季节性,趋势性),数据=趋势性数据+季节性数据(周期)+余项auto-correlation代替注意力......
  • 深入 Django 模型层:数据库设计与 ORM 实践指南
    title:深入Django模型层:数据库设计与ORM实践指南date:2024/5/318:25:33updated:2024/5/318:25:33categories:后端开发tags:DjangoORM模型设计数据库关系性能优化数据安全查询操作模型继承第一章:引言Django是一个基于Python的开源Web应用程序框架,它......
  • JAVA-Agent探针打印方法执行的返回值
     1、创建一个maven项目,不要用springboot的 引入依赖<dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.12.0</version></dependenc......
  • NOISEDIFFUSION: 改进基于扩散模型的球面线性插值
    Motivation:1.改进自然图像的插值质量:现有的图像插值方法,尤其是那些基于扩散模型的方法,通常在处理非模型生成的自然图像时遇到困难。这些方法往往不能有效地处理自然图像中的复杂和多样的噪声分布,导致插值结果不自然或有明显的图像伪影。2.处理编码噪声的无效性:在图像插值过程......
  • 迁移学习讲解、举例基于resnet-50 backbone的YOLO v1模型
    一、概念介绍迁移学习是指通过将一个已经在某一任务上训练好的模型,应用于另一个任务上。在迁移学习中,一般会将预训练模型的权重加载到新的模型中,然后对新的模型进行微调。预训练模型是指在大规模的数据集上训练好的模型这些模型通常具有很好的泛化能力,可以应用于各种任务,如图......