AI Agent是何方神圣?
让比尔·盖茨在2023年预言:未来五年内有望正式迎来它,彻底改变人类的生产力与生活方式。
让吴恩达教授在AI Ascent 2024演讲中高赞:今年得益于它的工作流的帮助, 人工智能的能力范围将持续拓展,所有从事人工智能的人都应该关注这个令人兴奋的新兴趋势。
它就是卷爆大模型,引发微软、OpenAI 、谷歌、Meta打擂台赛,“代表了AI的一种未来”的AI Agent。
可能还有很多小伙伴对这个概念很陌生,今天,通过新书《动手做AI Agent》为大家科普一下它的来龙去脉。
我以后将这本书打包好了,还有一份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】**
Part.1
什么是AI Agent?
Agent也可以译为“代理”。“代理”这个词在AI出现之前就有了,哲学家们研究过它。像亚里士多德和大卫·休谟这样的大思想家都讨论过代理的概念,他们认为只要能自己做决定,不管是人、动物还是别的东西,都能称作代理。到了20世纪80年代,AI的研究者也开始关注这个概念了。
目前,我们倾向于把所有能够感知环境、做出决策并采取行动的实体或系统视为人工智能领域的代理。而AI Agent,即人工智能代理,被定义为一个能够自主执行任务、做出决策并与环境交互的系统。
· 感知环境,指Agent能够接收来自环境的信息。例如,一个自动驾驶Agent可以感知周围的交通情况、道路状况等信息。
· 做出决策,指Agent根据感知的信息制订下一步的行动计划。例如,自动驾驶 Agent 根据感知的信息决定是否加速、减速、转弯等。
· 采取行动,指Agent根据决策执行相应的行动。例如,自动驾驶 Agent 根据决策控制汽车的加速器、刹车、方向盘等。
Part.2
大模型驱动的自主Agent的四大要素
接下来,我们以OpenAI 公司的安全系统主管Lilian Weng大神发布的博文《大模型驱动的自主Agent》为出发点,聊聊实现Agent技术的四大要素:规划(Planning)、记忆(Memory)、工具(Tools)、执行(Action)。
· 规划 : Agent必须能够规划和决策以有效执行复杂任务,这包括拆分子目标、持续思考、自我评价和反思过往行为。
· 工具 : Agent需要调用各种工具,如日历或搜索功能等,这些工具是对 Agent 核心功能的补充,允许它执行更广泛的任务。
· 记忆 : Agent具备短期记忆和长期记忆能力,短期记忆有助于上下文学习,而长期记忆则关系到信息的长期保留和快速检索。
· 执行 : Agent根据规划和记忆来实施具体行动,这可能涉及与外部世界的交互或通过工具完成任务。
我们可以看到,Agent位于中心位置,它通过协同各种组件来处理复杂的任务和决策过程。被这些组件武装的AI Agent形成了新一代人工智能系统,它将AI的应用范围和能力推向了全新的高度。
Part.3
AI Agent和大模型是什么关系?
在大模型出现之前,AI Agent的"智脑"还没法和人脑比。但大模型一来,大家对AI Agent的期待立马就高了。这些大模型不光是处理语言的利器,更是对人类智能的深度模拟和拓展,为AI Agent打开了新世界的大门。
其实在大模型出现之前,已经出现了符号Agent、反应型Agent、基于强化学习的Agent 与具有迁移学习和元学习能力的Agent等。
那为啥大模型一出现,AI Agent的概念和技术就突飞猛进了呢?
因为人们发现,大模型不光能处理数据、搞自然语言处理,更是让Agent从只会执行命令的呆子变成了能自己拿主意的聪明人,是推动 Agent 从静态执行者向动态决策者转变的关键。
许多研究人员立马就用大模型来打造AI Agent的大脑,也就是核心控制器。这样一来,它不光能感知环境、做出决策,还能用多模态感知和使用工具等策略来制订行动计划。同时,研究人员还通过思维链(CoT)、ReAct(推理并行动)和问题分解(Problem Decomposition)等逻辑框架,让这些AI Agent展现出和符号Agent一样的推理和规划能力。这些AI Agent还能通过和环境交互,从反馈中学习,获得新的交互能力。
此外,大模型的泛化能力让AI Agent能轻松应对各种任务,而且不用每次都重新学习。大模型的自然语言能力还能让不同的AI Agent顺畅交流,不管是合作还是竞争。研究发现,当多个AI Agent在同一个环境中你来我往的时候,就能催生出一些复杂的社会现象。比如,斯坦福大学的研究团队就搞出了一个由AI Agent自主搭建的虚拟社会“西部世界小镇”。
可以说,AI Agent的定义中强调的自主性、适应性、交互性、功能性都来源于大模型的海量知识和推理能力、感知和交互能力,以及通过工具来解决问题的行动能力。
可见,大模型已成为 Agent 不可或缺的一部分。大模型将赋予 Agent 更深层次的理解能力,使其能够在更复杂的环境中执行更复杂的任务,从而在各个领域发挥更大的作用,为人类带来更深层次的便利和效率。而随着大模型技术的不断进步,AI Agent的能力和应用范围也在不断扩展。
Part.4
AI Agent 带来重大影响的领域
AI Agent将改变多个行业,全球投资正推动其发展。它们很快会成为我们的好帮手。以下是AI Agent可能带来重大影响的5个领域。
1
自动办公好助手
AI Agent,不单单生成文本、图像和代码的能力强,还能连串搞定复杂任务,变身效率翻倍的办公超人。
2
客户服务革命
AI Agent正用全天候的智能服务颠覆客户支持,让企业效率和客户满意度双双提升。
3
个性化推荐
AI Agent让推荐系统更懂你,帮你找到心头好,助力商家增销,同时注重用户隐私和内容多样性。
4
流程的自动化和资源的优化。
AI Agent让制造业更智能,能省钱提效,同时,解决复杂决策和就业挑战,保证技术发展不丢人情味儿。
5
医疗保健的改革
AI Agent在医疗保健领域大有可为,能帮助医生提高诊断和治疗的效率与准确性,同时也经得起严格考验,确保精确可靠。
类似上面的行业应用,我们可以轻易地列举出几十个行业的几十种可能性。简而言之,AI Agent很快就会遍布各个行业,这不仅会改变我们的工作方式,还可能衍生出一些新的职位。所以,各位程序员得准备好学习新技能了,这样才能在变化的就业市场上站稳脚跟。
Part.5
市面上有哪些Agent框架?
市面上的AI Agent框架多种多样,它们具有不同的特性和应用场景。下面说几个知名的AI Agent框架:
· AutoGPT: 一个由OpenAI推出,允许用户利用GPT模型来自动化各种任务的开源项目。
· LangChain: 一个允许开发者利用语言模型创建能够与环境交互并执行任务的AI Agent框架。
· AutoGen: 一个框架,它通过对话Agent来解决任务,实现LLM应用程序的开发。
· Langfuse: 一个面向LLM应用程序的开源可观测性和分析解决方案。
· ChatDev: 一个虚拟软件公司,通过各种AI Agent担任不同的角色,包括首席执行官、首席产品官等。
· BabyAGI: 一个AI支持的任务管理系统示例,使用OpenAI和PineconeAPI创建。
· CAMEL: 一个专为自主和沟通Agent研究设计的开源库,支持多模态数据处理。
· SuperAGI: 一个强化学习驱动的AI Agent框架,用于构建高性能的AI Agent。
· MetaGPT: 一个将不同的角色分配给GPT,形成一个协同的软件实体来执行复杂任务的开源框架。
· ShortGPT: 一个用于自动化内容创作的框架,简化了视频制作、素材采集、语音合成和编辑任务。
Part.6
在众多 Agent 框架中
如何选择适合自己需求的框架做AI Agent?
挑个适合自己的AI代理框架得考虑老多事儿,不过看看相关书籍能给咱们指点迷津。最近,黄佳出的新书 《大模型应用与开发:动手做AI Agent》 就能帮上大忙。
这本书会带你深入探索AI Agent的世界,从技术框架到开发工具,从实战项目到最新动态,手把手教你做出7个超给力的AI Agent。书的最后,还会聊聊AI Agent的未来会是啥样。
不管是对AI Agent感兴趣的朋友,还是想在这块儿大展拳脚的研究人员、开发人员、企业高管,或者是大学里的老师和学生,都适合读这本书。你会跟着咖哥和小雪一起开启一段超有趣的AI Agent开发之旅,近距离感受GPT-4模型、OpenAI API、各种助手、LangChain、LlamaIndex和MetaGPT这些前沿技术的魅力,看看AI Agent在自动办公、智能调度、知识整合和增强生成等领域的酷炫表现,一起打开人工智能时代的大门,找到那颗最耀眼的AI Agent之星!
我以后将这本书打包好了,还有一份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】**