首页 > 其他分享 >Agent的“编排之战”|我开源了!

Agent的“编排之战”|我开源了!

时间:2024-11-14 09:18:20浏览次数:3  
标签:模型 编排 Agent Bench 开源 Routine Gen

图片

请问哪家大模型能够更准确地转化下述问题:

“原告是安利股份的案件审理法院是哪家法院?”

为可被大模型执行的指令序列(Routine)?

图片

  1. 公司简称:安利股份->上市公司基本信息;

  2. 公司名称:上市公司基本信息.公司名称->法律文书信息;

  3. 法律文书信息.过滤(原告等于上市公司基本信息.公司名称);

  4. 法院代字:法律文书信息.法院代字->法院地址代字信息;

  5. 法院名称:法院地址代字信息.法院名称;

图片

评估结果见文尾

回答这类问题,可以用到“4-One Bench”,这是老于依托于在《第三届琶洲算法大赛-GLM法律行业大模型挑战赛道》中获得全国第11名的竞赛程序,构建并开源的一套大模型Routine Gen能力评估体系。

而老于开源的初衷就是希望通过开源以促进“编排型”Agent在企业的落地。

图片

“编排型”Agent

微软和Salesforce之间的Agent之争最近开始升级:微软发布了10个Agents以硬刚Salesforce的Agentforce战略,而Salesforce CEO则直白地宣称微软的Agent“Just doesn't work”。

虽然两家公司正在开启“互喷”模式,但二者对Agent商业化方向的判定还是趋同的,都瞄准了“编排型”Agent。

图片

Every organization will have a constellation of agents — ranging from simple prompt-and-response to fully autonomous. They will work on behalf of an individual, team or function to execute and orchestrate businesses process.

-  Jared Spataro, Microsoft CMO

图片

两家公司共同野心是在SaaS层打造一套类似于云计算(IaaS)和容器(PaaS)的编排体系,即“编排型”Agent。编排型Agent的终极目标是依据任务需求,自动编排和执行企业数据资产(包括系统、API、结构和非结构化数据、以及人等)以达成业务目标

例如,在前几日的AI Tour上,微软便展示了相关案例:基于预设的Routine,麦肯锡EM Agent能够解析客户的邮件为销售机会,并调度CRM和HR系统以安排恰当的合伙人跟进该销售机会(图1):

图片

图1:麦肯锡EM Agent,红色标识部分为对CRM和HR的调度

如果这两家公司的野心兑现,编排型Agent将有机会一统原本分散在单系统中由代码逻辑驱动、多系统间由工作流引擎驱动、以及当下还未被SaaS完全囊获,由人驱动的编排体系,并在SaaS市场攫取相当的战略优势(图2):

图片

图2:编排型Agent有机会统一现有编排体系

但是,这两家公司尚未搞定编排型Agent的“胜负手”。

图片

“胜负手”

编排型Agent的胜负手在于Routine Gen,即根据任务准确生成Routine的能力(图3):

图片

图3: Routine Gen是编排型Agent的胜负手 

而为了保证商业可靠性,微软和Salesforce的Routine Gen皆为手工编制,例如,在上述麦肯锡案例中,Routine就是由人工书写(图4):

图片

图4:由人工书写的麦肯锡EM Agent Routine

以大模型当下的能力来看,手工编制不失为一种选择。但当微软和Salesforce得偿所愿,企业运转着百万,乃至数以亿计的Agents时,这些Routine的维护将成为企业的噩梦。因此,由大模型驱动的自动化Routine Gen是一种必然。

虽然OpenAI o1已经展露出些许自动化Routine Gen的潜质(详情参见我的文章《OpenAI o1正在重塑Agent?》),但基于商业领域的严谨性,编排型Agent的决胜时刻还远未到来。因此,业界需要一套可以持续评估大模型Routine Gen能力的体系。

为此,抛砖引玉,我开发了“4-One Bench”。

图片

4-One Bench

4-One Bench是一套轻量级评估体系,定位于帮助用户快速评估大模型的Routine Gen能力,并鼓励用户结合自身商业实践定制评估内容。此外,用户亦可参照Bench中的编排自定义文法体系。

4-One Bench的架构采用Generator-Verifier模式,同时,该Bench具备如下特色(图5):

图片

图5:4-One Bench 系统架构

首先,One-Query:4-One Bench模拟日常商业实践中常见的“一句话任务”场景,涉及单项或者多项企业资源的编排:

图片

图6:满足One-Query需要编排单或多项企业资源

其次,One-Knowledge Graph:依据任务,一套描述数据资产关系的知识图谱指导大模型自动编排企业数据资产,同时,用户亦可结合自身商业实践定制知识图谱内容。

图片

图7:描述API和商业实体的知识图谱

再次,One-Shot。考虑到实际商业环境中对Agent的响应速度和准确率要求,4-One Bench重点考察大模型一次性成功生成Routine概率。

最后,One-Syntax一套自定义的文法(Syntax)主要的作用是将任务结构为指令,而指令又可被映射为函数以用于企业数据资产调用(图8):

图片

图8:4-One Bench的自定义文法

我们用来源于《GLM法律行业大模型挑战赛》的51道问题评估了4家厂商(OpenAI、智谱、阿里云和字节)的8个大模型并形成了评估基线。通过评估,我们发现(图9):

图片

  • 当前表现最好的模型(gpt-4o)One-Shot的准确率有七成,如果我们利用Verifier将One-Shot架构转化为ReAct,凭借提示词Routine Gen的准确率有望达到90%+;

  • 准确率超过60%的模型对知识图谱有较好的理解,而如果该指标低于50%,则不建议使用此类模型进行Routine Gen;

  • 国产主力模型能力距gpt-4o不远(例如 glm-4-plus的准确率为~65%),市场上有望出现能够PK微软和Salesforce的纯国产的"编排型"Agent;

  • 各个模型所犯错误较为近似,有进一步通过优化提示词工程提升准确率的空间。

图片

图9:4-One Bench 测评结果

图片

下述视频演示了如何使用4-One Bench测评glm-4-520的Routine Gen能力:

<iframe allowfullscreen="true" data-mediaembed="csdn" frameborder="0" id="uoeRS2RH-1731546788913" src="https://live.csdn.net/v/embed/433988"></iframe>

4-One Bench Intro

视频:使用4-One Bench进行测评 

4-One Bench的代码已经开源,可在Github上搜索:laoyu84/4onebench,或扫描下方QR Code:

图片

另,如厂商对4-One Bench感兴趣,请联系[email protected]

标签:模型,编排,Agent,Bench,开源,Routine,Gen
From: https://blog.csdn.net/BigBlue92/article/details/143757785

相关文章

  • 丹摩征文活动|Llama 3.1 开源模型快速部署:从零到上线
    文章目录一、Llama3.1系列的演进与发展历程二、大型语言模型的力量:Llama3.1405B三、Llama3.1405B部署教程四、Llama3.1在客户服务中的运用一、Llama3.1系列的演进与发展历程自开源LLM(大语言模型)兴起以来,Meta公司凭借其Llama系列逐步在全球AI领域占据重......
  • aider: 一个 terminal 中的开源 AI 编程助手 & benchmark
    1.AIpairprogramminginterminalaiderGitHub可自由配置任意的LLM接口功能:接收需求:Addnewfeaturesortestcases.Describeabug.PasteinanerrormessageororGitHubissueURL.Refactorcode.Updatedocs.修改代码文件自动执行gitcommits并携带......
  • Avalonia开源控件库强力推荐-Semi.Avalonia
    Avalonia开源控件库强力推荐-Semi.Avalonia Avalonia是什么?Avalonia是一个强大的框架,使开发人员能够使用.NET创建跨平台应用程序。它使用自己的渲染引擎绘制UI控件,确保在Windows、macOS、Linux、Android、iOS和WebAssembly等不同平台上具有一致的外观和行为。这意味着开发人......
  • 强烈推荐 | 阿里开源的这11个神级项目
    强烈推荐|阿里开源的这11个神级项目 前言最近趁着国庆节放假休息,特地整理了一下,阿里巴巴开源的10款神级项目。这些开源项目中的绝大多数,我都在实际工作中用过,或者有同事用过。确实挺不错,挺有价值的,现在推荐给大家。1.DruidDruid自称是Java语言中最好的数据库连接池,它......
  • 一图看懂云消息队列 RabbitMQ 版对比开源优势
    随着企业对消息队列的性能和稳定性要求越来越高,运维成本也随之增加。云消息队列RabbitMQ版通过架构优化:避免了消息积压导致的内存泄漏和服务器故障等稳定性问题;解决了分布式系统中的脑裂难题;并支持弹性伸缩和按量计费,有效降低资源和运维成本!那么,与开源RabbitMQ相比,云消......
  • Single-Agent vs Multi-Agent AI Comparison
    Single-AgentvsMulti-AgentAIComparisonhttps://integrail.ai/blog/single-agent-vs-multi-agent-ai-comparison ChoosingtheRightSystemThechoicebetweensingle-agentandmulti-agentsystemsdependsonthespecificrequirementsofyourproject:ForS......
  • 阿里云通义大模型团队开源Qwen2.5-Coder:AI编程新纪元
    ......
  • 开源低代码平台-Microi吾码-工作流引擎、流程引擎
    前言第一版:博主在2008年工作时接手前同事基于微软WWF开发的工作流引擎,开发十余个国企、事业单位OA系统、ERP系统等第二版:博主在2012年参与ccflow工作流引擎的二次开发、bug修复,曾是ccflow论坛超级版主,当时使用微软SelverLight技术(可惜被淘汰)。ccflow的老板周总也是咱前辈......
  • 推荐一个.NetCore开源的CMS项目,功能强大、扩展性强、支持插件的系统!
    推荐一个基于.NetCore开发的开源CMS项目,该项目功能完善、涉及知识点比较多,不管是作为二次开发、还是学习都是不错的选择。01项目简介Cofoundry是基于.Net开发的、代码优先开发、具备可扩展且灵活的架构、简单易用的内容管理系统。02项目框架1、基于.Net8开发。2、数据......
  • AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战
    AIAgent智能应用从0到1定制开发:Langchain+LLM全流程解决方案与落地实战随着人工智能技术的飞速发展,AIAgent作为智能应用的新星,正逐步从理论走向实践。AIAgent通过集成大语言模型(LLM)与各种智能工具,能够自主理解、规划并执行复杂任务,为企业带来前所未有的智能化体验。本文将从零......