首页 > 其他分享 >四种多Agent范式哪种最好?用于对话任务解决的多代理大型语言模型 Multi-Agent Large Language Models for Conversational Task-Solving

四种多Agent范式哪种最好?用于对话任务解决的多代理大型语言模型 Multi-Agent Large Language Models for Conversational Task-Solving

时间:2024-12-22 18:31:45浏览次数:6  
标签:Conversational 讨论 Multi 范式 代理 Agent 智能 任务 LLM

在这里插入图片描述

原文地址

摘要

在单个大型语言模型多年来主宰人工智能领域的时代,多智能体系统在对话任务解决中崭露头角。此前的研究虽已展现出其在推理任务和创新尝试方面的潜力,但对于其在对话范式方面的局限以及个体智能体的影响,却缺乏分析。多智能体讨论在不同复杂程度任务中的表现怎样,以及这些对话的结构如何影响进程,都尚不明确。为填补这一空缺,本工作对各种讨论范式下的多智能体系统进行了系统评估,衡量了它们在生成任务和问答任务中的优劣。除实验外,我提出了 2022 至 2024 年 20 项多智能体研究的分类法,接着介绍了在对话任务解决中部署多智能体 LLM 的框架。我证实,尽管多智能体系统在复杂推理任务中表现卓越,凭借专家角色胜过单个模型,但在基础任务上却不尽人意。具体而言,我指出了三个出现的挑战:1)虽然更长的讨论能增强推理能力,但智能体无法始终符合严格的任务要求,从而导致问题偏移,使得较短的对话对基础任务更有效。2)长时间的讨论存在对齐崩溃的风险,给这些系统带来新的安全隐患。3)我展示了通过长时间生成造成的讨论垄断,给诸如总结之类的任务带来了决策公平性的问题。此项工作揭示了多智能体交互和不同对话范式所带来的潜力与挑战,为未来研究如何提升多智能体 LLM 的效率、性能和安全性提供了思路。

文章目录

1 Introduction

由于文本生成人工智能(AI)的最新进展,单一大型语言模型(LLM)主导了众多任务,例如问答(QA)[26]、创意写作[18]和代码生成[25]。 如今,LLM在解决问题方面取得了出色的表现,这要归功于他们捕捉语言特征、跨任务和领域进行概括以及生成连贯文本的能力[3,37,68]。 这导致 ChatGPT1、Gemini [57] 和 GitHub Copilot2 等应用程序最近越来越受欢迎。 随着不断的增长和公众的关注,单一的LLM系统在人工智能爱好者之外的社区中得到了广泛的采用。 然而,受欢迎程度的上升和学术界的集中关注也揭示了这些系统的局限性。

单一LLM面临多种问题,例如偏见[52]、对非事实陈述的过度自信[24]、可解释性问题[49],以及不提供解决更复杂任务所需的多方面推理[15]。 值得注意的是,人类很少自己解决复杂的任务。 当我们无法独立实现目标时,我们可以咨询其他更有资格的人,他们可以就部分任务提供建议或帮助。 因此,人类从与同类的建设性交流中受益匪浅,尤其是在涉及复杂的计划或推理时。 人类对话的这些动态现在引起了研究人员的注意,希望能够减轻单一LLM的局限性。

在这里插入图片描述

图 1. MALLM 的表面视图:多代理大型语言模型,与单个模型的思想链 [64] 进行比较。 MALLM 包含三个主要组件:自动角色分配、协作讨论和决策。 更多技术概述如图 3 所示。

受社会选择理论[10]的启发,最近的研究考虑使用多个LLM来减轻单一模型的局限性并解决更复杂的任务[5,51,71]。 这些LLM被称为代理,在协作讨论或对话中模拟人类互动。 多个代理可以配备不同的专业知识或偏好,从而增强单个 LLM 的讨论和系统响应 [5, 51]。 在定义轮流的固定通信方案下,可以提示代理讨论问题的潜在解决方案[71]。 决策机制检查代理之间的协议,产生优于单一模型的最终输出。 一般来说,多代理LLM是一个考虑代理、讨论和决策以对话式解决问题的概念。

如今,多智能体系统已经通过简单的通信方案进行富有成效的讨论,以提高单个LLM在推理繁重任务上的性能[5,51,71]。 它们用于模拟社交互动[43],可以提高他们在对话场景中解决问题的能力[5,51,71]。 这有几个好处。 首先,代理可以通过单个 LLM 提高系统对推理任务的响应 [5,51,71]。 其次,每个代理人的不同观点可以减轻响应中的偏见[69]。 第三,基于反馈的话语会产生一种自我反思机制,减少幻觉内容 [9, 53]。 第四,多智能体讨论通过在智能体之间提供富有洞察力的讨论日志来解决LLM的黑匣子问题。 最后,新颖的多智能体系统为解决单一模型无法解决的固有多智能体任务(如心理理论 [32])奠定了基础。

考虑到多主体研究的最新进展[54,67,74],对于哪些主体、讨论格式和其他特征影响讨论的过程和结果仍然缺乏了解。 具体来说,尚不清楚是否存在普遍良好的讨论格式,或者这些格式是否取决于下游任务。 研究还遗漏了关于个体代理如何通过其专业知识或生成的代币影响讨论结果的研究。 目前尚不清楚哪些特征构成了多智能体系统的优点和缺点。 因此,需要进行全面的研究来量化多智能体LLM的局限性,为这些系统的未来改进提供明确的基础。

在这项工作中,我提出了一个名为 MALLM(多代理LLM)的框架,它模拟人类交互以对话式解决问题。 使用 MALLM,我探索多智能体讨论的内在特征,以测试生成任务(即摘要、翻译、释义类型生成)和 QA 任务(多选道德 QA、多选战略 QA、提取 QA)作为基准。 我评估多智能体讨论如何展开,研究它们的融合、单个智能体的影响和对话范式。 通过考虑词汇多样性和问题可回答性等与话语相关的特征,我对多代理LLM的机会和局限性有了进一步的见解。

更具体地说,我探讨了以下研究问题:
哪些讨论范式比单一LLM更有效?
(1) 讨论范式的表现是否依赖于任务?
(2) 讨论的内部沟通结构有多重要?
(3) 多智能体系统与思想链提示相比如何?

多智能体讨论期间哪些因素影响任务绩效?
(1)讨论的长度对任务绩效有影响吗?
(2) 人物角色如何影响讨论和结果?
(3) 代理响应的长度与角色和结构有何关系?

LLM代理之间的讨论有什么特点?
(1) 多主体LLM和单LLM之间的词汇多样性是否存在差异?
(2) 多代理人LLM在识别无法回答的问题方面是否比单一LLM更有效?
(3)多主体LLM如何讨论特别困难的例子?

我的研究得出了一套全面的发现。 我发现,虽然多智能体系统可以提高推理能力和道德一致性,但它们在翻译等基本生成任务上表现较差,这凸显出具有思想链(CoT)[64]的单一LLM通常足以解决任务 令人满意。 因此,多主体LLM对于解决复杂问题似乎特别有前景。 结果表明,大多数代理如何在讨论中快速达成一致,通常在前两轮内达成共识。 值得注意的是,我表明代理会更长时间地讨论更困难的示例,这突显了这些系统如何适应问题的复杂性。 我的工作强调了保持多智能体讨论简短的必要性,因为在除战略 QA 之外的所有任务的较长讨论中,性能都会下降,战略 QA 可以利用额外的推理步骤。 我解释了多智能体LLM的问题漂移,这是一种对话现象,当讨论过长且智能体无法保持严格的任务要求时,可能会损害翻译等基本任务的性能。 有趣的是,具有信息限制的讨论范式会导致讨论收敛得更慢,同时实现相似的性能。 因此,通常优选所有代理之间完全透明以减少计算。 我的研究表明,当智能体讨论较长时间时,就会发生对齐崩溃,引发人们对多智能体系统的毒性和人工智能安全性的担忧。 我还量化了多主体辩论中专家角色的影响。 具体来说,我表明专家对于解决道德 QA 或战略 QA 等复杂任务至关重要,并强调具有不同偏好的角色如何丰富多智能体交互。 结果表明,在对话范式和完整信息访问中发挥核心作用的代理在生成任务上生成更多令牌,但在多项选择和提取式 QA 任务上则不然。 我展示了贡献较长文本的代理如何对对话产生更强烈的影响,垄断讨论并以不平衡的方式影响决策。 总而言之,主要发现如下:

  • 多智能体讨论改进了 CoT 的推理,但在翻译等基本任务上表现不佳。
  • 专家角色有助于复杂的任务,例如战略质量保证和道德质量保证。
  • 代理们会更长时间地讨论困难的示例,直到达成共识,并根据问题的复杂性进行调整。
  • 较长的讨论会导致问题偏离,从而使简短的讨论更加有效,除非任务很复杂。
  • 多主体讨论的道德一致性在较长时间的对话中崩溃。
  • 拥有更多信息的智能体为生成任务贡献更多文本,而较长的个人响应可能会垄断讨论,特别是在总结等任务中。

本质上,我做出了以下主要贡献:

  • 我提出了一个模块化框架,可以控制代理、讨论格式和决策,以促进有关多代理LLM的复杂研究。
  • 我提供了有关多代理系统在哪些方面比单一LLM表现更好以及在哪些情况下会失败的重要见解。
  • 我研究了多主体讨论的过程并阐明了讨论形式的影响。
  • 我量化各个座席对对话的影响,考虑角色和响应长度。

2 Related Work

自从第一个聊天机器人出现以来,人类就一直着迷于让文本生成模型以类似人类的方式进行交流。 作为对该想法的首次探索,两个名为 ELIZA 和 PARRY 的程序在治疗师和患者之间进行了对话3。 关于LLM [40] 能力的最新进展导致关于多智能体系统的研究数量不断增加。 各种工作通过单个LLM的特定提示方法探索了类似代理设置的潜力[63, 67]。 王等人。 [63]提示单个LLM代表不同的领域专家(称为角色)来模拟讨论。 在LLM中引入多个细粒度的角色可以提高他们在创意写作和逻辑网格难题等任务上的表现。 通过这种方法,讨论更多的是在同一输出中利用的概念,只需要由单个LLM进行计算。 像自我一致性[61]这样的自我纠正机制承认这样一个事实:复杂的问题通常允许多种可能的解决方法。 因此,由于温度或模型参数的其他变化,多次处理查询可能会产生不同的输出。 通过在一组可能的解决方案中选择最一致的答案来聚合所有答案,然后产生更准确的响应。 希克等人。 [46]表明解决方案的重复处理和迭代改进可以有利于创意写作。

思想交流[71]结合了代理提示和重复改进的思想,描述了一个场景,其中多个代理(分别被提示的LLM实例)协作解决一项任务。 他们表明,使用多个 LLM 实例的多代理方法是具有 CoT 或自我一致性的单一模型的有前途的替代方案,其推理性能优于基线。 [59]直接将自我一致性的概念应用于多个代理的答案以做出最终决定。 陈等人。 [5]表明不同的代理(例如,具有不同的后端模型)增强了响应多样性,从而导致更丰富的讨论。

关于多智能体系统的局限性和内在特征的研究很少。 王等人。 [60]质疑围绕多代理系统的炒作,并表明单代理LLM可以通过可靠的提示实现与多代理LLM相似的性能。 尹等人。 [71]将重点放在他们的系统最有效的地方,但也提供了对试图改进推理的各种单模型和多代理系统的计算成本的一些见解。 我的目标是通过研究对话任务解决的多主体讨论的内在特征和局限性来填补这一研究空白。

3 Taxonomy

多主体LLM的研究领域很活跃但仍处于起步阶段。 罗西等人。 [45]系统地调查了截至2018年的集体行为多智能体算法。他们将多智能体系统的任务分为三个主要类别:(1)空间组织行为,其中智能体旨在实现与环境交互可忽略不计的空间配置,( 2)对环境进行集体探索,代理之间的交互有限;(3)代理与环境和自身交互的合作决策。 然而,最近出现的有关多智能体系统的研究并不属于这些类别中的任何一个[13,47,61,71]。 郭等人。 [17]直接提到解决问题作为研究的一个分支,将LLM视为代理人。 具体来说,我建议引入(4)对话式问题解决,以考虑自然语言处理的最新进展。 通过对话式问题解决,智能体与环境的交互很少,并依赖于彼此之间的交互来解决任务。 在这项工作中,我专门研究通过LLM代理解决对话问题。 虽然对话式问题解决领域的研究活动不断增长,但我发现缺乏针对这些多智能体系统的最佳实践调查。 因此,需要进行全面的文献综述来开始有关多主体LLM的有意义的研究。 我深入探讨了基于代理的LLM的构成、代理如何交互以及如何做出决策。 我确定了自 2022 年以来使用多代理LLM的 20 项相关工作,为我们和其他人的工作提供了对该领域的深入了解,可将其用作进一步研究的起点。 我提出构成多代理LLM的三个主要支柱:代理、讨论和决策。 在阅读过程中,我特别注意到属于这些类别的贡献。 我详细介绍了每个支柱的常用技术和最先进的研究。

3.1 Agents

代理会收到讨论任务的 LLM 实例的提示。 我将参与对话的代理人称为参与者。 参与者被提示以特定的风格或格式进行交流,通常会产生一个角色[63]。 例如,角色可以是领域专家 [55, 63],以更有效地利用训练数据中的知识,也可以是个性 [47],以使讨论更加动态。 一些作品还在讨论中引入了更集中的角色,具有不同的功能,例如提出解决方案[63]、控制轮流[55]或确保代理在讨论期间保持其角色[47]。 我将这一角色称为主持人,可能包括一个或多个集中目的。

3.1.1 主持人

有几部作品包括了讨论的中心代理人。 这个中央主持人的目的因作品而异。 通常,主持人通过提示或架构设计保持中立,而不是在讨论中引入主观性。

草案提案人。 有些决策机制需要反复起草。 为此,可以聘请主持人提出新的解决方案,同时考虑其他代理的反馈[9]。 提案人草案不会影响决策,并且在对话过程中保持客观。 因此,提示将已经提出的想法总结成草案,旨在满足最大数量的代理。

Turn Manager. 不需要预先定义讨论中代理的轮次顺序。 受到脱口秀或商务会议等人际互动的启发,Suzgun 和 Kalai [54] 聘请了一位主持人,该主持人有权让专门代理就问题进行咨询。 如有必要,还可以让额外的专家代理参与解决问题。 这种方法使讨论变得动态,而不是遵循定义轮流的常用方案[71]。

政策反馈。 座席可能会在讨论期间难以找到共同点或遵守预定义的准则。 在这些情况下,政策反馈机制可以鼓励代理人的某些行为。 施等人。 [47]雇佣一个监督代理人来检查讨论代理人在谈话过程中不会忘记他们所诱发的个性。 傅等人。 [12]在谈判游戏中使用观察代理向各个代理提供有关如何改进谈判策略的书面反馈。

任务说明符。 对于多代理系统(例如,在软件开发中),用户输入和相应的任务可能非常详细且难以解释。 李等人。 [31] 诸葛等人。 [77]不要直接将用户输入传递给代理。 在讨论之前,他们实现了一个额外的步骤,进一步指定用户给定的任务。 此步骤可以提供一个计划,指示代理如何解决更复杂的任务,例如开发应用程序。

状态分类器。 多代理讨论的一个关键挑战是决定何时终止交换。 傅等人。 [12]采用话语状态分类器来确定讨论是否正在进行、已完成,或者代理之间仍然不太可能达成协议。 虽然他们使用这个分类器进行相对简单的谈判游戏,但话语状态分类器的概念也可以应用于其他任务,在似乎不太可能达成共识的讨论中可能节省计算资源。

在这里插入图片描述

图 2. 用于对话式问题解决的多代理LLM的分类。 带下划线的节点表示与我们的实验相关的内容。 有关所有组件的说明,请参阅第 3 节。

3.1.2 参与者

参与者是通过提供反馈和改进当前解决方案来为讨论做出贡献的代理。 通常,参与者有独特的偏好和信念,根据他们的偏好参与讨论。
LLM。 每个参与者都以LLM为核心,产生思考过程并为讨论做出贡献。 LLM向其他代理人产生建设性的反馈,改进当前的草案,并可以通过提示提出新的想法。 李等人。 [32] 发现像 GPT-4 [40] 这样具有高推理能力的模型可以为讨论提供更好的贡献,从而在需要强有力协作的任务中获得更高的分数。

人物角色。 可以提示参与讨论的每个代理代表个性 [47]、专家角色 [63, 67] 或类似属性。 这些属性称为代理人的角色[63]。 角色通过提供更独特的想法和固执己见的反馈来增强讨论。 它们可以提高推理和知识密集型任务的表现,例如解决谜题[63]、创意故事写作[63]和数学推理[54]。 选择正确的角色也可以产生较少偏见的结果[69]。

记忆。 为了遵循更人性化的互动,Park 等人。 [43]采用一个内存模块来存储每个代理的讨论日志。 值得注意的是,根据对话格式或要解决的任务,不同的代理可以有不同的可用讨论日志,而无法访问所有信息 [43, 71]。 这些动态还有待进一步探索,因为尚未在多智能体问题解决的背景下研究智能体之间信息差异的影响。

工具。 由于复杂性或模块化,有些问题对于LLM代理人来说可能具有挑战性或不可能。 对于此类情况,庄等人。 [76] 使用外部工具为其代理提供支持。 理想情况下,参与者可以根据情况从一组工具中选择合适的工具。 虽然当前的 LLM 代理在正确评估情况方面往往存在问题,但数据集 ToolQA [76] 可用于微调 LLM 代理在正确情况下使用哪些工具。

3.2 Discussion

代理交互必须遵循一些准则。 这些准则定义了轮到哪个代理参与讨论以及谁可以访问哪些信息。 我评估的几乎所有作品都使用了针对其特定应用量身定制的独特话语政策。 这些通常可以被描述为一种讨论范式,而提示也在代理如何交互方面发挥着重要作用。

3.2.1 范式

必须澄清讨论的结构,以确定代理在什么概念下进行交流。 这通常涉及架构修改和顺序处理实施的讨论。 我关注尹等人。 [71]并将这个一般概念称为范式。 他们概述了四种示例性范例,它们的轮次顺序和信息可见性有所不同。 这些范例被称为记忆、接力、报告和辩论。 我将在下面扩展讨论范式的各个方面。

Turn Order. 每个范式的一个重要方面是讨论期间各个代理的轮流顺序[71]。 讨论可以相当简单地进行,每个代理都有机会相继做出贡献。 更复杂的范式会混淆轮次顺序,影响信息流向各个代理的速度[71]。

能见度。 可以改变范式来限制单个代理的信息访问。 具体来说,范式可以具有代理之间消息的不同可见性[71]。 例如,一种范例可能允许所有代理之间交换的所有消息的完全可见性。 另一种范例可能会将其限制为仅直接交换消息的代理。

总结者。 当考虑跨多个轮次的详细讨论时,对代理人的LLM的提示输入变得越来越大。 即使是现代的LLM也难以有效地利用长上下文信息[34]。 杜等人。 [9]采用总结模块将冗长的初步讨论浓缩为基本要点。 他们表明,与长上下文输入相比,讨论记忆的总结可以提高性能。

Agent Number. 参与讨论的代理数量对于讨论的展开方式起着重要作用。 杜等人。 [9]表明,通过增加讨论参与者的数量,推理任务的性能会变得更好,这可能是由于由此产生的额外推理步骤。 王等人。 [63]将他们的角色分配器与固定和灵活数量的生成角色进行比较。 他们的结果表明,使用灵活数量的角色优于固定方法,这凸显了LLM能够自行决定一些讨论参数。

3.2.2 提示

大多数多智能体系统利用指令调整的 LLM 作为讨论的智能体 [54, 71]。 将这些模型置于推理模式后,系统会提示他们一般讨论设置、任务说明、之前的讨论日志以及分配的角色等附加信息。 不同作品的提示技术差异很大,并且取决于系统应用程序。 我在下面重点介绍一些相关示例。

上下文长度。 为了让LLM参与讨论,每个提示中都包含初步讨论。 杜等人。 [9]发现较长的提示会导致收敛到正确答案的速度较慢。 然而,最终共识的质量表现出性能的提高。 这凸显了模型性能和效率之间的权衡。 潜在地,这种现象也可以在具体讨论的背景下观察到。

角色分配者。 早期使用 LLM 的多智能体系统不使用或仅使用单个角色 [74]。 不同的任务可能需要或受益于专门的角色,而这些角色的手动定义是劳动密集型的。 王等人。 [63]表明LLM有能力自己找到好的人物角色。 因此,可以有效地提示LLM生成适合任务和示例的角色列表。

3.3 Decision Making

许多评估的作品没有提供决策机制,只是在固定点终止智能体之间的讨论[32, 47]。 无论如何,都会采用一些决策机制的变体。 我将它们分为三种主要类型:投票、共识和树搜索。 投票对于类似于分类或标记问题(例如多项选择 QA [41])的任务很有用。 如果智能体之前提出了可能的解决方案,投票机制也可以解决生成任务。 共识主要用于创造性的故事写作等生成任务[47]。 通过迭代反馈循环,所有代理都对最新的草案进行了改进。 一旦每个代理人就最新草案达成一致而无需进一步修改,即可达成共识[63]。 树搜索可以帮助遍历讨论的多个可能过程以获得最佳解决方案[75]。 当将多代理系统应用于多步骤任务时,它也可以提供帮助[22]。

3.3.1 投票

代理人可以提出自己的草稿作为解决方案来解决讨论期间的生成任务。 其他任务可能本质上提供一组标签供选择(多项选择)。 通过基于投票的决策,代理人可以对他们喜欢的解决方案进行投票。 杨等人。 [69]解释了进行投票的几种方式。

Ranked. 每个智能体都可以将可能的解决方案从最好到最差进行排序[69]。 这种方法允许对首选解决方案进行权衡。 通过排名投票,可以找到在合理程度上满足许多代理的折衷方案。 在之前的工作[69]中,排名投票显示了对人类集体行为的强烈估计。

累计。 使用累积投票,每个代理都有固定数量的点来分配在提议的解决方案中[69]。 选择得分最高的解决方案作为最终决策。 对于LLM,如果希望代理人之间达成高度一致,那么与排名投票相比,累积投票是更好的选择。 这是因为通过指示每个代理的同意(不同意)强度,累积分配多个点会产生一致的结果[69]。

赞同。 杨等人。 [69]详细阐述了批准投票。 在这里,每个代理可以选择固定数量的解决方案进行批准。 强制代理批准固定数量的解决方案可能会减少LLM在决策过程中的顽固性,从而可以更快地收敛于更开放的任务。 批准投票的变化可能不那么严格,允许代理批准较少的解决方案或不批准任何解决方案。 更动态的批准机制可能会表现出更好的情境绩效,尤其是在具有明确参考的任务上。

3.3.2 共识

生成性任务可以通过协作创建草稿来解决。 直觉是通过考虑多个代理创建草稿的想法来产生更好的解决方案。 共识与投票不同,因为不是从一组草案中选择最佳解决方案,而是对当前草案进行细化,直到满足共识要求。

一致性。 当重复提示一个或多个代理执行同一任务时,可以获得一组可能的解决方案。 自我一致性[61]采用可能的解决方案并检查它们的一致性。 选择最一致的解决方案,即与所有其他解决方案最相似的解决方案作为最终答案。 虽然自我一致性[61]最初是使用单代理LLM提出的,但这种机制也可以应用于多代理系统[59]。

迭代。 迭代共识不是一次生成多个解决方案,而是连续提出新的解决方案。 因此,通过持续的讨论来完善输出,直到满足一定数量的代理为止。 这个想法被用于诸如 Solo Performance Prompting [63] 之类的提示技术和像 PEER [46] 这样的协作模型。 思想交流 [71] 和 Chen 等人。 [5] 在多智能体讨论期间执行迭代共识,同时利用试图相互说服的各种模型。

3.3.3 树搜索

在讨论过程中,特工们针对问题提出了几种解决方案。 从集合中选择最好的一个并不是一件小事。 讨论过程中提出的各种解决方案可以绘制为决策树,并且存在多种方法来遍历该树以获得最佳解决方案。 陈等人。 [7] 强调了多智能体LLM的树搜索方法带来的效率问题。 由于探索率较高,最终解决方案的生成速度可能会慢很多倍,从而阻碍了其实际应用。 因此,搜索树的方法对于效率和性能至关重要。

评论家。 李等人。 [31]使用循环评论家来选择所谓的最佳草稿。 在每个回合中,代理都会制定一组可能的解决方案。 批评者可以是有提示的LLM或人类,然后选择最佳解决方案。 胡等人。 [22]采用树规划器来解决多步骤任务。 树规划器在执行之前生成多个任务计划。 如果任务规划器在遍历决策树时遇到错误,它将继续在前一个分叉节点处遍历树。 这两种变体都不同于蒙特卡罗树搜索[48]等启发式方法,因为批评者的选择标准是基于即时工程或人类偏好。

启发式。 多智能体对话的决策树也可以进行启发式探索。 使用启发式方法,不需要额外的模型来遍历树。 周等人。 [75]使蒙特卡罗树搜索[48]适应多智能体设置,并通过利用和探索率控制问题解决过程。 具体来说,它们连续执行六个步骤(选择、扩展、评估、模拟、反向传播和反射),直到任务完成或达到极限。 还有其他一些努力利用已知的树搜索算法进行多智能体交互,例如波束搜索[66]或最佳优先树搜索[28]。 虽然这些算法在性能和速度上有所不同,但它们仍然适合该类别,因为一般概念仍然是对树的启发式探索。

4 Methodology

我首先解释我的方法背后的原因。 为了回答研究问题并进行相关实验,需要一个进行多智能体讨论的环境。 为了填补这一空白,我提出了一个新颖的框架,可以使用多代理LLM进行实验。 我详细介绍了我的实验的代理设置、讨论范式和决策。 此外,我还提供了有关所使用的数据集和指标的详细信息。

任务绩效。 本研究重点关注多主体LLM的优势、劣势和特征。 因此,我设计了一些实验来分析对话方案和有关话语的其他潜在影响特征。 讨论格式如何影响多代理对话的问题仍然悬而未决。 因此,我在四种通信范式下评估多代理LLM,每种范式的顺序和代理之间对信息的访问都有所不同。 为了验证多智能体系统的好处,我直接将这些范式与具有 CoT 的单个 LLM 进行比较 [64]。 在所有实验过程中,我都会特别关注这些范式所表现出的差异,因为对这些方案的深刻理解可以提高对现有系统的了解,并促进新型通信范式的开发。 此外,它们与 CoT 的直接比较可以让我们深入了解多智能体系统的优势,以及哪些任务应该由单个LLM来解决。

讨论趋同。 多主体通信的内在特征仍未得到充分探索。 其他研究侧重于最大限度地提高特定任务的绩效 [54,67,74]。 为了更深入地了解讨论如何展开,我评估了多智能体话语的融合,查看智能体达成共识之前的轮次和交换消息的数量。 我还对多智能体系统是否能够通过基于共识的决策动态适应问题的复杂性感兴趣。 为此,我直接观察单个LLM得分较低的样本是否也是讨论时间较长的样本。 我期望找到对话范式之间收敛速度的差异,并量化多代理LLM的适应性。 此外,某些任务可能受益于某些范例的结构特征,例如轮流顺序或代理之间对信息的访问。 这些实验可以深入了解与成功使用多代理LLM相关的关键特征。

代理的影响。 我对个体代理如何影响对话进程感兴趣。 为此,我通过比较用中立草案提议者替换一名专家之前和之后的表现来测试具有专家角色的单个代理对决策过程的影响有多大[9]。 为了测试专家角色代理是否可以作为一个有用的工具来引发多代理系统的参与写作,我测量了删除一个角色之前和之后最终输出的词汇多样性。 这可能对改进当前的开放任务系统具有洞察力,这些系统受益于创意写作等引人入胜的写作风格[63]。 此外,我对个体代理如何根据其在范式中的位置影响讨论过程感兴趣。 因此,我展示了通过另一个LLM自动分配生成的角色,并根据其在范式中的位置评估其生成长度。 虽然我希望看到特定于任务的结果对具有专家角色的单个代理的影响,但范式中单个代理的位置可能会显示生成的消息长度的一些不平衡,当需要相当平衡的对话时可能是相关的。 通过量化代理人的整体和个人影响,我的目的是展示他们如何影响讨论的进程。

4.1 MALLM Framework

我提出了一个处理多代理讨论的开源框架,称为 MALLM(多代理 LLM)。 MALLM 提供可定制和模块化的界面来研究多代理LLM的特征和组件。 可以通过更改简单参数或定义自定义子类来测试新颖的想法。 提示模板旨在支持各种任务,只要它们附带说明即可。 同时,由于并行 API 调用,该框架具有防错性、高效性,并且具有自己的集成评估管道。 MALLM 最初附带了本研究所需的所有核心组件(参见图 2 中带下划线的组件)。 我的目标是不断改进和扩展框架的功能(第 6.2 节)。 由于 MALLM 是开源的,其他研究人员也可以在 GitHub 存储库中贡献和改编该框架4。

总体而言,MALLM 具有三个主要组件,为代理、讨论范式和决策协议提供模块化且可扩展的接口。 首先,MALLM 可以创建具有角色的代理来讨论可能的解决方案。 这些角色可以通过另一个LLM自动生成。 其次,MALLM 允许执行各种讨论范式。 这些依次在代理之间的信息顺序和可见性方面有所不同。 在回合制讨论期间,每个代理通过发送消息并表明他们同意当前解决方案来做出贡献。 第三,MALLM 包括一个决策协议,该协议在每条消息之后按照预定义的规则(例如投票、共识)检查所有代理之间是否达成一致。 这确保了讨论在适当的点终止并向用户提供最终解决方案。 这三个组成部分构成了协作解决问题的多智能体讨论。 本工作中使用的讨论的基本过程如下:

(1)自动确定适合任务和示例的专家角色来初始化代理。
(2) 代理人讨论解决例题。 CoT 会提示他们提供有关当前解决方案的反馈、提出改进意见并表明他们同意(不同意)。
(3) 在每条消息后检查代理之间是否达成共识,如果找到最终解决方案则终止讨论。

最近提出的其他框架侧重于多模式支持的生产使用[13]、灵活的对话模式[65]或模拟软件公司的参与者[20]。 MALLM 因其模块化和综合性而补充了这些工作。 只要提供任务指令,这种新颖的框架就可以应用于任何有关文本问题解决的任务。 其他框架倾向于提供固定的讨论模式或决策协议。 MALLM 与这些作品的不同之处在于提供有关代理、讨论格式和决策的完全可定制性。 这有助于对多智能体LLM进行对话式问题解决的复杂研究,使该框架专门针对研究人员。

4.1.1 设置

我使用 MALLM 框架在 8 个 40 GB Nvidia A100 GPU 上以 meta-llama/Meta-Llama-3-70B-Instruct 作为模型运行所有实验。 我在附录 A 和附录 G 中提供了所有参数和提示的完整列表。

自动角色分配。 与 MALLM 的讨论使用特定于任务和示例的代理角色。 由于为每个示例手动指定有用的角色是不可行的,因此我自动分配可以促进丰富讨论的角色。 为此,我明确提示另一个 LLM (meta-llama/Meta-Llama-3-70B-Instruct) 为每个示例生成一组不同的三个专家角色。 这就产生了一组代表不同信念、观点和熟练程度的专家。 自动角色分配的提示可参见附录 G.4。 我的方法遵循之前的工作,例如 Solo-Performance-Prompting [63] 和 Meta-Prompting [54],这些工作表明可以利用现有的 LLM 来自动生成和咨询适合问题的角色。 继之前的工作 [5, 71] 之后,我在本研究中使用了三个代理,因为结构复杂性优于两个代理,同时又不会太复杂而无法提供有意义的见解。 虽然其他作品使用了不同类型的人物角色,例如人物 [47],但本作品中生成的人物角色是与任务和示例相关的专家。

讨论范式。 为了定义多智能体讨论的结构,我使用 Yin 等人提出的讨论范式。 [71]。 这些被称为记忆、报告、接力和辩论。 图 3 以图形方式显示了它们的结构差异。 表 4 更详细地概述了代理的轮流顺序和信息访问权限。 虽然定义话语结构的方法可能有很多,但我选择这四种范式,因为它们在顺序和信息可见性方面有所不同。 例如,在记忆范式中,所有代理每轮都会参与讨论一次,并拥有所有可用信息。 报告范式有两个从不交换消息的代理,并且只有一个中央代理拥有所有可用信息。 通过选择四种讨论范式的多样化选择,这项工作不同于其他研究 [20,46,47],这些研究通常在单一固定的讨论格式上评估他们的系统。 孙等人。 [51]提供了另外三种讨论范式。 然而,它们的代理数量不同,这就是为什么它们不能轻易应用于我们的具有三个代理的范例。 因此,它们对于本研究来说是不可行的,因为我的目标是找到不同讨论形式产生的特征,而不是代理人的数量。 选择记忆、接力、报告和辩论作为本研究的讨论范式,很有可能识别出依赖于对话方案的特征。

共识决定。 类似共识的决策机制允许动态结束讨论,并向用户提供最终解决方案。 我选择这种迭代共识方法是因为它普遍适合我对生成和 QA 任务的多样化选择。 系统会提示代理在每条消息中表明他们是否同意。 提示见附录 G.2。 然后我通过正则表达式文本匹配提取他们的协议。 为了达成共识,所有特工必须就前五轮选秀达成一致。 第五轮后,只需多数人同意即可,直至讨论结束。 在极少数情况下,代理人无法达成共识,我会在七轮后终止讨论,并使用最新的草案作为解决方案。 这种灵活的决策协议遵循 Yin 等人的观点。 [71],他们称之为多数共识机制。 这项研究采用多数共识,与其他研究不同,其他研究要么根本不采用任何决策[46],要么使用法官代理人做出最终决定[51]。

在这里插入图片描述

图 3.MALLM 的功能应用于我的实验。 首先,MALLM 自动确定三个角色。 然后,每个角色在四种范式(结构通信方案)之一下为多智能体讨论做出贡献。 每次贡献后,决策机制都会检查是否达成共识。

4.2 Datasets

受文本生成分类法的启发,我选择了一组多样化的生成任务 [3]。 使用的数据集列于表1中。具体来说,我选择XSum [39]数据集进行摘要,并选择WMT19德语-英语数据集[11]进行翻译。 我使用 ETPC [4, 29] 的释义对包括释义类型生成 [58] 的任务。 与总结等已建立的任务相比,这种更利基的任务在更具体的场景中测试多代理系统的能力[39]。 我还包括三个不同的 QA 数据集:SQuAD 2.0 [44]、简单道德问题 [16] 和 StrategyQA [15],以评估 MALLM 的独特需求(即提取能力、道德一致性、推理)。 我在附录 G.1 的表 18 中列出了用于提示的任务说明列表。 以前的作品将多智能体研究重点放在特定应用上,例如故事写作 [63] 或推理任务 [5, 71],突出了多智能体系统最有效的地方。 我与这些工作的不同之处在于,我选择了一系列不同的任务来量化多代理系统在哪些场景下工作以及在哪些场景下失败。 所选数据集可以提供多智能体系统功能的全面评估。

由于讨论需要生成许多令牌并且计算资源有限,因此仅评估数据集的子集。 我通过 95% 的置信区间和 5% 的误差幅度 (

标签:Conversational,讨论,Multi,范式,代理,Agent,智能,任务,LLM
From: https://blog.csdn.net/qq_29868553/article/details/144518361

相关文章

  • 时间序列预测论文讲解-[ICLR 2024]TIMEMIXER: DECOMPOSABLE MULTISCALE MIXING FOR TI
    [ICLR2024]TIMEMIXER:DECOMPOSABLEMULTISCALEMIXINGFORTIMESERIESFORECASTING研究背景与动机模型和方法多尺度混合架构Past-Decomposable-Mixing(PDM)块Future-Multipredictor-Mixing(FMM)块代码思考参考文献:图片来源:代码来源:研究背景与动机现有方法的......
  • 使用Maven打包javaagent.jar
    1、简介        javaagent 是Java1.5之后引入的新特性,其主要作用是在class被加载之前对其拦截,以插入我们的字节码。java1.5之前使用的是JVMTI(jvmtoolinterface)技术来实现对class的拦截,不过这个是用C++编写的,比如debug功能就是用这个技术实现的。2、jar......
  • 【深度学习|Transformer学习】 多头自注意力机制(Multi-Head Self-Attention)解析,多头自
    【深度学习|Transformer学习】多头自注意力机制(Multi-HeadSelf-Attention)解析,多头自注意力机制中的QKV分别指的是什么?各有什么作用?你知道吗?【深度学习|Transformer学习】多头自注意力机制(Multi-HeadSelf-Attention)解析,多头自注意力机制中的QKV分别指的是什么?各有什么作......
  • Agentic Design Patterns
    AgenticDesignPatternshttps://www.deeplearning.ai/the-batch/how-agents-can-improve-llm-performance/?ref=dl-staging-website.ghost.io Reflection:TheLLMexaminesitsownworktocomeupwithwaystoimproveit. ToolUse:TheLLMisgiventoolssuch......
  • 【大模型应用开发 动手做AI Agent】结合语言交互能力和多模态能力
    【大模型应用开发动手做AIAgent】结合语言交互能力和多模态能力关键词:大模型,语言交互,多模态,多任务学习,ReinforcementLearning,深度学习,技术栈,代码实现,实际应用1.背景介绍1.1问题由来随着深度学习和大模型技术的发展,大模型如GPT、BERT等在自然语言处理(NLP......
  • 【大模型应用开发 动手做AI Agent】Gartner的8项重要预测
    【大模型应用开发动手做AIAgent】Gartner的8项重要预测1.背景介绍1.1问题由来人工智能(AI)正在以前所未有的速度发展和应用,尤其是在企业级应用中,AI技术的价值越来越受到重视。但是,如何将复杂的AI模型开发和部署落地,仍然是一个不小的挑战。Gartner,作为全球领先的技术研......
  • 复现MSG:Multiview Scene Graph (NeurIPS 2024)需要的工程知识
    复现项目需要的步骤指南涵盖了环境搭建、数据集准备、模型推理和训练的流程:1.克隆项目代码首先从官方仓库克隆代码:gitclonehttps://github.com/ai4ce/MSG.gitcdMSG2.配置运行环境项目提供了两种方式来设置运行环境,推荐使用environment.yml方法,以确保完整的环境依......
  • 基于Multisim洗衣机控制设计电路的设计(含仿真和报告)
    【全套资料.zip】洗衣机控制设计电路设计Multisim仿真设计数字电子技术文章目录功能一、Multisim仿真源文件资料下载【Multisim仿真+报告+讲解视频.zip】功能(1)实现洗衣机功能,包括定时器,正转、反转、暂停的控制。(2)采用数码管用于显示定时时间,显示时间可以设置。(3......
  • 基于Multisim洗衣机控制电路的设计(含仿真和报告)
    【全套资料.zip】洗衣机控制电路设计Multisim仿真设计数字电子技术文章目录功能一、Multisim仿真源文件资料下载【Multisim仿真+报告+讲解视频.zip】功能(1)实现洗衣机功能,包括定时器,加水、洗衣粉、洗涤、排水、甩干的控制。(2)采用四个数码管用于显示定时的分钟数和......
  • PydanticAI --- Agent Framework / shim to use Pydantic with LLMs
    PydanticAIhttps://ai.pydantic.dev/PydanticAIisaPythonagentframeworkdesignedtomakeitlesspainfultobuildproductiongradeapplicationswithGenerativeAI.PydanticAIisaPythonAgentFrameworkdesignedtomakeitlesspainfultobuildproduc......