首页 > 其他分享 >Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions

Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions

时间:2024-06-11 13:03:04浏览次数:20  
标签:Arena Automating 训练 LLMs Auto LLM 评估

1. 引言

  • 大语言模型 (LLMs) 发展迅速,亟需可靠的评估方法。
  • 静态数据集存在污染风险,人工评估平台耗时费力。
  • 提出自动、可靠、可信的评估框架:Auto-Arena of LLMs (Auto-Arena)。
    2. 相关工作
  • 自动评估方法:静态数据集和基于模型的评估。
  • 人工评估平台:Chatbot Arena,存在耗时和语言限制等问题。
    3. Auto-Arena 框架
  • 问题生成:LLM 检验员生成多样化问题。
  • 同行辩论:候选 LLMs 之间进行多轮辩论,展示真实性能差距。
  • 委员会讨论:LLM 判委会集体讨论并确定获胜者,减少偏见。
    4. 使用 Auto-Arena 获取可靠排名
  • 实验设置:选择 17 个 LLMs 进行实验,并与静态数据集和基于模型的评估方法进行比较。
  • 结果:Auto-Arena 与人类偏好具有最高相关性,证明其有效性。
  • 消融实验:验证同行辩论和委员会讨论对评估质量的影响。
    5. 使用 Auto-Arena 构建 Leaderboard
  • 更新新模型:使用 Swiss 赛制和 ELO 评分系统更新排行榜。
  • 扩展到其他领域和语言:通过翻译提示和修改领域说明,Auto-Arena 可以轻松扩展到其他领域和语言。
    6. 探究 LLM 在竞争性同行辩论中的行为
  • 攻击对手:LLMs 能够发现对手弱点并进行针对性攻击。
  • 学习对手:LLMs 能够从对手的交互中学习并改进自身。
  • 展现性能差距:辩论过程能够更好地展示 LLMs 之间的性能差距。
    7. 结论
  • Auto-Arena 是一个完全自动的 LLM 评估框架,能够提供可靠、及时、可信的评估结果。
  • Auto-Arena 具有易于扩展和适应性强的特点,可以促进 AI 系统评估的公平性。
  • 同行辩论揭示了 LLMs 在竞争环境中的有趣行为,为未来学习范式提供了启示。
    附录
  • 提示示例
  • 生成的示例问题
  • 判决者一致性分析
  • 模型选择
  • 基准方法比较

Auto-Arena 中的 LLM 竞争行为为我们提供了关于 LLM 训练和应用的宝贵启示:
训练方面

  • 设计更具挑战性的训练数据:LLMs 在 Auto-Arena 中的竞争行为表明,它们能够识别并利用对手的弱点。因此,我们可以设计更具挑战性的训练数据,包含更多样化的问题和场景,以训练 LLMs 更好地应对各种挑战。
  • 引入竞争机制:在训练过程中引入竞争机制,让 LLMs 在相互竞争中学习和改进,可以有效地提升 LLMs 的性能和鲁棒性。
  • 强化学习和对抗训练:利用强化学习和对抗训练等技术,可以让 LLMs 在对抗环境中学习更有效的策略和技巧,从而提升其解决问题的能力。
    应用方面
  • 设计更公平的评价方法:Auto-Arena 的同行辩论机制能够更有效地展示 LLMs 之间的性能差距,这为设计更公平的 LLM 评价方法提供了启示。
  • 利用 LLMs 的竞争行为进行学习:我们可以利用 LLMs 的竞争行为,例如让 LLMs 从对手的交互中学习并改进自身,从而提升 LLMs 的性能和鲁棒性。
  • 开发多 LLM 协作应用:Auto-Arena 的委员会讨论机制表明,多个 LLMs 可以通过协作达成更一致的结论。我们可以开发基于多 LLM 协作的应用,例如让多个 LLMs 共同完成一项任务,从而提升任务的完成质量和效率。
    潜在风险
  • “军备竞赛”:LLMs 之间的竞争可能会导致“军备竞赛”,即 LLMs 不断追求更高的性能指标,而忽视了其他重要的因素,例如可解释性和安全性。
  • “对抗性攻击”:LLMs 之间的竞争可能会被恶意利用,例如攻击者可以利用 LLMs 的竞争行为来攻击其他 LLMs 或系统。
    总而言之,Auto-Arena 中的 LLM 竞争行为为 LLM 的训练和应用提供了新的思路和方法。我们需要谨慎地利用这些行为,并采取措施避免潜在的风险,才能更好地发挥 LLMs 的潜力

标签:Arena,Automating,训练,LLMs,Auto,LLM,评估
From: https://blog.csdn.net/weixin_32759777/article/details/139594454

相关文章

  • Unlearn What You Want to Forget Efficient Unlearning for LLMs
    目录概符号说明UnlearningLayersFusingUnlearningLayers代码ChenJ.andYangD.Unlearnwhatyouwanttoforget:efficientunlearningforllms.2024.概本文提出一种Unlearninglayer去帮助LLMs'遗忘'一些数据.符号说明\(F(\cdot)\),largelanguagemodel......
  • ProgGen: Generating Named Entity Recognition Datasets Step by step with Self Ref
    本文是LLM系列文章,针对《ProgGen:GeneratingNamedEntityRecognitionDatasetsStepbystepwithSelfReflexiveLargeLanguageModels》的翻译。ProgGen:使用自反射大型语言模型逐步生成命名实体识别数据集摘要1引言2相关工作3方法4实验5结论6局限性......
  • 通过劫持线程arena实现任意地址分配 n1ctf2018_null
    通过劫持线程arena,当堆开了一个线程之后,如果没有做好保护随之的危险也悄然而至❗BUU上的n1ctf2018_null很好的说明了这个问题题目链接:BUUCTF在线评测(buuoj.cn)看一下保护:除了pie保护剩下的保护全开了,64位ida载入看一下上来是一个输入密码,密码是i'mreadyforchallenge......
  • 如何使用 LangChain 构建基于LLMs的应用——入门指南
    大型语言模型(LLMs)是非常强大的通用推理工具,在各种情况下都非常有用。但是,与构建传统软件不同,使用LLMs存在一些挑战:调用往往是长时间运行的,并且随着可用输出而逐步生成输出。与固定参数的结构化输入(例如JSON)不同,它们采用非结构化和任意的自然语言作为输入。它们能够“理解”......
  • Prompt4Vis: Prompting LLMs with Example Mining and Schema Filtering for Tabular
    本文是LLM系列文章,针对《Prompt4Vis:PromptingLargeLanguageModelswithExampleMiningandSchemaFilteringforTabularDataVisualization》的翻译。Prompt4Vis:使用示例挖掘和模式过滤提示大型语言模型实现表格数据可视化摘要1引言2背景3PROMPT4VIS4......
  • 如何在本地使用Ollama运行开源LLMs
    本文将指导您下载并使用Ollama,在您的本地设备上与开源大型语言模型(LLMs)进行交互的强大工具。与像ChatGPT这样的闭源模型不同,Ollama提供透明度和定制性,使其成为开发人员和爱好者的宝贵资源。我们将探索如何下载Ollama并与两个令人兴奋的开源LLM模型进行交互:Meta的基于文本的模型L......
  • 7种RAG工具,让你的LLMs发挥最大效用
    公众号:Halo咯咯开源的检索增强型生成(RAG)模型随着对大型语言模型中增强功能需求的增长而变得越来越庞大。那它们是什么呢?RAG模型是密集检索(DPR)和序列到序列模型的结合。其设计目的是通过引入外部知识来增强LLMs的能力。这是通过检索与查询相关的文档,并使用这些文档来作为......
  • 【Coursera GenAI with LLM】 Week 2 Fine-tuning LLMs with instruction Class Notes
    GenAIProjectLifecycle:Afterpickingpre-trainedmodels,wecanfine-tune!In-contextlearning(ICL):zero/one/fewshotinference.Includingafewmodelsinthepromptformodeltolearnandgenerateabettercomplement(akaoutput).Itsdrawbacks......
  • AI推介-大语言模型LLMs论文速览(arXiv方向):2024.03.05-2024.03.10—(1)
    文章目录~1.EditingConceptualKnowledgeforLargeLanguageModels2.TRAD:EnhancingLLMAgentswithStep-WiseThoughtRetrievalandAlignedDecision3.AreYouBeingTracked?DiscoverthePowerofZero-ShotTrajectoryTracingwithLLMs!4.CanLLMSubstit......
  • 【每周一读】Automating Hyperparameter Tuning with LlamaIndex
    原文......