如何选择一个最强大模型-看最硬核排名了！

时间：2024-05-26 09:58:02浏览次数：26

Chatbot Arena由伯克利大学主导团队 LMSYS Org 发布了一个针对大语言模型的基准平台 Chatbot Arena。该平台采用匿名、随机的方式让不同的大模型产品进行对抗评测，基于国际象棋等竞技游戏中广泛使用的埃洛等级分系统，通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天，并让用户在匿名的情况下选择哪款大模型产品的表现更好一些。最后系统根据用户的选择判定大模型产品的积分，以排行榜的形式出现在首页中。

现已有1170955匿名投票，99个大模型参与排名，并有越来越多人开始在该平台为不同的大模型产品投票。

Chatbot Arena发布一个更新的排行榜，其中包含更多模型和两个数据集，用于人类偏好相关研究，最新榜单地址：

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

1、最新排名（2024年5月20日）及关键指标解读

Arena Elo评分系统：原来是一种评估玩家相对技能水平的方法，广泛应用于竞技游戏和体育运动中。在Chatbot Arena的上下文中，这个系统被用来评估大型语言模型（LLM）的性能。Chatbot Arena通过众包的形式，采用匿名、随机的方式对不同的LLMs进行打分。这意味着用户可以对同一个问题的不同模型进行投票，赢得的模型可以获得一定的分数，因此，这个分数越高，模型效果越好。

95%CI：提供了一个关于Elo得分准确性的估计范围，帮助理解这些得分是如何反映模型实际性能的。

License:最常见的Proprietary（专有），创建者保留了所有的权利，没有公开发布其源代码或不允许他人自由使用、修改或分发；其次还有CC-BY-NC-4.0（创作共用-署名-非商业性使用4.0国际），广泛使用的创作共用许可协议；还有就是如Llama 3 Community 许可协议（ Meta AI 公司发布的开源许可协议）

Knowledge cutoff：代表了AI模型数据最后一次更新的时间点，如排名第一的GPT-4O模型knowledge cutoff是2023年10月，那么它对于2023年10月之后发生的事情就没有知识了。这对于评估和使用基于AI的系统尤其重要，因为它直接影响到模型的有效性和可靠性。

2、评测基本过程

Chatbot Arena借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对，以匿名模型的形式呈现在用户面前；随后号召真实用户输入自己的提示词，在不知道模型型号名称的前提下，由真实用户对两个模型产品的作答给出评价。

在盲测平台https://arena.lmsys.org/上，大模型们两两相比，用户自主输入对大模型的提问，模型A、模型B两侧分别生成两PK模型的真实结果，用户在结果下方做出投票四选一：A模型较佳、B模型较佳，两者平手，或是两者都不好。提交后，可进行下一轮PK。

3、数据集

3.1 33K聊天机器人竞技场对话数据

链接：lmsys/chatbot_arena_conversations

该数据集包含23年4月至6月在Chatbot Arena上收集的33000个已清理的对话，这些对话具有成对的人类偏好。每个示例包括两个模型名称、其完整的对话文本、用户投票、匿名用户ID、检测到的语言标签、OpenAI审核API标签、额外的有毒标签和时间戳。

为了确保数据的安全发布，我们试图删除所有包含个人身份信息（PII）的对话。此外，我们还包括了OpenAI审核API输出，以标记不适当的对话。然而，我们选择不删除所有这些对话，以便研究人员可以研究与野外LLM使用相关的安全相关问题以及OpenAI审核过程。例如，我们包括了由我们自己的有毒标记器生成的其他有毒标签，这些标签是通过在手动标记的数据上微调T5和RoBERTa来训练的。

3.2 3K MT-bench人类注释
链接：lmsys/mt_bench_human_judgments

除了与Chatbot Arena进行众包评估外，我们还使用MT-bench进行了受控的人类评估。
该数据集包含3.3K专家级配对人类偏好，用于6个模型为响应80个MT工作台问题而生成的模型响应。6种型号是GPT-4、GPT-3.5、Claud-v1、Vicuna-13B、羊驼-13B和LLAMA-13B。注释员大多是在每个问题的主题领域具有专业知识的研究生。

标签：Arena,模型,用户,匿名,对话,排名,Chatbot,硬核
From： https://blog.csdn.net/robinfang2019/article/details/139186650

大语言模型LLM 相关知识汇总
大型语言模型（LLM）在设计和应用时需要遵守一系列的道德和法律标准，以确保不会输出不当内容。以下是一些LLM通常不应该对外输出的内容类型：个人隐私信息：包括但不限于个人身份信息（PII），如姓名、地址、电话号码、电子邮件地址、社会安全号码等。敏感数据：任何可能涉及国家安全、商业......
网络模型-策略路由配置
在实际网络应用中，策略路由也是一种重要的技术手段。尽管在考试并不注重策略路由，但是实际上应用较多建议考生除了掌握基本的静态路由协议IProute-static，动态路由协议RIP、还要掌握如何配置策略路由。策略路由的基本原理:根据ACL定义的不同数OSPF的基础配置外，据......
昇腾开发全流程之 MindSpore华为云模型训练
前言学会如何安装配置华为云ModelArts、开发板Atlas200IDKA2，并打通一个训练到推理的全流程思路。在本篇章，首先我们开始进入训练阶段！训练阶段A.环境搭建MindSpore华为云模型训练Step1创建OBS并行文件登录华为云->控制台->左侧导航栏选择“对象存储服务OBS”......
如何使用 Channel 类来创建一个生产者-消费者模型
如何使用Channel类来创建一个生产者-消费者模型.NET中Channel类简单使用 Channel是干什么的TheSystem.Threading.Channelsnamespaceprovidesasetofsynchronizationdatastructuresforpassingdatabetweenproducersandconsumersasynchronously.Theli......
免费撸gpt-4o和各种大模型实用经验分享
项目Github:https://github.com/MartialBE/one-api先贴两张图：说明免费撸AI大模型,各位可以对照下面我给出的大模型记录表来填，key需要自己去拿，国内都需要手机号验证，如果你不介意。另外我在自己的博客放出免费API给大家使用，需要说明的是，每家大模型提供商给的免费额度都......
鸿蒙HarmonyOS实战-Stage模型（进程模型）
......
产品经理如何学习大模型？——从“小白”到“大牛”的奇幻旅程
引言在这个由数据驱动的时代，产品经理们面临着一个全新的挑战——大模型。想象一下，你是一名产品经理，站在一个由代码和算法构成的神秘岛屿前，准备开始一场探索之旅。这场旅程不仅需要勇气，还需要智慧和耐心。那么，如何从一个对大模型一无所知的“小白”成长为一个精通此道的“大......
如何让大模型更聪明？——从理解力、泛化能力到适应性的全面升级
随着人工智能技术的飞速发展，大规模预训练模型已经成为推动行业进步的关键力量。这些“大模型”在自然语言处理、计算机视觉乃至跨模态任务上展现出了前所未有的能力。然而，追求更高级别的智能——即提升模型的理解力、泛化能力和适应性，是当前研究的热点。本文将深入探讨实现这......
[前端]盒子模型
margin:外边距padding:内边距border:边框盒子的计算方式:这个元素到底又多大margin+border+padding+内容宽度外边距可能的值值说明auto设置浏览器边距。这样做的结果会依赖于浏览器length定义一个固定的margin（使用像素，pt，em等）%定义一个使用百分比......
草图大师怎么去画好一个建筑别墅su模型呢？
其实，我们经常画别墅的时候，都会要画别墅，我们画一个欧式风格的别墅，要在草图大师中创建一个优秀的建筑别墅模型，可以按照以下步骤进行：skp模型库1.收集参考资料：在开始之前，收集一些建筑别墅的照片、平面图和立面图等参考资料。这将有助于你更好地理解建筑的结构、风格和细节。......

如何选择一个最强大模型-看最硬核排名了！

1、最新排名（2024年5月20日）及关键指标解读

2、评测基本过程

3、数据集

3.1 33K聊天机器人竞技场对话数据

3.2 3K MT-bench人类注释
链接：lmsys/mt_bench_human_judgments

相关文章

赞助商

阅读排行

如何选择一个最强大模型-看最硬核排名了！

1、最新排名（2024年5月20日）及关键指标解读

2、评测基本过程

3、数据集

3.1 33K聊天机器人竞技场对话数据

3.2 3K MT-bench人类注释链接：lmsys/mt_bench_human_judgments

相关文章

赞助商

阅读排行

3.2 3K MT-bench人类注释
链接：lmsys/mt_bench_human_judgments