首页 > 其他分享 >如何选择一个最强大模型-看最硬核排名了!

如何选择一个最强大模型-看最硬核排名了!

时间:2024-05-26 09:58:02浏览次数:26  
标签:Arena 模型 用户 匿名 对话 排名 Chatbot 硬核

Chatbot Arena由伯克利大学主导团队 LMSYS Org 发布了一个针对大语言模型的基准平台 Chatbot Arena。该平台采用匿名、随机的方式让不同的大模型产品进行对抗评测,基于国际象棋等竞技游戏中广泛使用的埃洛等级分系统,通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些。最后系统根据用户的选择判定大模型产品的积分,以排行榜的形式出现在首页中。

现已有1170955匿名投票,99个大模型参与排名,并有越来越多人开始在该平台为不同的大模型产品投票。

Chatbot Arena发布一个更新的排行榜,其中包含更多模型和两个数据集,用于人类偏好相关研究,最新榜单地址:

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard 

 1、最新排名(2024年5月20日)及关键指标解读

Arena Elo评分系统原来是一种评估玩家相对技能水平的方法,广泛应用于竞技游戏和体育运动中。在Chatbot Arena的上下文中,这个系统被用来评估大型语言模型(LLM)的性能。Chatbot Arena通过众包的形式,采用匿名、随机的方式对不同的LLMs进行打分。这意味着用户可以对同一个问题的不同模型进行投票,赢得的模型可以获得一定的分数,因此,这个分数越高,模型效果越好。

95%CI提供了一个关于Elo得分准确性的估计范围,帮助理解这些得分是如何反映模型实际性能的。

License:最常见的Proprietary(专有),创建者保留了所有的权利,没有公开发布其源代码或不允许他人自由使用、修改或分发;其次还有CC-BY-NC-4.0(创作共用-署名-非商业性使用4.0国际),广泛使用的创作共用许可协议;还有就是如Llama 3 Community 许可协议( Meta AI 公司发布的开源许可协议)

Knowledge cutoff:代表了AI模型数据最后一次更新的时间点,如排名第一的GPT-4O模型knowledge cutoff是2023年10月,那么它对于2023年10月之后发生的事情就没有知识了。这对于评估和使用基于AI的系统尤其重要,因为它直接影响到模型的有效性和可靠性。

2、评测基本过程

Chatbot Arena借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对,以匿名模型的形式呈现在用户面前;随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价。

在盲测平台https://arena.lmsys.org/上,大模型们两两相比,用户自主输入对大模型的提问,模型A、模型B两侧分别生成两PK模型的真实结果,用户在结果下方做出投票四选一:A模型较佳、B模型较佳,两者平手,或是两者都不好。提交后,可进行下一轮PK。

3、数据集

3.1  33K聊天机器人竞技场对话数据

链接:lmsys/chatbot_arena_conversations

该数据集包含23年4月至6月在Chatbot Arena上收集的33000个已清理的对话,这些对话具有成对的人类偏好。每个示例包括两个模型名称、其完整的对话文本、用户投票、匿名用户ID、检测到的语言标签、OpenAI审核API标签、额外的有毒标签和时间戳。

为了确保数据的安全发布,我们试图删除所有包含个人身份信息(PII)的对话。此外,我们还包括了OpenAI审核API输出,以标记不适当的对话。然而,我们选择不删除所有这些对话,以便研究人员可以研究与野外LLM使用相关的安全相关问题以及OpenAI审核过程。例如,我们包括了由我们自己的有毒标记器生成的其他有毒标签,这些标签是通过在手动标记的数据上微调T5和RoBERTa来训练的。

3.2 3K MT-bench人类注释
链接:lmsys/mt_bench_human_judgments 

除了与Chatbot Arena进行众包评估外,我们还使用MT-bench进行了受控的人类评估。
该数据集包含3.3K专家级配对人类偏好,用于6个模型为响应80个MT工作台问题而生成的模型响应。6种型号是GPT-4、GPT-3.5、Claud-v1、Vicuna-13B、羊驼-13B和LLAMA-13B。注释员大多是在每个问题的主题领域具有专业知识的研究生。

标签:Arena,模型,用户,匿名,对话,排名,Chatbot,硬核
From: https://blog.csdn.net/robinfang2019/article/details/139186650

相关文章

  • 大语言模型LLM 相关知识汇总
    大型语言模型(LLM)在设计和应用时需要遵守一系列的道德和法律标准,以确保不会输出不当内容。以下是一些LLM通常不应该对外输出的内容类型:个人隐私信息:包括但不限于个人身份信息(PII),如姓名、地址、电话号码、电子邮件地址、社会安全号码等。敏感数据:任何可能涉及国家安全、商业......
  • 网络模型-策略路由配置
            在实际网络应用中,策略路由也是一种重要的技术手段。尽管在考试并不注重策略路由,但是实际上应用较多建议考生除了掌握基本的静态路由协议IProute-static,动态路由协议RIP、还要掌握如何配置策略路由。策略路由的基本原理:根据ACL定义的不同数OSPF的基础配置外,据......
  • 昇腾开发全流程 之 MindSpore华为云模型训练
    前言学会如何安装配置华为云ModelArts、开发板Atlas200IDKA2,并打通一个训练到推理的全流程思路。在本篇章,首先我们开始进入训练阶段!训练阶段A.环境搭建MindSpore华为云模型训练Step1创建OBS并行文件登录华为云->控制台->左侧导航栏选择“对象存储服务OBS”......
  • 如何使用 Channel 类来创建一个生产者-消费者模型
    如何使用Channel类来创建一个生产者-消费者模型.NET中Channel类简单使用 Channel是干什么的TheSystem.Threading.Channelsnamespaceprovidesasetofsynchronizationdatastructuresforpassingdatabetweenproducersandconsumersasynchronously.Theli......
  • 免费撸gpt-4o和各种大模型实用经验分享
    项目Github:https://github.com/MartialBE/one-api先贴两张图:说明免费撸AI大模型,各位可以对照下面我给出的大模型记录表来填,key需要自己去拿,国内都需要手机号验证,如果你不介意。另外我在自己的博客放出免费API给大家使用,需要说明的是,每家大模型提供商给的免费额度都......
  • 鸿蒙HarmonyOS实战-Stage模型(进程模型)
    ......
  • 产品经理如何学习大模型?——从“小白”到“大牛”的奇幻旅程
    引言在这个由数据驱动的时代,产品经理们面临着一个全新的挑战——大模型。想象一下,你是一名产品经理,站在一个由代码和算法构成的神秘岛屿前,准备开始一场探索之旅。这场旅程不仅需要勇气,还需要智慧和耐心。那么,如何从一个对大模型一无所知的“小白”成长为一个精通此道的“大......
  • 如何让大模型更聪明?——从理解力、泛化能力到适应性的全面升级
    随着人工智能技术的飞速发展,大规模预训练模型已经成为推动行业进步的关键力量。这些“大模型”在自然语言处理、计算机视觉乃至跨模态任务上展现出了前所未有的能力。然而,追求更高级别的智能——即提升模型的理解力、泛化能力和适应性,是当前研究的热点。本文将深入探讨实现这......
  • [前端]盒子模型
    margin:外边距padding:内边距border:边框盒子的计算方式:这个元素到底又多大margin+border+padding+内容宽度外边距可能的值值说明auto设置浏览器边距。这样做的结果会依赖于浏览器length定义一个固定的margin(使用像素,pt,em等)%定义一个使用百分比......
  • 草图大师怎么去画好一个建筑别墅su模型呢?
    其实,我们经常画别墅的时候,都会要画别墅,我们画一个欧式风格的别墅,要在草图大师中创建一个优秀的建筑别墅模型,可以按照以下步骤进行:skp模型库1.收集参考资料:在开始之前,收集一些建筑别墅的照片、平面图和立面图等参考资料。这将有助于你更好地理解建筑的结构、风格和细节。......