首页 > 其他分享 >多模态学习实战手册:读懂CompassRank榜单的评测指标!

多模态学习实战手册:读懂CompassRank榜单的评测指标!

时间:2024-04-05 10:32:57浏览次数:15  
标签:模态 榜单 评测 读懂 模型 CompassRank MMBench 性能

1. 前言

榜单链接:CompassRank

CompassRank 是一个中立且全面的性能榜单,作为大模型评测体系 OpenCompass2.0 中各类榜单的承载平台。它覆盖多领域、多任务下的模型性能,并定期更新,以提供动态的行业洞察。

CompassRank 保持中立性,不受任何商业利益干扰,并依托于 CompassKit 工具链体系中的各类评测手段,确保了其客观性。这个平台旨在帮助从业者理解技术深意,优化模型选择,并对大模型的技术创新提供坚实的技术支撑

编辑

2. 整体指标

  1. Method: 这列通常表示模型的名称和训练方法,包括模型架构、训练策略和可能的微调技术。
  2. Time: 在这个上下文中,时间可能指的是模型训练或推理的时间,但具体信息需要查看详细页面以获取准确数据。
  3. Params: 模型的参数数量,以百万(M)或十亿(B)为单位,表示模型的复杂度。
  4. Language Model: 语言大模型,如InternLM2、QwenLM等
  5. Vision Model: 视觉大模型如CLIP ViT-L/14、EVA-02-5B等
  6. Avg. Rank: 模型在所有列出的测试集上的平均排名,数值越小表示整体性能越好。
  7. Avg. Score: 模型在所有测试集上的平均得分,高分表示模型性能更优。

3. MMBench

  1. MMBench Test: MMBench测试集,一个多模态基准,用

标签:模态,榜单,评测,读懂,模型,CompassRank,MMBench,性能
From: https://blog.csdn.net/zengzizi/article/details/137250489

相关文章

  • 大厂级别交互设计秘籍:一篇读懂
    交互式设计属于UI设计之一,也是当今流行的设计之一。许多大型工厂非常需要交互式设计人才,这一趋势也引起了许多毕业生和UI设计爱好者的广泛关注,那么你知道大型工厂设计师必要的交互式设计是什么吗?这篇文章将带你了解。什么是交互设计交互设计又称交互设计。交互设计更受欢迎,即......
  • 聊聊多模态大模型处理的思考
    转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote多模态:文本、音频、视频、图像等多形态的展现形式。目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下,审视下多模态大模型的实现方式。首先就要区分输入与输出,即输入的模态与输出......
  • 一文让你读懂JavaScript原型对象与原型链的继承
    前言有些新手朋友可能听说过这么一句话,就是js中存在两个链条,它们分别为:作用域链和原型链它们彼此的区别在于作用域链是为了访问变量和数据而存在的一种链条访问机制而原型链是访问对象的属性或者方法而存在的一种机制!其中这里的原型链就是今天我要说的主题!我们学习js必须......
  • 解决长尾问题,BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法
    解决长尾问题,BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法理想汽车的工作,原文,BEV-CLIP:Multi-modalBEVRetrievalMethodologyforComplexSceneinAutonomousDriving链接:https://arxiv.org/pdf/2401.01065.pdf自动驾驶中对复杂场景数据的检索需求正在增加,尤其是随着......
  • EI级!高创新原创未发表!VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融
    EI级!高创新原创未发表!VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融合多头注意力机制多变量时间序列预测(Matlab)目录EI级!高创新原创未发表!VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融合多头注意力机制多变量时间序列预测(Matlab)预测......
  • 多模态大模型论文总结
    A survey of resource-efficient llm and multimodal foundation models大型基础模型,包括大型语言模型(LLM)、视觉变压器(ViT)、扩散和基于LLM的多模态模型,正在彻底改变从培训到部署的整个机器学习生命周期。然而,这些模型在多功能性和性能方面的实质性进步在硬件资源......
  • 实用crontab教程-一文读懂crontab
    文章目录Crontab是什么类似的工具有哪些Systemd(systemctl)Upstart(initctl)SysVinit(/etc/init.dscripts)作用用途:crontab的配置文件格式crontab表达式检查工具CrontabGuru:CronMaker:CronTabTool:运行身份原理:指定以特定用户身份运行:使用用户的crontab:使用系......
  • 一篇文章读懂@SpringBootApplication
    @SpringBootApplication基于springboot3.2和springframework6.1.4@SpringBootApplication的三大功能@SpringBootApplication是SpringBoot提供的一个方便的组合注解,用于简化SpringBoot应用程序的配置和启动。它combines了以下三个注解的功能:@Configuration......
  • 多模态 + 大模型会带来哪些 “化学反应”?
    导语:没人怀疑,2024年,AI依然将是科技界的主角。上个月,OpenAI推出了可以生成60秒高清视频的视频生成模型Sora,掀起了对多模态模型的进一轮讨论。多模态大模型技术的最新进展如何?这一波新技术,对于行业和消费者的体验会带来哪些变化?面对一波波快速、热闹的突破和变化,技术人员该如......
  • Sora爆火,多模态大模型背后的存算思考
        近日,随着OpenAI推出Sora,人工智能从文本到文本、文本到图片的生成模式,进阶到文生视频。其文本到视频的模型能够生成长达一分钟的视频,在保持视觉质量的同时并严格遵循用户的提示,使得“扔进一本小说,生成一部电影”的想法成为现实。OpenAI将这一创新描述为构建“物理世......