首页 > 其他分享 >首个AI高考全卷评测结果出分,大模型“考生”表现如何?

首个AI高考全卷评测结果出分,大模型“考生”表现如何?

时间:2024-06-22 11:59:27浏览次数:10  
标签:评测 AI 高考 出分 全卷 2024 Qwen2 开源 模型

内容提要

大部分大模型“考生”语文、英语科目表现良好,但在数学方面还有待加强。阅卷老师点评,在语文科目上,对于语言中的一些“潜台词”,大模型尚无法完全理解。在数学科目上,大模型的主观题回答相对凌乱,且过程具有迷惑性。

正文

6月19日,首个大模型高考全卷评测结果公布。2024年全国高考结束后,大模型开源开放评测体系——司南评测体系(OpenCompass)选取了6个开源模型包括GPT-4o,针对高考全国新课标I卷“语数外”三门课程展开全卷能力测试。

评测结果显示,阿里巴巴开源的Qwen2系列MoE对话模型(Qwen2-72B)、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,在语、数、英三门课程中得分均超过70分。大部分模型“考生”语文、英语科目表现良好,但在数学方面还有很大的提升空间。其中,书生·浦语2.0文曲星(InternLM2-20B-WQX)取得了数学单科的最高分,超越包括GPT-4o在内的所有模型。

司南评测体系OpenCompass是由上海人工智能实验室在去年7月的世界人工智能大会上推出,目前升级为OpenCompass2.0,构造了一套中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等方面。

大模型语言能力表现良好,但数学有待提高

司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型参与本次“大模型高考”评测。评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

评测模型包括:法国AI创业公司Mistral于2024年4月17日开源的对话模型(Mixtral 8x22B)、零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型(Yi-1.5-34B)、智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本(GLM-4-9B)、上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型(InternLM2-20B-WQX)、阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型(Qwen2-57B)、阿里巴巴于2024年6月6日开源的72B稠密模型(Qwen2-72B)。

上述模型的高考“语数外”三科成绩结果如下表所示:

测评的大模型语数外得分情况 来源:上海市人工智能实验室

总分前三名阿里巴巴开源的Qwen2系列MoE对话模型(Qwen2-72B)、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)对应得分率分别为72.1%、70.5%和70.4%。大部分模型在“语言”本质上的表现良好,语文平均得分为67分,英语更是达到了81分。

而数学则是所有大模型的短板,平均得分率仅为36%。得益于研究团队在数学推理上的投入,书生·浦语2.0文曲星(InternLM2-20B-WQX)取得了75分的最高分,超过所有受测模型。然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。

阅卷老师点评:大模型数学主观题回答凌乱

参与评测的所有开源模型,权重均在2024年6月7日高考题目公布前开源,避免了“数据污染”和“刷题”风险,与真实高考严格的“闭卷考试”一致,不存在“作弊”可能。

为贴近高考评卷模式,联合团队邀请多位具有阅卷经验的高中教师对模型主观题答案评分,每份考卷至少由3位教师分别打分。本次在完成所有大模型答卷的评卷工作后,研究人员同时邀请了各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。

阅卷教师认为,在语文科目上,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

在数学科目上,阅卷教师表示,大模型的主观题回答相对凌乱,而且过程具有迷惑性,甚至出现了过程错误但得到正确答案的情况。此外,大模型的公式记忆能力较强,但无法在解题过程中灵活引用。

相较于语文和数学,阅卷教师认为,在英语科目上大模型整体表现良好,但部分模型由于不适应题型,在七选五、完形填空题等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

联合团队认为,如同高考阅卷也存在细微差异,由于主观题类型的引入,本次评测也无法做到绝对的公平。

司南评测体系OpenCompass于2023年7月由上海人工智能实验室在世界人工智能大会上推出,目前升级为OpenCompass2.0,构造了一套中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等方面。

标签:评测,AI,高考,出分,全卷,2024,Qwen2,开源,模型
From: https://blog.csdn.net/Gabriel100yi/article/details/139877666

相关文章

  • MURF3040CTR-ASEMI智能AI应用MURF3040CTR
    编辑:llMURF3040CTR-ASEMI智能AI应用MURF3040CTR型号:MURF3040CTR品牌:ASEMI封装:TO-220F恢复时间:35ns最大平均正向电流(IF):30A最大循环峰值反向电压(VRRM):400V最大正向电压(VF):0.95V~1.90V工作温度:-50°C~150°C芯片个数:2芯片尺寸:mil正向浪涌电流(IFMS):300AMURF3040CTR特性:低正......
  • 服务器raid离线数据恢复
    服务器raid5两块硬盘离线数据恢复**IBM服务器故障:**一块硬盘红灯闪亮,机器还在正常运行,系统就不能正常运行,发现另一块硬盘的红灯闪烁。Raid5磁盘阵列离线数据恢复过程:1.启动服务器自检至阵列时按Ctrl+M进入NetRaid管理程序。查看阵列信息,发现硬盘下线,运用修改配置将一硬......
  • 服务器RAID6数据恢复
    服务器数据恢复环境:web服务器;8块容量500G的硬盘组成raid6磁盘阵列;存储数据:数据库服务器故障情况:raid6阵列中有两块硬盘离线后没有更换硬盘,等阵列中第三个硬盘离线,服务器崩溃。恢复后发现数据库因部分数据损坏无法使用,做二次恢复工作。服务器数据恢复过程:1、将所有服务器......
  • 在IdentityServer4生成的JWT中添加一个自定义的Claim,用于ABP框架中要用到的token信息
    用过IdentityServer4或者熟悉ASP.NETCore认证的都应该知道有Claim,如何理解ids4中的Claim?这里可以理解为声明,我们每个用户都有多个Claim,每个Claim声明了用户的某个信息比如:Role=Admin,UserID=1000等等,这里Role,UserID每个都是用户的Claim,都是表示用户信息的单元 ,我们不妨把它称为......
  • [题解]AT_abc225_d [ABC225D] Play Train
    题意给定\(N\)个小车,每个小车的编号分别为:\(1,2,\dots,N\)。现在有\(Q\)个操作,每个操作执行\(3\)种操作:1xy,将\(x\)和\(y\)相连。(\(y\)在\(x\)之后)2xy,将\(x\)和\(y\)的连接解除。3x,输出\(x\)所在链的长度,及其这条链中的所有元素。(从前往后)思路我......
  • [题解]AT_abc217_f [ABC217F] Make Pair
    思路区间DP好题,合并的时候十分毒瘤。首先,定义\(dp_{i,j}\)表示合并\([i,j]\)区间不同的方案的数量。不难发现,如果区间长度为奇数(即\(j-i+1\)为奇数),一定无法合并。然后,如果\(i,j\)是朋友关系,有\(dp_{i,j}=dp_{i+1,j-1}\)。接着,我们可以枚举一个中间点\(......
  • 文字游侠:一款全新AI写作模型,每天10分钟一键创作爆文!附渠道和玩法教程!
    在当今快节奏的社会中,虽然传统的工作可以满足我们基本的物质需求,但许多人内心深处渴望的是更高层次的精神满足。这就像是我们常说的:“工资可以喂饱肚子,副业可以养活灵魂。”这并不是鼓励大家辞去日常工作,而是提倡在保持稳定收入的同时,开启一项副业来追求个人的兴趣和梦想。毕......
  • AI在创造还是毁掉音乐?——探索人工智能对音乐创作的影响
    在当今数字化时代,人工智能(AI)技术的快速发展不仅改变了我们的生活方式和工作方式,也在音乐创作领域引发了广泛的讨论和热议。最近,随着各类音乐生成AI模型的涌现,人们开始探讨AI在音乐创作中的作用,以及它对传统音乐产业的潜在影响。方向一:整体介绍AI生成音乐的发展呈现出多个方......
  • FreeBSD通过CBSD管理低资源容器jail 网络NAT配置
    jail容器里的系统有时候并不需要公开的地址,所以给它们配置内网地址即可。但是这些系统一般都有上网的需求,这时候可以使用nat进行解决。CBSD可以配置NAT规则,只需要命令cbsdnatcfg,配置好后cbsdnaton启动即可:%cbsdnatcfgConfigureNATforRFC1918Network?[yes(1)orn......
  • 太牛了!AI换脸数字人,限制解除,免费用!
    哈喽,各位小伙伴们好,我是给大家带来各类黑科技与前沿资讯的小武。今天给大家安利一款美图公司出品的神器,功能限制完全解除,可以免费使用AI换脸数字人、AI提词器、AI脚本、AI抠图、AI清除、AI封面等超多超实用功能,有需要的朋友赶快先安排上!开拍软件介绍开拍App是由美图公司......