首页 > 其他分享 >GPT-4o文科成绩超一本线,理科为何表现不佳?

GPT-4o文科成绩超一本线,理科为何表现不佳?

时间:2024-07-02 13:27:10浏览次数:19  
标签:理科 评测 模型 4o 豆包 GPT 成绩

目录

01 评测榜单

02 实际效果


什么?许多大模型的文科成绩竟然超过了一本线,还是在竞争激烈的河南省?

没错,最近有一项大模型“高考大摸底”评测引起了广泛关注。

河南高考文科今年的一本线是521分,根据这项评测,共有四个大模型的分数大于或等于这个分数,其中最值得关注的是前两名:

GPT-4o:562分

字节豆包:542.5分

……



从结果来看,GPT-4o依旧表现领先,而在国产大模型中,豆包的成绩尤为亮眼。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!官网有更详细介绍:WildCard


在语文和历史等科目上,豆包超越了GPT-4o。

这让不少网友感叹:

AI在文科成绩上表现如此出色,看来在处理语言和逻辑方面确实有优势。


不过,考虑到国产大模型的竞争如此激烈,这份评测的排名真的靠谱吗?



01 评测榜单


要回答这些问题,我们不妨先查一查豆包在最新的权威评测榜单中的表现是否一致。

首先来看由智源研究院发布的FlagEval(天秤)。

它的评测方式如下:



对于开源模型,FlagEval会综合概率选择和自由生成两种方式来评测;对于闭源模型,FlagEval只采用自由生成的方式来评测,两种评测方式的区别参照。

在主观评测时,部分闭源模型对极小部分题目有拒绝回答的情况,这部分题目并没有计入能力分数的计算。

在“客观评测”这个维度上,榜单成绩如下。



不难看出,在FlagEval的客观评测维度中,前四名的成绩与“高考大摸底”的名次一致。

大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。

并且豆包在“知识运用”和“数学能力”两个维度上的成绩还高于第一名的GPT-4。

如果将评测方式调整至“主观评测”,结果如下。

此时,百度的大模型跃居第一,而字节的豆包依旧稳居第二。

由此可见,无论是主观还是客观维度,前几位的名次都与“高考大摸底”的成绩相当接近。

02 实际效果

接下来的实际效果测试,采用“LLM链路+数学”的方式进行。

首先,试试这次的选择题:

把题目在PC端“喂”豆包之后,它的作答如下:

因此,豆包给出的答案是:

A、C、D、D、B、B、A、A

这里我们再来引入排名第一选手GPT-4o的作答:

A、D、B、D、C、A、C、B

对于更多的数学题的作答,其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试(所有大模型只能依靠LLM推理答题,不能通过RAG检索答案):

由此可见,大模型并不能完全应对高考数学题目,并且不同人生成的答案结果也会有所偏差。

反复测试后发现,在对话答题时存在一定的随机性,多轮测试的结果并不完全一致。上文仅展示了其中一轮的结果。

这也正如广大网友所反馈的那样——大模型在文科方面表现强劲,而在理科方面则相对较弱。


推荐阅读:

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

标签:理科,评测,模型,4o,豆包,GPT,成绩
From: https://blog.csdn.net/ElevenSakura/article/details/140111964

相关文章

  • git同一分支代码冲突 [GPT]
    问题描述李四和王五同时下载了dev分支代码,main.cpp代码为:#include<stdio.h>voidmain(void){ printf("hello");}李四修改代码后提交并push,李四修改的代码#include<stdio.h>voidmain(void){ printf("hello李四");}同时王五也修改了代码#include<stdio.h>voi......
  • 最新AI智能问答AI绘画ChatGPT系统、TTS & 语音识别,文档分析、GPT-4o多模态识图理解,一
    一、前言人工智能语言模型和AI绘画在多个领域都有广泛的应用。以下是一些它们的主要用处人工智能语言模型内容生成写作辅助:帮助撰写文章、博客、报告、剧本等。代码生成:自动生成或补全代码,提高编程效率。创意写作:生成故事、诗歌、歌词等创意性内容。对话系统客服系......
  • 英语背单词 专四词汇 2024年07月 ChatGPT
    2024-07-01IndexWordPronunciationPartsofSpeechExplanationTranslationinChinese1badge/bædʒ/nounAsmallobject,typicallyround,thatsignifiesmembership,achievement,orauthority.徽章;证章2milky/ˈmɪlki/adjectiveResemblingorco......
  • 最新AIGC系统源码-ChatGPT商业版系统源码,自定义ChatGPT指令Promp提示词,AI绘画系统,AI换
    目录一、前言系统文档二、系统演示核心AI能力系统快速体验三、系统功能模块3.1AI全模型支持/插件系统AI模型提问文档分析​识图理解能力3.2GPts应用3.2.1GPTs应用3.2.2GPTs工作台3.2.3自定义创建Promp指令预设应用3.3AI专业绘画3.3.1文生图/图生图(垫图)......
  • 开源项目相关:ChatGPT学习过程
    大规模无标注数据预训练:ChatGPT首先使用大规模的无标注数据进行预训练。例如,它可能使用了8.5亿对话对来学习对话的表达与交互方式。这一步主要依赖Transformer等神经网络结构,通过预测下一个词来学习语言的统计规律和语义知识。自监督学习:在预训练过程中,ChatGPT将对话划分为utt......
  • 【动画进阶】类 ChatGpt 多行文本打字效果
    今天我们来学习一个有意思的多行文本输入打字效果,像是这样:这个效果其实本身并非特别困难,实现的方式也很多,在本文中,我们更多的会聚焦于整个多行打字效果最后的动态光标的实现。也就是如何在文本不断变长,在不确定行数的情况下,让文字的最末行右侧处,一直有一个不断闪烁的光标效果:......
  • 完全离线的本地问答模型LocalGPT如何实现无公网IP远程连接提问
    文章目录前言环境准备1.localGPT部署2.启动和使用3.安装cpolar内网穿透4.创建公网地址5.公网地址访问6.固定公网地址前言本文主要介绍如何本地部署LocalGPT并实现远程访问,由于localGPT只能通过本地局域网IP地址+端口号的形式访问,实现远程访问还需搭配cpola......
  • GPT-4o模型到底有多强
    近年来,人工智能技术突飞猛进,在自然语言处理(NLP)和计算机视觉等领域取得了令人瞩目的成就。OpenAI推出的GPT-4o模型作为最新一代的语言模型,进一步提升了AI的能力,尤其在文档分析、识图生文、文生图等功能上展现出强大的应用潜力。本文将详细讲解GPT-4o模型的功能及其应用实例,帮助......
  • (五)DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
    DeepSpeedChat:一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍如需引用DeepSpeedChat,请引用我们的arxivreport:@article{yao2023dschat,title={{DeepSpeed-Chat:Easy,FastandAffordableRLHFTrainingofChatGPT-likeModelsatAllScales}},autho......
  • 【机器学习】自然语言处理的新前沿:GPT-4与Beyond
      ......