首页 > 其他分享 >GPT-4o Mini登顶大模型竞技场,奥特曼:两个月内微调免费

GPT-4o Mini登顶大模型竞技场,奥特曼:两个月内微调免费

时间:2024-07-27 19:29:02浏览次数:12  
标签:Mini 模型 4o OpenAI lmsys GPT 奥特曼

近日,GPT-4o Mini版迎来了“高光时刻”——

它在lmsys大模型竞技场中登顶,与满血版并列第一,把Claude 3.5甩在了身后。

不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。

这个成绩一出,连CEO奥特曼都激动起来了:

面对评估成绩,我们本来是尽量矜持的,但是看到GPT-4o Mini表现和满血版一样,价格却只有1/20,内心还是很激动。

网友看到之后表示OK,但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。

与此同时,OpenAI也送来了另一个好消息,将为开发者送出福利——

GPT-4o Mini的微调将逐步开放,目前已开放给Tier 4和Tier 5用户,然后会陆续扩展范围。

而且从即日起到9月23号,每天都能免费使用200万的训练token。

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

Mini与满血版平起平坐

经过80多款模型上百万轮的1v1比拼,GPT-4o Mini在lmsys榜单上的成绩与满血版只差7分。

按照lmsys榜单的排法,这7分的差距没有影响名次,把两个型号算作了并列第一。

紧随其后的是Claude 3.5和Gemini家族,还有GPT-4的另外两个版本。

如果我们查看GPT-4o Mini的原始数据,会发现它0.6的平均胜率仅次于满血版本。

单独看两者比拼的结果,同样是打得不相上下。

之所以lmsys的成绩受到关注,在于它拥有一套独特的比拼方式——

不用数据集,而是让用户自己出题,随机拉两个模型1对1 battle,然后选择哪个模型表现更好。

在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。

这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。

这个大模型竞技场,最近还登上了机器学习顶会ICML 2024。

而且,lmsys的评测也非常受OpenAI的青睐,GPT-4o Mini正式上线之前的早期版本,就曾化名为gpt-mini在其中打榜。当时就已经排行第4,和GPT-4 Turbo处在同一水平。

更早一些,GPT-4o上线之前也是化名gpt2-chatbot,在lmsys上搞起了测试。

不过也有人提出质疑,表示虽然GPT-4o Mini表现确实很好,但是要说它超过了Claude 3.5 Sonnet就有些言过其实了。

有人更是直言,lmsys方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。

“小模型”也卷起来了

Mini版本的推出,主打的就是一个性价比。

每百万输入/输出 tokens,价格分别为15美分和60美分(约1.09/4.36人民币),甚至还不到3.5 Turbo的一半。

如果和两年前GPT-3的text-davinci-003版(当时最好的模型)相比,价格更是下降了99%。

而且除了把小模型开放给用户,OpenAI还搞出了新鲜玩法——

在“超级对齐”团队的一篇遗作中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。

实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。

在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。

除了OpenAI,其他公司也都纷纷搞起了小模型。

比如在GPT-4o Mini之前,谷歌和Anthropic就分别推出了Gemini Flash和Claude 3-Haiku。

甚至可以说,GPT-4o Mini就是OpenAI对两家的反击,无论是性能还是价格都超越了这两个模型。

在GPT-4o Mini发布的同一周,Hugging Face,以及“欧洲OpenAI”Mistral都相继推出了小号模型。

甚至苹果也推出了自己的7B模型,而且一次性开源了全部训练过程和资源。

总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

标签:Mini,模型,4o,OpenAI,lmsys,GPT,奥特曼
From: https://blog.csdn.net/ElevenSakura/article/details/140718019

相关文章

  • 松灵机器人scout mini小车 自主导航(4)——运行lio-sam建图
    松灵机器人Scoutmini小车运行lio-sam在之前的工作中,我们已经实现了用小车搭载传感器,采用gmapping建图和navigation导航实现小车在2D环境中自主导航,但是实际我们采用的激光雷达多为三维激光雷达。因此决定采用lio-sam来建图。具体操作步骤如下。1.下载雷达仿真1.1下载激光雷达......
  • LeetCode 2976 Minimum Cost to Convert String I
    MinimumCosttoConvertStringIProblemDescriptionYouaregiventwo0-indexedstrings,sourceandtarget,bothoflengthnandconsistingoflowercaseEnglishletters.Youarealsoprovidedwithtwo0-indexedcharacterarrays,originalandchanged,a......
  • 从零开始使用GPT-4o mini:配置、微调与优化
    引言随着人工智能技术的不断发展,OpenAI推出的GPT-4omini模型吸引了众多开发者的关注。作为一种更经济实惠且高效的语言模型,GPT-4omini在多模态推理和成本效益方面表现出色。本篇文章旨在分享使用GPT-4omini的经验,从初始设置到性能优化,涵盖各个应用场景,并提供实际的开发建议......
  • 【深海王国】小学生都能玩的单片机!番外1:Arduino家族Uno-Mega-Nano-Pro Mini-ATtiny85
    Hi٩(๑^o^๑)۶,各位深海王国的同志们,早上下午晚上凌晨好呀~辛勤工作的你今天也辛苦啦(o゜▽゜)o☆今天大都督继续为大家带来单片机的番外系列——小学生都能玩的单片机!番外1带你快速学习认识Arduino家族:Uno、Mega、Nano、ProMini、ATtiny85,了解它们的使用场景与优......
  • Minirobot 双足舞蹈机器人
                                            MF-17ST机器人 产品介绍MF-17ST机器人是一款高度灵活的仿人机器人,它拥有17个自由度,能够精确地模仿人类的基本动作,如行走、转身、弯腰、单腿站立、......
  • 仅当 Minicom 在 macOS 上运行时,与 Arduino 的串行通信才有效
    我的macOS系统和Arduino设备之间的串行通信遇到问题。除非minicom正在运行,否则我的Rust和Python脚本都无法向Arduino发送消息。下面是问题的详细描述:问题总结环境:macOS(mac硅胶M3max)、Arduino、Rust、Python串口:/dev/cu.usbmodem101波特率:9......
  • Azure Open AI - Python 和 Java API 之间 gpt4o 的结果截然不同
    我使用Java和PythonAPI对AzureOpenAI进行相同的调用,但收到截然不同的结果:相同的系统提示相同的用户提示适用于Java和Python的azureai包的相同(最新)版本尽管输入的用户和系统提示完全相同,但响应却非常不同-python提示是“正确的”并......
  • 猫头虎分享:GPT-4o Mini VS GPT-3.5 Turbo 新旧对决,谁能拔得头筹?
    GPT-4oMiniVSGPT-3.5Turbo......
  • GPT-4o Mini介绍
    GPT-4oMini是OpenAI的一种较小的GPT-4模型变体,设计目的是在计算资源和处理能力上比全尺寸的GPT-4更加轻量,同时保持高质量的文本生成能力。它适用于需要较低计算需求或成本更敏感的应用场景。介绍模型规模:GPT-4oMini相比于GPT-4体积更小,参数数量较少,适合资......
  • LG3107 [USACO14OPEN] Odometer S 题解 (数位DP+容斥)
    题意定义一个数是神奇的当且仅当这个数中有一个数位出现了一半及以上,比如112,2233。求\([l,r]\)中有多少个好的数字,\(100\lel,r\le10^{18}\)。题解考虑数位DP,先把答案转为\(Ans(r)-Ans(l-1)\),我们钦定一个数\(k\)让他必须出现多于一半,然后我们想求\([1,x]\)中有多少......