MiniMax开源了MiniMax-01全新系列模型性能比肩GPT-4o

时间：2025-01-15 13:03:45浏览次数：3

MiniMax于2025年1月15日宣布开源其全新系列模型MiniMax-01，该系列包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01系列在架构上进行了大胆创新，首次大规模实现线性注意力机制，打破了传统Transformer架构的局限。其参数量高达4560亿，单次激活459亿，综合性能与海外顶尖模型相当，且能高效处理长达400万token的上下文，这一长度是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

MiniMax认为2025年将是Agent高速发展的关键年份，无论是单Agent系统还是多Agent系统，都需要更长的上下文来支持持续记忆和大量通信。MiniMax-01系列模型的推出，正是为了满足这一需求，迈出建立复杂Agent基础能力的第一步。

在这里插入图片描述
得益于架构创新、效率优化以及集群训推一体设计，MiniMax能够以业内最低的价格区间提供文本和多模态理解的API服务，标准定价为输入token1元/百万token，输出token8元/百万token。MiniMax开放平台及海外版已上线，供开发者体验使用。

MiniMax-01系列模型已在GitHub开源，并将持续更新。在业界主流的文本和多模态理解测评中，MiniMax-01系列在多数任务上追平了海外公认的先进模型GPT-4o-1120和Claude-3.5-Sonnet-1022。特别是在长文任务上，与Google的Gemini模型相比，MiniMax-Text-01随着输入长度增加，性能衰减最慢，显著优于Gemini。

MiniMax的模型在处理长输入时效率极高，接近线性复杂度。其结构设计中，每8层中有7层采用基于Lightning Attention的线性注意力，1层采用传统SoftMax注意力。这是业内首次将线性注意力机制扩展到商用模型级别，MiniMax在Scaling Law、与MoE结合、结构设计、训练优化和推理优化等方面进行了综合考量，并重构了训练和推理系统，包括更高效的MoE All-to-all通讯优化、更长序列优化以及推理层面线性注意力的高效Kernel实现。

在大部分学术集上，MiniMax-01系列取得了比肩海外第一梯队的结果。在长上下文测评集上更是显著领先，如在400万的Needle-In-A-Haystack检索任务上表现优异。除了学术数据集，MiniMax还构建了基于真实数据的助手场景测试集，MiniMax-Text-01在该场景中表现突出。在多模态理解测试集中，MiniMax-VL-01也较为领先。

开源地址：https://github.com/MiniMax-AI

标签：模态,01,系列,MiniMax,Agent,4o,模型
From： https://blog.csdn.net/weixin_41446370/article/details/145157463

【01】vs-code如何配置flutter环境-开发完整的社交APP-前端客户端开发+数据联调|以优
【01】vs-code如何配置flutter环境-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草央千澈-供大大的学习提升章节内容【01】章节内容【01】vs-code配置flutter环境开发背景优雅草央千澈对本项目的描......
{LOJ #6041. 「雅礼集训 2017 Day7」事情的相似度题解
\(\text{LOJ\#6041.「雅礼集训2017Day7」事情的相似度题解}\)解法一由parent树的性质得到，前缀\(s_i,s_j\)的最长公共后缀实质上就是\(i,j\)在SAM中的\(\operatorname{LCA}\)在SAM中的\(\operatorname{len}\)。让我们考虑如何处理\((l,r)\)区间内的询问。直......
CS61B srping 2018 proj1Gold-Autograding https://sp18.datastructur.es/ 我放弃了
介绍和GettingtheSkeletonFiles想办法找到下面四个文件这个proj要编写一个autoGrader，提供如下文件：StudentArrayDeque.java:AbuggyimplementationofArrayDeque.有错误的ArrayDequeArrayDequeSolution.java:AcorrectimplementationofArrayDeque.正确的ArrayDequ......
本地打包docker images并上传到服务器.250115
情景：服务器dockerPull拉不下来dockerpulleaszlab/kubeasz-k8s-bin:v1.31.2Get"https://registry-1.docker.io/v2/":net/http:requestcanceledwhilewaitingforconnection(Client.Timeoutexceededwhileawaitingheaders)2025-01-1417:06:35[ezdown:767]......
Oracle系列---【ORA-01017用户名密码无效】
1.问题项目启动时，报：ORA-01017用户名密码不对的错误，但是没有报具体哪个库错误，因为我是多数据源的项目。2.解决方案2.1定位到连接数据报错的用户和库名select*fromdba_audit_sessionwhereACTION_NAME='LOGON'ANDRETURNCODE=1017ORDERBYTIMESTAMPDESC;1.OS_USERNAM......
django民宿预定管理系统-毕业设计源码60197
目录摘要1绪论1.1选题背景与意义1.2国内外研究现状1.3论文结构与章节安排2系统分析2.1可行性分析2.1.1经济可行性分析2.1.2技术可行性分析2.1.3操作可行性分析2.2系统流程分析2.2.1系统开发流程2.2.2用户登录流程2.2.3系统操作流程2.2.4......
[SNCPC2019] Digit Mode
前言不管从实现方式到智慧程度都是数位\(\rm{dp}\)好题,写一下思路首先你发现常规的数位\(\rm{dp}\)方法不可以实现原因是不能对于一个数求出其\(m(x)\)容易考虑到逆向思考,你钦定\(m(x)\)的值,看有多少个\(x\)满足此要求怎么做?先考虑最简单的情况,如果从\(......
2025-01-15：执行操作可获得的最大总奖励 Ⅰ。用go语言，给定一个整数数组 rewardValues，其
2025-01-15：执行操作可获得的最大总奖励Ⅰ。用go语言，给定一个整数数组rewardValues，其中包含n个代表奖励值的数字。你开始时的总奖励x为0，并且所有下标都是未标记状态。你可以进行以下操作若干次：1.从索引范围[0,n-1]中选择一个未标记的下标i。2.如果rewardValues[i]......
P4770 [NOI2018] 你的名字题解
\(\text{P4770[NOI2018]你的名字题解}\)注意到\(l=1,r=|S|\)有整整68分的高分，让我们先来考虑这样的特殊情况。这样的特殊情形实际上要我们求的是\(t\)有多少个本质不同的子串满足其不是\(s\)的子串。正着做看上去有些困难，于是维护\(s,t\)的本质不同公共子串个数，用......
Datawhale 组队学习wow-agenttask01 openai库搭建Al Agent
Datawhale组队学习wow-agentDatawhale项目链接：https://www.datawhale.cn/learn/summary/86笔记作者：博客园-岁月月宝贝......

MiniMax开源了MiniMax-01全新系列模型性能比肩GPT-4o

相关文章

赞助商

阅读排行

​MiniMax开源了MiniMax-01全新系列模型 性能比肩GPT-4o

相关文章

赞助商

阅读排行

MiniMax开源了MiniMax-01全新系列模型性能比肩GPT-4o