首页 > 编程语言 >Mistral新旗舰决战Llama 3.1,最强开源Large 2 123B,扛鼎多语言编程全能王

Mistral新旗舰决战Llama 3.1,最强开源Large 2 123B,扛鼎多语言编程全能王

时间:2024-07-26 20:29:57浏览次数:12  
标签:Llama 全能王 AI 模型 Mistral Large 123B 3.1

【新智元导读】紧跟着Meta的重磅发布,Mistral Large 2也带着权重一起上新了,而且参数量仅为Llama 3.1 405B的三分之一。不仅在编码、数学和多语言等专业领域可与SOTA模型直接竞争,还支持单节点部署。

昨天正式发布的Llama 3.1模型,让AI社区着实为之兴奋。

但是仔细一想就能发现——405B的参数规模,基本是没法让个人开发者在本地运行了。

比如昨天刚发布,就有一位勇敢的推特网友亲测,用一张英伟达4090运行Llama 3.1。

结果可想而知,等了30分钟模型才开始回应,缓缓吐出一个「The」。

最后结果是,Llama给出完整回应,整整用了20个小时。

根据Artificial Analysis的估算,你需要部署含2张8×H100的DGX超算才能在本地运行405B。

看来,小扎对Llama 3.1成为开源AI界Linux的期待,可能和现实有不少的差距。目前的硬件能力,很难支持405B模型的大范围全量运行。

此时,又一位开源巨头Mistral精准踩点,发布了他们的最新旗舰模型Mistral Large 2。

Mistral Large 2在代码生成、数学和推理等方面的能力明显增强,可以与GPT-4o和Llama 3.1一较高下。

而且,模型参数量仅有123B,不到Llama 3.1 405B的三分之一,完全可以在单个节点上以大吞吐量运行。

成本效率、速度和性能的「三角形战士」,Mistral Large当之无愧——

和GPT-4o比,它开源;和Llama 3.1 450B比,它参数少;和Llama 3 70B比,它性能好。

推特网友惊呼,「开源AI就这么卷起来了吗!」

短短一周时间内,GPT-4o mini、Llama 3.1、Mistral Large 2相继发布,有些让人应接不暇。

「我躺了,你们先卷着。」

但躺平阵营中绝对不包含ollama。前脚Mistral刚官宣,这边就火速更新。

果然,参数量砍去一大半之后,本地部署难度就大大下降了。

同样从ollama上下载模型,用96GB内存还是可以顺利运行起来的。

虽然3 token/s的生成速度慢了点,但比起用20个小时等模型响应,已经是质的飞跃了。

用前段时间击穿GPT-4o的「9.11 vs. 9.9」问题测试Large 2,没想到它竟然答对了。

值得一提的是,Mistral Large首代发布还不到半年(2024年2月),但并没有开源,用户只能通过官方API或Azure访问。

刚发布的Mistral Large 2则已经将模型权重托管到了HuggingFace仓库中,向研究和非商业用途开放,但商业用途的部署仍需要直接联系Mistral以取得许可。

HuggingFace地址:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

不仅上下文窗口从上一代的32k增长到了128k(同Llama 3.1),而且有强大的多语言能力,支持数十种自然语言以及80多种编程语言。

令人印象深刻的是,Mistral Large的预训练版本在MMLU上的准确率可以达到84%。

这个成绩已经超过了340B参数的Nemotron,而且与GPT-4(85.1%)和Llama 3.1(87.3%)基本处于同一水平,可以说是将模型性能/成本的Pareto最优边界又向前推进了一步。

出自Llama 3.1论文

代码与推理

基于Mistral之前训练的经验,研究团队对Mistral Large 2也进行了大量代码训练,支持包括Python、Java、C、C++、JavaScript 和Bash在内的80多种语言。

在代码生成方面,Mistral Large 2远远优于Llama 3.1 70B和之前的Mistral Large,与Llama 3.1 405B不相上下。

团队在提高模型的推理能力方面也投入了大量精力。在训练过程中,特别关注减少模型的「幻觉」。

实现方法就是通过微调,让模型的响应更加谨慎而敏锐,确保它提供可靠、准确的输出。

此外,经过训练的Mistral Large 2还被赋予了一个品质:承认自己并非无所不知。

在无法找到解决方案,或没有足够信息支撑有效回答时,模型会直接承认而非「不懂装懂」。

Mistral Large 2这种对答案准确性的「责任感」,提升了在数学基准上的表现,展现了更强的推理和解决问题的能力。

在用于代码生成的HumanEval和HumanEval Plus基准测试中,它的表现优于Claude 3.5 Sonnet和Llama 3.1,仅次于GPT-4o。

代码生成基准测试

在MultiPL-E基准上,Mistral Large 2的平均生成准确率领先Llama 3.1将近1个百分点,而且可以媲美GPT-4o。

纵向比较也可以看出,Codestral系列的经验对Mistral Large 2有不少助益。仅仅过了5个月,Mistral Large系列的生成准确率就从58.8%飙升至74.4%。

而且,在以数学为重点的基准测试中(GSM8K和MATH),它的表现也可圈可点。

GSM8K(8-shot)和MATH(0-shot,无CoT)基准测试

指令执行与对齐

Mistral Large 2的指令执行和对话能力也得到了显著提升,在执行精确指令和处理长时间多轮对话方面表现尤为出色。

以下是其在Wild Bench和Arena Hard基准测试上的表现:

通用对齐基准测试

在一些基准测试中,生成较长的回答通常会提高得分。

然而,在许多商业应用中,答案的简洁至关重要——简短的模型响应可以促进更快速的交互,让推理过程更加高效且降低成本。

Mistral声称Large 2可以比领先的人工智能模型产生更简洁的响应,因为后者倾向于喋喋不休。

下图展示了不同模型在MT Bench基准测试中问题的平均生成长度:

语言多样性

如今,许多商业应用涉及处理多语言文档。

尽管大多数模型以英语为中心,但Mistral Large 2在大量多语言数据上进行了训练。

比如,在法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语等多种语言上,Mistral Large 2都有出色的性能。

以下是Mistral Large 2在多语言MMLU基准测试中的表现结果,并与之前的Mistral Large、Llama 3.1模型以及Cohere的Command R+进行了比较:

在下图的8种语言上,Mistral Large 2的性能可以媲美Llama 3.1 405。但值得注意的是,所有模型似乎都在中文MMLU上取得了最低分。

工具使用与函数调用

Mistral Large 2具备了更强的函数调用和检索能力,能够熟练执行并行和顺序的函数调用,准确率甚至超过了GPT-4o。

这意味着,Mistral Large 2可以成为复杂商业应用的核心引擎。

除了直接从HuggingFace上下载权重,用户可以通过官方API平台la Plateforme访问或微调模型,免费聊天机器人le chat也已经部署了Mistral Large 2。

Vertex AI、Azure Studio等第三方云平台也托管了Mistral Large 2的API。

参考资料:

https://mistral.ai/news/mistral-large-2407/

https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/

https://venturebeat.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

标签:Llama,全能王,AI,模型,Mistral,Large,123B,3.1
From: https://blog.csdn.net/2401_85375298/article/details/140723910

相关文章

  • AI跟踪报道第48期-新加坡内哥谈技术-本周AI新闻:Open AI 和 Mistral的小型模型
       每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https:......
  • Transformers Pipeline + Mistral-7B-Instruct-v0.x修改Chat Template
    在使用https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3提供的Generatewithtransformers代码进行测试时,产生以下报错:fromtransformersimportpipelinemessages=[{"role":"system","content":"Youareapiratechatbotwhoalw......
  • Mistral AI最新力作——Mistral Large媲美GPT-4
    MistralAI自豪地宣布,他们的最新力作——MistralLarge,已经正式面世。这款尖端的文本生成模型不仅在多语言理解上表现出色,更在推理能力上达到了顶级水平。MistralLarge能够处理包括文本理解、转换和代码生成在内的复杂多语言推理任务。MistralLarge(预训练版本)与其他顶......
  • 携手知名律所,合合信息旗下名片全能王打造数字化名片“新范式”
    在低碳办公理念盛行的当下,数字名片成为商务交流的新方式,以数字化智能化赋能绿色化。近期,合合信息旗下名片全能王企业数字名片升级,与上海市律师协会、广州市律师协会、北京大成(上海)律师事务所等多家律协及律所达成合作,推出的企业数字名片小程序可实现律师行业的定制化需求,全面赋能......
  • 论文敲公式敲到“崩溃”?合合信息扫描全能王“公式识别”一键解决公式提取难题
    毕业季临近,全国高校毕业生陆续进入了忙碌的“答辩季”。进入“百米冲刺”阶段,论文至关重要。对于理科工学生而言,论文中的数理化公式,稍不注意就容易输错,手动输入误差难以避免。近日,合合信息旗下扫描全能王全新上线“公式识别”功能,通过“试卷扫描”模式,即可使用相关功能。基于......
  • 【Zstd: 压缩全能王】
    什么是Zstdzstd是Facebook在2016年开源的新无损压缩算法,优点是压缩率和压缩/解压缩性能都很突出。效果对比压缩率与压缩速度,此图来源Zstd官网,为一些经典的压缩算法对比,CompressornameRatioCompressionDecompress.zstd1.5.6-12.887510MB/s1580MB/shttps://www.zl......
  • Mistral 发布 Codestral,它的第一个代码生成人工智能模型,精通 80 多种编程语言
    Mistral是一家由微软支持、估值60亿美元的法国人工智能初创公司,它发布了第一个用于编码的生成式人工智能模型,名为Codestral。与其他代码生成模型一样,Codestral旨在帮助开发人员编写代码并与代码交互。Mistral在博客文章中解释说,它接受了80多种编程语言的培训,包括Py......
  • AI将诗意装进口袋!合合信息扫描全能王“扫描书籍”功能优化上线
    人间最美四月天,正是读书好时节。4月20日至23日,正值“世界读书日”之际,合合信息旗下扫描全能王联合上海首家图像小说主题书店——安古莱姆书店,共同发起“春天正是读书天”线下公益阅读活动,为公众带来一场春日文学盛宴。“世界读书日”期间,为方便阅读爱好者们随时随地畅享阅读的......
  • 运行模型对比 gemma:7b, llama2, mistral, qwen:7b
     【gemma:2b】totalduration:1m5.2381509sloadduration:530.9µspromptevalduration:110.304mspromptevalrate:0.00tokens/sevalcount:604token(s)evalduration:1m5.126287sevalrate:9.27tokens/s 【gemma:7b】t......
  • 元宵节家里煮了多少汤圆?合合信息扫描全能王“拍照计数”一键盘点
    元宵将至,新春节庆氛围浓厚依旧。厨房里,餐桌上,一碗碗热气腾腾的汤圆、皮薄馅足的饺子,织就了年节温暖幸福的画面。近期,合合信息旗下扫描全能王APP“拍照计数”功能获得广大用户的关注。该功能基于图像AI技术,可以对图片中用户指定的目标物体进行统计,快速“点出”出图片中的物体数量......