首页 > 其他分享 >阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!

阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!

时间:2024-09-20 11:22:11浏览次数:3  
标签:72B Qwen2 Qwen2.5 模型 4o 开源 Llama 3.1 Math

今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。

如果不想进行繁琐的部署,阿里还开放了旗舰模型Qwen-Plus 和 Qwen-Turbo的API,帮助你快速开发或集成生成式AI功能。

图片

开源地址:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Github:https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file

在线demo:https://huggingface.co/spaces/Qwen/Qwen2.5

API地址:https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm

下面「AIGC开放社区」详细为大家介绍这些模型的性能特点以及测试结果。

Qwen2.5系列性能测试

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试结果显示。

虽然Qwen2.5只有720亿参数,但在多个基准测试中击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型;全面超过了Mistral最新开源的Large-V2指令微调模型,成为目前最强大参数的开源模型之一。

图片

即便是没有进行指令微调的基础模型,其性能同样超过Llama-3-405B。

图片

阿里开放API的旗舰模型Qwen-Plus,其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

图片

此外,Qwen2.5系列首次引入了140 亿和320亿两种新参数模型,Qwen2.5-14B 和 Qwen2.5-32B。

指令微调模型的性能则超过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct,与闭源模型GPT-4o mini相比,只有三项测试略低其他基准测试全部超过

图片

自阿里发布CodeQwen1.5 以来,吸引了大量用户通过该模型完成各种编程任务,包括调试、回答编程相关的问题以及提供代码建议。

本次发布的Qwen2.5-Coder-7B指令微调版本,在众多测试基准中,击败了那些知名且有较大参数的模型。

图片

前不久阿里首次发布了数学模型Qwen2-Math,本次发布的Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练,包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持,并通过CoT、PoT和 TIR的能力来加强其推理能力。

其中,Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。

图片

其实从上面这些测试数据不难看出,即便是参数很小的模型,在质量数据和架构的帮助下,同样可以击败高参数模型,这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的Qwen2.5系列将小参数模型的性能发挥到了极致。

Qwen2.5系列简单介绍

Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与 Qwen2类似,Qwen2.5语言模型支持高达 128K tokens,并能生成最多 8K tokens的内容。

与Qwen-2相比,Qwen2.5系列的预训练数据大幅度增长达到了惊人的18万亿tokens,超过了Meta最新开源Llama-3.1的15万亿,成为目前训练数据最多的开源模型。

知识能力显著增强,Qwen2.5在 MMLU 基准测试中,与 Qwen2-7/72B 相比从70.3提高到74.2,从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

图片

Qwen2.5能够生成更符合人类偏好的响应,与Qwen2-72B-Instruct相比,Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2 ,MT-Bench分数从9.12提高到9.35 。

数学能力获得增强,在融合了Qwen2-math的技术后,Qwen2.5的数学能力也得到了快速提升。在MATH基准上,Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外,Qwen2.5在指令跟踪、生成长文本(从1k增加到超过8K标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是JSON)方面实现了显着改进。同时对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实施和条件设置。

来源 | 顶级程序员

开源1

大模型40

阿里巴巴1

标签:72B,Qwen2,Qwen2.5,模型,4o,开源,Llama,3.1,Math
From: https://blog.csdn.net/AIBigModel/article/details/142380248

相关文章

  • 【大模型开发】 迎接AI新时代:Qwen2.5发布,超越LLaMA3!如何通过一键API调用不同模型?(附源
    迎接AI新时代:Qwen2.5发布,超越LLaMA3!如何通过一键API调用不同模型?人工智能领域迎来了新的突破,阿里巴巴近期发布了全新的Qwen2.5模型系列,凭借其72B参数的核心模型,不仅在参数量上显著优化,还成功超越了LLaMA3(405B),在多个自然语言处理和代码生成任务中取得了卓越的表现。Qwen......
  • Llama3学习记录
    Llama3学习记录Llama3是一个稠密的transformer网络模型,应用于预测文本序列的下一个token。相较于先前版本的Llama模型,其性能提升主要来自于数据质量的提升以及多样性,并且也受益于模型参数的增加1.网络架构由上图可知,Llama3是一个decoderonly的网络模型Llama3模型具体......
  • Meta Llama3 论文研读
    一、引言概述(Intro&Overview)Llama3是一系列基于Transformer结构的大型多语言模型,通过优化数据质量、训练规模和模型架构,旨在提升模型在各种语言理解任务中的表现。通过引入更优质的数据和更高效的训练方法,Llama3展示了在自然语言处理领域的巨大潜力。其创新点在于其综合了......
  • flutter开发将项目从flutter版本3.19.6升级到3.24.3过程遇到问题记录Type 'Unmodifiab
    1.androidstudio修改当个项目的flutter版本,不影响其他项目工程的flutter编译版本1.1项目右上角点击‘设置’图标,选择Settings...进去到项目的设置页面,选择fluttersdk路径1.2项目右上角点击‘设置’图标,选择Settings...进去到项目的设置页面,选择dartsdk路径2.点开打开......
  • 2024 Python3.10 系统入门+进阶(十五):文件及目录操作
    目录一、文件IO操作1.1创建或打开文件1.2读取文件1.2.1按行读取1.2.2多行读取1.2.3完整读取1.3写入文件1.3.1写入字符串1.3.2写入序列1.4上下文管理1.4.1with语句的使用1.4.2上下文管理器(拓展----可以学了面向对象之后再回来看)1.5文件的遍历二、os.pat......
  • 洛谷题单指南-分治与倍增-P2345 [USACO04OPEN] MooFest G
    原题链接:https://www.luogu.com.cn/problem/P2345题意解读:有n头牛,每头牛都有听力v、坐标x两个属性,要计算每两头牛的max{vi​,vj​}×∣xi​−xj​∣之和。解题思路:首先想到的肯定是枚举法,需要O(n^2)的复杂度有没有优化的方法?可以采用分治法!由于是计算两头牛之间的max{vi​,......
  • 【操作系统】1.3.1操作系统的运行机制
    这一小节我们会学习操作系统的运行机制,即操作系统在计算机上是怎么运行的:程序是如何运行的?(计算机底层只能识别二进制机器指令,即只能识别0和1)注意:先前所说的小黑框,是交互式命令接口;而本节所提指令是二进制机器指令。在操作系统这门课中,我们需要区分两种类型的程序:“内......
  • 丹摩DAMODEL超算平台 | 搭建Llama3.1深入体验
    丹摩DAMODEL超算平台|搭建Llama3.1深入体验文章目录丹摩DAMODEL超算平台|搭建Llama3.1深入体验丹摩超算平台Llama3.1-部署与使用本地连接使用DAMODEL方法使用体验与总结DAMODEL丹摩超算平台专为AI打造的智算云平台,致力于提供丰富的算力资源与基础设施,以助力......
  • 基于QGIS 3.16.0 的OSM路网矢量范围裁剪实战-以湖南省为例
    目录前言一、相关数据介绍1、OMS路网数据2、路网数据3、路网图层属性 二、按省域范围进行路网裁剪1、裁剪范围制定2、空间裁剪  3、裁剪结果 三、总结前言        改革开放特别是党的十八大以来,我国公路发展取得了举世瞩目的成就。国家高速公路网由“7射、11纵、18横......
  • 240908-结合DBGPT与Ollama实现RAG本地知识检索增强
    A.最终效果B.背景说明DBGPT在0.5.6版本中开始支持Ollama:v0.5.6版本更新网友对其Web端及界面端的设置进行了分享:feat(model):supportollamaasanoptionalllm&embeddingproxybyGITHUBear·PullRequest#1475·eosphoros-ai/DB-GPTDB-GPT+Ollama构建本地智能数据平......