首页 > 其他分享 >通义千问72B、1.8B、Audio模型发布,效仿Meta掀桌子

通义千问72B、1.8B、Audio模型发布,效仿Meta掀桌子

时间:2023-12-03 14:08:18浏览次数:27  
标签:72B 千问 1.8 Qwen Meta Chat Audio 通义

引言

阿里云的千问模型再次升级,展现了强大的实力!开源了通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B 及音频大模型Qwen-Audio。

这一次,仅凭700亿参数和2GB显存,千问模型就大放异彩。

感觉就像是阿里云在闭源市场与讯飞、百度竞争不过,决定效仿Meta,转向开源战略。这对于百度文心来说可能是个挑战,毕竟他们的高级版已经开始收费。百川的500亿开源模型还未开源。但对于广大用户来说,这无疑是个好消息!

AI快站已提供通义千问72B、1.8B、Audio模型下载。

下载地址:

https://aifasthub.com/models/Qwen


通义千问72B、1.8B、Audio模型发布,效仿Meta掀桌子_多语言

720亿参数

模型特点

通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-72B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-72B-Chat。

  • 大规模高质量训练语料:使用超过3万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。通过大量对比实验对预训练语料分布进行了优化。
  • 强大的性能:Qwen-72B在多个中英文下游评测任务上(涵盖常识推理、代码、数学、翻译等),效果显著超越现有的开源模型。具体评测结果请详见下文。
  • 覆盖更全面的词表:相比目前以中英词表为主的开源模型,Qwen-72B使用了约15万大小的词表。该词表对多语言更加友好,方便用户在不扩展词表的情况下对部分语种进行能力增强和扩展。
  • 更长的上下文支持:Qwen-72B支持32k的上下文长度。
  • 系统指令跟随:Qwen-72B-Chat可以通过调整系统指令,实现角色扮演,语言风格迁移,任务设定,和行为设定等能力。

通义千问72B、1.8B、Audio模型发布,效仿Meta掀桌子_多语言_02

通义千问72B、1.8B、Audio模型发布,效仿Meta掀桌子_语言模型_03

模型下载

AI快站

通义千问-72B-预训练:

https://aifasthub.com/models/Qwen/Qwen-72B


通义千问-72B-Chat:

https://aifasthub.com/models/Qwen/Qwen-72B-Chat


通义千问-72B-Chat-Int8:https://aifasthub.com/models/Qwen/Qwen-72B-Chat-Int8


通义千问-72B-Chat-Int4:

https://aifasthub.com/models/Qwen/Qwen-72B-Chat-Int4

Huggingface

通义千问-72B-预训练:

https://huggingface.co/Qwen/Qwen-72B


通义千问-72B-Chat:

https://huggingface.co/Qwen/Qwen-72B-Chat


通义千问-72B-Chat-Int8:https://huggingface.co/Qwen/Qwen-72B-Chat-Int8


通义千问-72B-Chat-Int4:

https://huggingface.co/Qwen/Qwen-72B-Chat-Int4

18亿参数

模型特点

通义千问-1.8B(Qwen-1.8B)是阿里云研发的通义千问大模型系列的18亿参数规模的模型。Qwen-1.8B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-1.8B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen-1.8B-Chat。

  • 低成本部署:提供int8和int4量化版本,推理最低仅需不到2GB显存,生成2048 tokens仅需3GB显存占用。微调最低仅需6GB。
  • 大规模高质量训练语料:使用超过2.2万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。通过大量对比实验对预训练语料分布进行了优化。
  • 优秀的性能:Qwen-1.8B支持8192上下文长度,在多个中英文下游评测任务上(涵盖常识推理、代码、数学、翻译等),效果显著超越现有的相近规模开源模型,具体评测结果请详见下文。
  • 覆盖更全面的词表:相比目前以中英词表为主的开源模型,Qwen-1.8B使用了约15万大小的词表。该词表对多语言更加友好,方便用户在不扩展词表的情况下对部分语种进行能力增强和扩展。

通义千问72B、1.8B、Audio模型发布,效仿Meta掀桌子_多语言_04

模型下载

AI快站

通义千问-1.8B-预训练:

https://aifasthub.com/models/Qwen/Qwen-1_8B


通义千问-1.8B-Chat:

https://aifasthub.com/models/Qwen/Qwen-1_8B-Chat


通义千问-1_8B-Chat-Int8:

https://aifasthub.com/models/Qwen/Qwen-1_8B-Chat-Int8


通义千问-1_8B-Chat-Int4:

https://aifasthub.com/models/Qwen/Qwen-1_8B-Chat-Int4

Huggingface

通义千问-1.8B-预训练:

https://huggingface.co/Qwen/Qwen-1_8B


通义千问-1.8B-Chat:

https://huggingface.co/Qwen/Qwen-1_8B-Chat


通义千问-1_8B-Chat-Int8:

https://huggingface.co/Qwen/Qwen-1_8B-Chat-Int8


通义千问-1_8B-Chat-Int4:

https://huggingface.co/Qwen/Qwen-1_8B-Chat-Int4

音频聊天

模型特点

Qwen-Audio 是阿里云研发的大规模音频语言模型(Large Audio Language Model)。Qwen-Audio 可以以多种音频 (包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。Qwen-Audio 系列模型的特点包括:

  • 音频基石模型:Qwen-Audio是一个性能卓越的通用的音频理解模型,支持各种任务、语言和音频类型。在Qwen-Audio的基础上,我们通过指令微调开发了Qwen-Audio-Chat,支持多轮、多语言、多语言对话。Qwen-Audio和Qwen-Audio-Chat模型均已开源。
  • 兼容多种复杂音频的多任务学习框架:为了避免由于数据收集来源不同以及任务类型不同,带来的音频到文本的一对多的干扰问题,我们提出了一种多任务训练框架,实现相似任务的知识共享,并尽可能减少不同任务之间的干扰。通过提出的框架,Qwen-Audio可以容纳训练超过30多种不同的音频任务;
  • 出色的性能:Qwen-Audio在不需要任何任务特定的微调的情况下,在各种基准任务上取得了领先的结果。具体得,Qwen-Audio在Aishell1、cochlscene、ClothoAQA和VocalSound的测试集上都达到了SOTA;
  • 支持多轮音频和文本对话,支持各种语音场景:Qwen-Audio-Chat支持声音理解和推理、音乐欣赏、多音频分析、多轮音频-文本交错对话以及外部语音工具的使用(如语音编辑)。

模型下载

AI快站

通义千问-Audio-预训练:

https://aifasthub.com/models/Qwen/Qwen-Audio


通义千问-Audio-Chat:

https://aifasthub.com/models/Qwen/Qwen-Audio-Chat

Huggingface

通义千问-Audio-预训练:

https://huggingface.co/Qwen/Qwen-Audio


通义千问-Audio-Chat:

https://huggingface.co/Qwen/Qwen-Audio-Chat


标签:72B,千问,1.8,Qwen,Meta,Chat,Audio,通义
From: https://blog.51cto.com/u_16323307/8666788

相关文章

  • hive启动出现Either your MetaData is incorrect, or you need to enable "datanucleu
    hive启动出现:Requiredtablemissing:"`VERSION`"inCatalog""Schema"".DataNucleusrequiresthistabletoperformitspersistenceoperations.EitheryourMetaDataisincorrect,oryouneedtoenable"datanucleus.schema......
  • 黑客玩具入门——5、继续Metasploit
    1、利用FTP漏洞并植入后门实验靶机:Metasploitable2。实践:使用nmap扫描目标靶机nmap-sVxxx.xxx.xxx.xxx(目标ip)生成linux系统后门msfvenom-plinux/x86/meterpreter/reverse_tcpLHOST=xxx.xxx.xxx.xxx(主控端ip)LPORT=5555-felf-o/home/xxxx(用户名)/backdoor.elf......
  • 【influxDB】CentOS 7.x InfluxDB 1.8.0的安装使用
    一、安装wgethttps://dl.influxdata.com/influxdb/releases/influxdb-1.8.0.x86_64.rpmyum-ylocalinstallinfluxdb-1.8.0.x86_64.rpm image.pngsystemctlstartinfluxdbsystemctlenableinfluxdbsystemctlstatusinfluxdbss-tan|grep8086......
  • Meta对Transformer架构下手了:新注意力机制更懂推理
    前言 作者表示,这种全新注意力机制(Sytem2Attention)或许你也需要呢。本文转载自机器之心仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术......
  • dremio metabase 高版本jdk连接问题
    目前已经有不少新项目都是使用了高版本的jdk,比如不少使用了jdk11,还有直接使用jdk17的dremiojdbc驱动支持的jdk主要是8,对于其他高版本jdk的支持会有一些问题核心是netty相关的以下是一个参考配置启动参数配置适合jdk17以及以上版本的 java--add-opens=java.base/java.......
  • GWAS:plink进行meta分析
    之前教程提到过Metal是可以做Meta分析,除了Metal,PLINK也可以进行Meta分析。命令如下所示:plink--meta-analysisgwas1.plinkgwas2.plinkgwas3.plink+logscaleqt--meta-analysis-snp-fieldSNP--meta-analysis-chr-fieldCHR--meta-analysis-bp-fieldBP--meta-analysis......
  • 元空间 metaspace
    JVM(JavaVirtualMachine)的元空间(Metaspace)是在Java8之后引入的一个新的内存区域,用于存储类的元数据信息,取代了之前版本中的永久代(PermGen)。元空间不再受到永久代的限制,它的内存可以动态地增长或缩小,不再导致常见的永久代内存溢出错误。元空间的主要作用是存储以下......
  • Linux环境下安装jdk1.8nacos-server 2.2.3
    JDK1.8安装1.下载地址jdk1.8https://www.oracle.com/java/technologies/downloads/2.ftp上传##/usr/local/software/jdk-8u391-linux-x64.tar.gzcd/usr/local/software/tar-zxvfjdk-8u391-linux-x64.tar.gz##重命名mv/usr/local/software/jdk1.8.0_391/usr/local......
  • 想基于AI变现吗,这个Star有1.8K的开源项目分享给你
    前言在如今AI爆发的时代,每个人都想借着AI这股风,进行变现,今天给大家分享一个开源项目,他可以让你基于AI的能力进行变现项目介绍这个项目在Github有1.8k个star,可见其欢迎程度,作者关注这个项目的时候,名称还为chatgpt-web-java,现在已经更名为aibeehive这个项目主要功能是对接了各......
  • Meta Llama大模型:引领人工智能创新的巅峰之作
    人工智能(AI)领域的蓬勃发展一直是科技创新的关键推动力之一。近年来,MetaLlama大模型的出现引起了广泛关注,被誉为人工智能领域的一次革命。本文将探讨MetaLlama大模型的背景、特点以及其在人工智能创新中的潜在影响。背景MetaLlama大模型是由MetaAI公司(前身为Facebook)研发的一种......