首页 > 其他分享 >重磅| Falcon 180B 正式在 Hugging Face Hub 上发布!

重磅| Falcon 180B 正式在 Hugging Face Hub 上发布!

时间:2023-09-06 22:33:39浏览次数:41  
标签:prompt Hub 模型 Hugging Face 180B Falcon

引言

我们很高兴地宣布由 Technology Innovation Institute (TII) 训练的开源大模型 Falcon 180B 登陆 Hugging Face! Falcon 180B 为开源大模型树立了全新的标杆。作为当前最大的开源大模型,有180B 参数并且是在在 3.5 万亿 token 的 TII RefinedWeb 数据集上进行训练,这也是目前开源模型里最长的单波段预训练。

你可以在 Hugging Face Hub 中查阅模型以及其 Space 应用。

模型:

https://hf.co/tiiuae/falcon-180B

https://hf.co/tiiuae/falcon-180B-chat

Space 应用地址:

https://hf.co/spaces/tiiuae/falcon-180b-demo

从表现能力上来看,Falcon 180B 在自然语言任务上的表现十分优秀。它在开源模型排行榜 (预训练) 上名列前茅,并可与 PaLM-2 等专有模型相差无几。虽然目前还很难给出明确的排名,但它被认为与 PaLM-2 Large 不相上下,这也使得它成为目前公开的能力最强的 LLM 之一。

我们将在本篇博客中通过评测结果来探讨 Falcon 180B 的优势所在,并展示如何使用该模型。

Falcon 180B 是什么?

从架构维度来看,Falcon 180B 是 Falcon 40B 的升级版本,并在其基础上进行了创新,比如利用 Multi-Query Attention 等来提高模型的可扩展性。可以通过回顾 Falcon 40B 的博客 Falcon 40B 来了解其架构。Falcon 180B 是使用 Amazon SageMaker 在多达 4096 个 GPU 上同时对 3.5 万亿个 token 进行训练,总共花费了约 7,000,000 个 GPU 计算时,这意味着 Falcon 180B 的规模是 Llama 2 的 2.5 倍,而训练所需的计算量是 Llama 2 的 4 倍。

其训练数据主要来自 RefinedWeb 数据集 (大约占 85%),此外,它还在对话、技术论文和一小部分代码 (约占 3%) 等经过整理的混合数据的基础上进行了训练。这个预训练数据集足够大,即使是 3.5 万亿个标记也只占不到一个时期 (epoch)。

已发布的 聊天模型 在对话和指令数据集上进行了微调,混合了 Open-PlatypusUltraChatAiroboros 数据集。

‼️ 商业用途: Falcon 180b 可用于商业用途,但条件非常严格,不包括任何“托管用途”。如果您有兴趣将其用于商业用途,我们建议您查看 许可证 并咨询您的法律团队。

Falcon 180B 的优势是什么?

Falcon 180B 是当前最好的开源大模型。在 MMLU上 的表现超过了 Llama 2 70B 和 OpenAI 的 GPT-3.5。在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及 ReCoRD 上与谷歌的 PaLM 2-Large 不相上下。

它在 Hugging Face 开源大模型榜单上以 68.74 的成绩被认为是当前评分最高的开放式大模型,评分超过了 Meta 的 LlaMA 2 (67.35)。

Model Size Leaderboard score Commercial use or license Pretraining length
Falcon 180B 68.74

标签:prompt,Hub,模型,Hugging,Face,180B,Falcon
From: https://www.cnblogs.com/huggingface/p/17683584.html

相关文章

  • vcpkg 与 GitHub 依赖关系图集成
    我们很高兴与大家分享,vcpkg有一项实验性功能,可以向GitHub依赖关系图提供数据。我们正在积极开发此功能,并希望听到您的反馈。如果您对当前功能有任何想法或希望看到进一步的改进,请告诉我们。如果你对vcpkg支持的依赖关系图启用的任何GitHub特性有反馈,也请告诉我们,我们会确保Git......
  • 简读||Dynamic Metasurface Antennas for Uplink Massive MIMO Systems
    用于上行链路大规模MIMO系统的动态超表面天线摘要:大规模多输入多输出(MIMO)通信是近年来人们广泛关注的焦点。虽然大规模MIMO的理论增益已经确立,但在实践中实现具有大规模天线阵列的MIMO系统仍具有挑战性。与大规模MIMO系统相关的实际挑战包括成本、功耗和物理尺寸的增加。......
  • Hugging News #0904: 登陆 AWS Marketplace
    每一周,我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「HuggingNews」。本期HuggingNews有哪些有趣的消息,快来看看吧!......
  • Android surfaceview的使用方式
    1.什么是surfaceviewsurfaceview内部机制和外部层次结构在安卓开发中,我们经常会遇到一些需要高性能、高帧率、高画质的应用场景,例如视频播放、游戏开发、相机预览等。这些场景中,我们需要直接操作图像数据,并且实时地显示到屏幕上。如果我们使用普通的view组件来实现这些功能,可能会......
  • ctfhub_WEB基础关(4)
    WEB基础五、XSS1、反射型该关卡刚开始不知道flag存在哪儿,刚开始只在name框中提交东西,但是无法获取到falg,查看了提示,然后流程大概是先在Name框中输入,提交,然后将提交之后的网址复制粘贴到提交url的框中,就可以得到falg利用beef工具来进行在输入姓名的框中输入构造的payload......
  • 《VulnHub》Empire:Breakout
    @目录1:靶场信息2:打靶2.1:情报收集&威胁建模2.2:漏洞分析&渗透攻击3:总结3.1:命令&工具3.1.1:Nmap3.2:关键技术VulnHub打靶记录。官网:https://www.vulnhub.com/攻击机为Kali-Linux-2023.2-vmware-amd64。KaliNATIP:192.168.8.10。1:靶场信息靶场网址:https://www.vulnhub.com/......
  • Vulnhub: INO: 1.0.1靶机
    kali:192.168.111.111靶机:192.168.111.234信息收集端口扫描nmap-A-sC-v-sV-T5-p---script=http-enum192.168.111.23480端口目录爆破gobusterdir-uhttp://192.168.111.234/lot-w/usr/share/wordlists/dirbuster/directory-list-2.3-medium.txt-xphp,bak,txt,......
  • Vulnhub: Inferno: 1.1靶机
    kali:192.168.111.111靶机:192.168.111.233信息收集端口扫描nmap-A-sC-v-sV-T5-p---script=http-enum192.168.111.23380端口目录爆破gobusterdir-uhttp://192.168.111.233-w/usr/share/wordlists/dirbuster/directory-list-2.3-medium.txt-xphp,bak,txt,html......
  • 这可能是Github上最全面的Flutter教程,带你玩转Flutter
    Flutter是什么来头?Flutter是一款开源UI工具包,可利用单一代码库构建本地编译的移动、Web和桌面应用程序。Flutter由谷歌牵头开发,允许开发者构建出具有良好表现力、灵活设计、样式美观且运行迅速的应用程序。Flutter的核心语言为Dart,这是一种现代多范式语言,能够面向多个平台......
  • 基于Hugo的github个人博客的搭建
    一、前期准备以windows系统为例1.下载Git(https://git-scm.com/downloads)2.下载Hugo(https://github.com/gohugoio/hugo/releases)按照自己电脑下。3.设置环境变量:打开环境变量可以看到在系统变量有一个变量名为PATH的变量,直接点击然后编辑,把自己的git和hugo的位置添加进去。注意不是......