首页 > 其他分享 >开源大模型新SOTA,支持免费商用,比LLaMA65B小但更强

开源大模型新SOTA,支持免费商用,比LLaMA65B小但更强

时间:2023-07-06 17:57:34浏览次数:37  
标签:LLaMA65B 训练 SOTA 模型 token 开源 Falcon 数据

号称“史上最强的开源大语言模型”出现了。

 

它叫Falcon(猎鹰),参数400亿,在1万亿高质量token上进行了训练。

最终性能超越650亿的LLaMA,以及MPT、Redpajama等现有所有开源模型。

 一举登顶HuggingFace OpenLLM全球榜单:

 除了以上成绩,Falcon还可以只用到GPT-3 75%的训练预算,性能就显著超越GPT-3,且推理阶段的计算也只需GPT-3的1/5。

 

 

据悉,这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所(TII)。

有意思的是,作为一个开源模型,TII在Falcon上推出了一个相当特别的授权许可证要求:

可以商业使用,但如果用它产生的收益超过了100万美元,就要被收取10%的授权费。

一时之间,争议满满。

史上最强开源LLM

据介绍,Falcon属于自回归解码器模型。

它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。

——Falcon宣称它“特别注重数据质量”,从公网上抓取内容构建好Falcon的初始预训练数据集后,再使用CommonCrawl转储,进行大量过滤(包括删除机器生成的文本和成人内容)并消除重复数据,最终得到一个由近5万亿个token组成的庞大预训练数据集。

为了扩大Falcon的能力,该数据集随后又加进了很多精选语料,包括研究论文和社交媒体对话等内容。

除了数据把关,作者还对Falcon的架构进行了优化以提升性能,但细节没有透露,相关论文将很快发布。

据悉,Falcon一共耗费两个月,在AWS的384个GPU上训练而成。

最终,Falcon一共包含4个版本:

Falcon-40B:在1万亿token上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。

Falcon-40B-Instruct:在Baize上进行了微调,使用FlashAttention和多查询对推理架构进行了优化,是一个即用型聊天模型。

Falcon-7B:参数70亿,在1.5万亿token上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。

Falcon-RW-7B:参数70亿,在3500亿token上进行训练,该模型旨在用作“研究神器”,单独研究各种在网络数据进行训练的影响。

开源许可证引争议

Falcon作为开源模型,已公开源代码和模型权重,可供研究和商业使用。

这对业界来说是一个好消息,毕竟像Meta的羊驼家族都只能用于研究目的,且还得填表格申请才行,很是麻烦。

但Falcon还是引起了争议。

这主要是因为它那“超过100万美元的任何商业应用都要收10%的授权费”的许可证要求。

据悉,该许可证部分基于Apache License 2.0协议,该协议对商业应用友好,使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。

 有不少网友认为,既然Falcon宣称开源,还要收费,就违背了Apache License Version 2.0的宗旨,不属于真正的开源。

 

参考链接:

[1]https://falconllm.tii.ae/

[2]https://twitter.com/ItakGol/status/1662149041831002138

[3]https://twitter.com/TIIuae/status/1662159306588815375

— 完 —

标签:LLaMA65B,训练,SOTA,模型,token,开源,Falcon,数据
From: https://www.cnblogs.com/Im-Victor/p/17532885.html

相关文章

  • 开源中文大型语言模型(资源汇总
    随时更新!汇总2023年开源的大型中文大规模语言模型,入选标准:对中文支持能力强模型规模≥1B公布模型权重、推理代码公布模型训练细节Chinese-Vicuna项目地址:https://github.com/Facico/Chinese-Vicuna基座模型:LLaMA7B特点:提供了非常详细的训练指南!量化工具、C++推理、h......
  • 开源大语言模型是否可以商用的调查报告
     开源大语言模型是否可以商用的调查报告0.背景1.调查结果1.1基础大模型(LLM)1.2对话大模型(ChatLLM)1.3多模态对话大模型(MultiModal-ChatLLM)2.可商用开源模型总结2.1基础大模型(LLM)2.2对话大模型(ChatLLM) 0.背景ChatGPT火起来了,很多企业......
  • 给 Helm 提一个 PR,重温开源项目参与过程
    目录逛社区领任务复现Bug用GPT-4来准备Bug复现材料对着GPT-4给的命令复现Bug定位Bug修复思路编写代码测试提PR逛社区酒足饭饱,闲来无事,打开Helm项目的issues列表,咦,这个issue看起来眉清目秀呀:其实一点都不“眉清目秀”,这段issue描述太冗长了,没有任何排版,看起......
  • Github | 制作您的第一个开源合并请求
    Github|制作您的第一个开源合并请求文章目录Github|制作您的第一个开源合并请求1.背景2.前提3.上手贡献开源1.背景开源软件是原始源代码可免费获得并可重新分发和修改的软件。作为一名程序员,我们更感兴趣的是如何为他们的代码库做出贡献。许多新手发现开源是可怕和令人生......
  • [最新开源推荐]免费可商用的开源培训平台,发布三个月1000star!
    项目简介PlayEdu是一款用于内部培训的开源系统,功能强大,界面美观,致力于搭建私有化内部培训平台。 项目地址Github地址:https://github.com/PlayEdu/PlayEduGItee地址:https://gitee.com/playeduxyz/playedu 技术栈基于Java+MySQL开发,采用前后端分离模式,前台采用Reac......
  • 好用的开源知识管理系统有哪些?整理10款主流知识管理工具(开源、免费、企业、个人)
    知识管理系统并没有一个统一的定义。根据组织状况的不同,以及出于文档沉淀、知识库对外分享、多人协作、个人笔记、文档快速检索等需求的不同,每个组织都需要的知识管理系统可能都不一样。但在大部分时候,我们讨论知识管理系统时,我们集中在那些能够有效存储信息,同时能够实现高效的知......
  • 有哪些免费的开源小工具?
    整理了一些感觉还不错的开源小工具,其中有部分仅适用MacOS,但多数可跨平台使用。   HomebrewformacOS地址:https://brew.sh   Mac上非常好用的包管理工具,很多常见的安装都可以通过brewinstallapp或者brewcaskinstallapp直接安装,类似apt-get。  OhMy......
  • Darktable 4.4开源RAW图像编辑器发布
    导读Darktable4.4开源、免费、跨平台的RAW图像编辑器在darktable4.2六个月后的今天发布,看起来这是一个重大的更新,带来了许多新功能、性能改进、新的相机支持等。Darktable4.4引入了对许多新相机的支持,包括佳能PowerShotSX10IS,SX160IS,SX20IS,SX220HS,SX230HS......
  • 国产开源流批统一的数据同步工具Chunjun入门实战
    @目录概述定义特性部署安装版本对应关系通用配置详解整体配置Content配置Setting配置Local提交Standalone提交Json方式使用SQL方式使用MySQLSinkKafkaSink概述定义Chunjun官网https://dtstack.github.io/chunjun-web/源码release最新版本1.12.8Chunjun文档地址http......
  • Linux 6.5增加对高通开源GPU Adreno 690的支持
    即将推出的Linux 6.5内核将把对高通Adreno690GPU的支持添加到开源的MSM内核图形/显示驱动程序中。A690主要用于骁龙8cx第三代(SC8280XP)平台,而联想ThinkPadX13s笔记本电脑和其他硬件也采用了该平台。新的支持将包含近200行代码,并超过现有Adreno600系列硬件的支持。此次......