首页 > 其他分享 >Falcon猎鹰:史上最强开源大语言模型

Falcon猎鹰:史上最强开源大语言模型

时间:2023-05-29 23:14:38浏览次数:57  
标签:训练 模型 token 开源 猎鹰 Falcon 数据

号称“史上最强的开源大语言模型”出现了。

图片

它叫Falcon(猎鹰),参数400亿,在1万亿高质量token上进行了训练。

最终性能超越650亿的LLaMA,以及MPT、Redpajama等现有所有开源模型。

图片

一举登顶HuggingFace OpenLLM全球榜单:

除了以上成绩,Falcon还可以只用到GPT-3 75%的训练预算,性能就显著超越GPT-3,且推理阶段的计算也只需GPT-3的1/5。

图片
图片

据悉,这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所(TII)。

有意思的是,作为一个开源模型,TII在Falcon上推出了一个相当特别的授权许可证要求:

可以商业使用,但如果用它产生的收益超过了100万美元,就要被收取10%的授权费。

一时之间,争议满满。

史上最强开源LLM

据介绍,Falcon属于自回归解码器模型。

它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。

——Falcon宣称它“特别注重数据质量”,从公网上抓取内容构建好Falcon的初始预训练数据集后,再使用CommonCrawl转储,进行大量过滤(包括删除机器生成的文本和成人内容)并消除重复数据,最终得到一个由近5万亿个token组成的庞大预训练数据集。

为了扩大Falcon的能力,该数据集随后又加进了很多精选语料,包括研究论文和社交媒体对话等内容。

除了数据把关,作者还对Falcon的架构进行了优化以提升性能,但细节没有透露,相关论文将很快发布。

据悉,Falcon一共耗费两个月,在AWS的384个GPU上训练而成。

图片

最终,Falcon一共包含4个版本:

  • Falcon-40B:在1万亿token上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。

  • Falcon-40B-Instruct:在Baize上进行了微调,使用FlashAttention和多查询对推理架构进行了优化,是一个即用型聊天模型。

  • Falcon-7B:参数70亿,在1.5万亿token上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。

  • Falcon-RW-7B:参数70亿,在3500亿token上进行训练,该模型旨在用作“研究神器”,单独研究各种在网络数据进行训练的影响。

开源许可证引争议

Falcon作为开源模型,已公开源代码和模型权重,可供研究和商业使用

这对业界来说是一个好消息,毕竟像Meta的羊驼家族都只能用于研究目的,且还得填表格申请才行,很是麻烦。

但Falcon还是引起了争议。

这主要是因为它那“超过100万美元的任何商业应用都要收10%的授权费”的许可证要求。

据悉,该许可证部分基于Apache License 2.0协议,该协议对商业应用友好,使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。

图片

有不少网友认为,既然Falcon宣称开源,还要收费,就违背了Apache License Version 2.0的宗旨,不属于真正的开源。

图片
图片

并有人称这是一种“有损Apache软件基金会来之不易的名誉”的做法。

图片

有网友已经跑到TII的官方账号下“讨要说法”:

你自己能解释一下这是如何符合“开源”的定义吗?

图片

目前,官方并没有回复。

你认为这种做法究竟算不算开源呢?

参考链接:
[1]https://falconllm.tii.ae/
[2]https://twitter.com/ItakGol/status/1662149041831002138
[3]https://twitter.com/TIIuae/status/1662159306588815375

标签:训练,模型,token,开源,猎鹰,Falcon,数据
From: https://www.cnblogs.com/botai/p/Falcon.html

相关文章

  • 灵感生成器DreamGPT开源:见识一下真正的脑洞大开
    ChatGPT最为人诟病的缺陷就是「胡编乱造」了,可以一本正经地讲一段林黛玉倒拔垂杨柳的故事。  对于真正想了解「林黛玉」或「倒拔垂杨柳」的人来说,这段回答可以说是灾难级误导了,但对于专注于「虚构」和「创意」的从业者来说,天马行空幻觉反而可以激发创造力。 最近Diverge......
  • 【推荐】7款好用开源的自动化安全测试工具
    安全测试是一项工作量十分庞大的工作,需要相关工作人员在短时间内快速完成任务,因此为了提高效率,减少重复性工作带来的麻烦,这时就需要借助安全测试工具来完成。本文为大家汇总了几款好用开源的自动化安全测试工具,快来了解一下吧。1、NmapNmap是一款不错的自动化安全测试......
  • openEuler RISC-V 发行版荣获2022年中国开源创新大赛一等奖
    5月15日,在中央网信办信息化发展局的指导下,由中国互联网发展基金会、中国网络空间研究院、中国互联网投资基金联合主办的“2022年中国开源创新大赛”正式发布了获奖名单。中国科学院软件研究所和openEulerRISC-VSIG联合参赛项目“openEulerRISC-V发行版”获得一等奖。......
  • Week1.图文并茂解释开源许可证GPL, BSD, MIT, Mozilla, Apache和LGPL的区别
    许可证由松到严排序:MITBSDApacheLGPLGPL图片源自乌克兰程序员PaulBagwell,由阮一峰汉化。MIT(MIT)来源于大学,MIT许可证是史上最为简洁和慷慨(permissive)的开源协议之一。作者只想保留版权,而无任何其他了限制.也就是说,你必须在你的发行版里包含原许可协议的声明,无论你......
  • 微软Playwright开源自动化框架初探-第一段代码和对应含义(首页截图)
    昨天我们已经在windows/mac上配置好了playwrigt框架,今天来写代码看看该框架怎么运行。 在写第一段代码之前,补充下上次没有讲完playwright框架的优点。跨浏览器、跨平台、跨语言、可测试的移动网络。适用于Android和Mobilesafiri的GoogleChrome原生移动仿真。相同的渲染引擎......
  • [转]一篇文章教你学会使用三维重建知名开源系统
    如何把一组图像转换为3D模型,这可能是三维重建初学者们最常遇到的问题。这个过程融合了计算机视觉、计算机图形学、图像处理等多门学科的知识,是一套非常复杂的工程系统,许多同学想要学习却苦于没有资料参考,导致入门难度大大提高。为了帮助想要学习三维重建的同学快速上手实践,本......
  • 开源AI聊天机器人MLC LLM发布 可用于多个平台
    导读目前大多数AI聊天机器人都需要连接到云端进行处理,即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢?一个名为MLCLLM的全新开源项目已在GitHub上线,完全本地运行无需联网,甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目......
  • 千乎万唤始出来,支持gpt3和gpt4支持画图,的在线gpt应用接入案例开源上线啦
    了解OPENAI平台用户一直在说,这个接口要怎么对接,如何在体验。由于我一直忙于接口中台开发,所以在线基于OPENAI接口实例例子就一直没有写。现在终于写完了。基于纯HTML+CSS+JS小白也能轻松上手部署。代码简单清晰。这里不多做其他赘述,更多关于平台信息如下小白畅玩免费支持Ch......
  • 「复刻」版DragGAN开源
    DragGAN非官方实现来了!完美复刻拖拽秒P图功能,可以直接上手尝试。还记得前几天发布的DragGAN吗?没错,就是那个「轻轻点两下」1秒修图的工具。拍的照片表情不好?修!脸型不够瘦?修!脸冲镜头的角度不对?修!搞不好,「让大象转个身」这个远古PS段子,可能就要成真......
  • 千乎万唤始出来,支持gpt3和gpt4支持画图,的在线gpt应用接入案例开源上线啦
    了解OPENAI平台用户一直在说,这个接口要怎么对接,如何在体验。由于我一直忙于接口中台开发,所以在线基于OPENAI接口实例例子就一直没有写。现在终于写完了。基于纯HTML+CSS+JS小白也能轻松上手部署。代码简单清晰。这里不多做其他赘述,更多关于平台信息如下小白畅玩免费支持C......