首页 > 其他分享 >MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT

MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT

时间:2023-06-23 15:13:08浏览次数:34  
标签:Rao 模型 MosaicML LLaMA GPT Falcon

mosaic

MosaicML正在推出其第二个开源大型语言模型(LLM),称为MPT-30B,这是继五月份首次推出的较小的MPT-7B模型之后。

为了讨论新模型及其对开发人员的意义,我采访了MosaicML联合创始人兼首席执行官Naveen Rao。他之前的创业公司是Nervana,这是一家深度学习公司,于2016年被英特尔收购,所以他最近在人工智能行业并不重要。

顾名思义,MPT-30B是一个300亿参数模型。该公司声称它在质量上超过了OpenAI的GPT-3,尽管其参数数量约为1/6(GPT-3有1750亿个)。“这意味着MPT-30B更容易在本地硬件上运行,并且部署推理的成本要低得多,”该公司表示。

MosaicML vs. LLaMA 和 Falcon

MPT-30B比其他模型(包括GPT-3,LLaMA和Falcon(每个2,000个令牌)在更长的序列(最多8,000个令牌)上进行训练。根据MosaicML的说法,“它旨在在实践中处理更长的序列,使其非常适合数据密集型企业应用程序。

实际上,这意味着用户可以输入更长的提示。事实上,MosaicML之前的7B参数模型带有一个微调选项,称为MPT-7B-StoryWriter-65k+,具有巨大的65,000“上下文长度”。

“更长的上下文[长度]意味着更灵活的用法,”Rao说。“我们将有微调的版本,特别适合写散文——写更长的输出。

MosaicML platform

MosaicML平台;通过其公司博客

Rao想要强调的另一个区别是它的注意力机制。当谷歌在2017年发表其著名的关于变压器技术的论文《注意力是你所需要的一切》(Attention Is All You Need)时,它指出,“多头自我注意”是为AI提供突破的训练机制(OpenAI随后借用这一见解来构建GPT)。

“注意力是变压器模型的内在部分,”Rao解释道。“这实际上使他们能够看到一个句子,一个段落或整个文本语料库的联系。

Rao 告诉我,MosaicML 使用了一种名为“闪光注意力”的技术,这是 2022 年一篇学术论文的主题。

“它使你能够更快地进行推理和训练 - Falcon和LLaMA都没有这个,”他说。“因此,从计算的角度来看,我们的方法实际上效率更高。

Rao补充说,新模型更适合企业使用,因为它“大小合适”以“适应实际硬件的限制”。他指出,深度学习GPU通常使用40-80千兆字节的内存。根据Rao的说法,开源的Falcon LLM正在与这种限制作斗争。

“奇怪的是,他们发布的猎鹰模型是一个400亿参数模型。这不太适合 80 GB GPU,因为它正好靠在边缘。

他补充说,它自己的300亿个参数模型更小,以便更好地针对GPU进行优化。“它并没有真正损害我们的性能,它将让你非常轻松地适应80-gGPU,”他说。

Rao声称其新的30B参数模型在性能上也优于LLaMA和Falcon。

“由于我们的效率方法,我们实际上训练的计算比LLaMA和Falcon少。所以训练实际上要便宜得多。但我们基本上是平价的。这取决于评估指标——比如,对于编码,这个模型实际上比这两个模型做得更好。在其他事情上,情况更糟。

当然,LLaMA和Falcon背后的人可能会对此提出异议。但是很难独立验证MosaicML的说法,因为Rao谈到的三个开源LLM项目(MosaicML,LLaMA或Falcon)都没有使用斯坦福大学的HELM措施进行测试。

MosaicML vs. OpenAI

那么MosaicML的模型与OpenAI的GPT-4相比如何呢?Rao 承认 GPT-4 在大多数方面的能力方面都更胜一筹。然而,他重申,MosaicML的模型提供了更长的上下文长度,这允许独特的用例 - 例如生成F. Scott Fitzgerald的著名小说“了不起的盖茨比”的尾声。(题外话:作为一名前英国文学专业的学生,这是我最不想从法学硕士那里得到的东西!

Rao说,像GPT-4这样的大型模型的主要挑战是运行它们的高成本,这使得大多数企业都不切实际。MosaicML还专注于为具有特定数据(包括敏感数据)的公司提供服务,以微调其特定行业的模型。

在用例方面,Rao解释说,医疗保健和银行业等行业可以从MosaicML解释和汇总大量数据的能力中受益。例如,在医学领域,该模型可以解释实验室结果,并通过分析各种输入来提供对患者病史的见解。

Rao强调了开源模型在这些场景中的重要性,因为健康(或实际上是财务)数据的本质需要在防火墙后面进行安全处理,而不是通过API将其发送给OpenAI之类的公司。

开发人员如何使用 MosaicML

我问开发人员如何开始使用MosaicML的平台。Rao回答说,MosaicML提供了各种选择,具体取决于开发人员的需求和专业知识。对于简单的集成,他们提供了一个类似于其他公司(如OpenAI)的API,允许开发人员轻松地将MosaicML的模型整合到他们的前端应用程序中。他声称,与其他提供商的类似规模的模型相比,MosaicML的模型更具成本效益。

开发人员还可以选择通过使用自己的数据对其进行微调来自定义 MosaicML 模型。他们可以下载模型、进行修改,并使用自定义版本创建自己的 API。

对于拥有大量数据的高级开发人员,Rao表示,MosaicML的工具可用于从头开始预训练自定义模型,并使用MosaicML的平台为它们提供服务。

然后我问了MosaicML与流行的第三方工具(如LangChain)的兼容性。

“你通过LangChain获得的所有工具都可以与我们的API一起使用,”他回答道。“真正酷的是,您可以在与我们一起构建的自定义模型之上使用这些工具。因此,我们基本上在定制方面为开发人员提供了令人难以置信的能力——甚至拥有整个模型。您进入该模型的所有数据(权重,所有内容)都归您所有,因此可以完全自定义。这就是我们实现的目标。有了这些API提供商(如OpenAI),你得到的是你所得到的——零定制。

团队开源

尽管在我们的采访中谈到了LLaMA和Falcon,但最终Rao认为他们都在同一个团队中 - 而像OpenAI这样的专有平台才是真正的竞争对手。

“这使权力回到了企业开发人员手中,”他说,关于开源LLM,“将所有这些放在一个集中的地方,在那里你可以得到你得到的东西,这是一个很大的负面结果。

他还坚持认为,开源LLM正在“缩小与这些闭源模型的差距”。他承认,也许还没有完全,但他认为开放的LLM已经“跨越了这些模型实际上非常有用的门槛”。

MosaicML推出30B模型 - 接受LLaMA,Falcon和GPT的帖子首先出现在The New Stack上。

标签:Rao,模型,MosaicML,LLaMA,GPT,Falcon
From: https://www.cnblogs.com/shupanblog/p/17499155.html

相关文章

  • GPT-4老板:AI可能会杀死人类,已经出现我们无法解释的推理能力
    “AI确实可能杀死人类。”这话并非危言耸听,而是OpenAICEO奥特曼的最新观点。而这番观点,是奥特曼在与MIT研究科学家LexFridman长达2小时的对话中透露。不仅如此,奥特曼谈及了近期围绕ChatGPT产生的诸多问题,坦承就连OpenAI团队,也根本没搞懂它是如何“进化”的:从ChatGPT开始,AI出现了......
  • ChatGPT背后的指令学习是什么?PSU最新首篇《指令学习》技术全面综述,详述指令学习关键问
    任务语义可以用一组输入到输出的例子或一条文本指令来表示。传统的自然语言处理(NLP)机器学习方法主要依赖于大规模特定任务样本集的可用性。出现了两个问题: 首先,收集特定于任务的标记示例,不适用于任务可能太复杂或太昂贵而无法注释,或系统需要立即处理新任务的场景;其次,这对用户......
  • 独家专访:OpenAI 的 Sam Altman 谈 ChatGPT 以及通用人工智能如何“打破资本主义”
    作为OpenAI的首席执行官,SamAltman领导的这家初创公司是正在快速增长的生成式AI行业中最热门且最受关注的一家。在1月中旬参观了OpenAI的旧金山办事处后,福布斯采访了这位最近不太愿意在媒体上抛头露面的投资者和企业家,讨论了ChatGPT、通用人工智能、以及该公司的人工智能......
  • MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT
    MosaicML正在推出其第二个开源大型语言模型(LLM),称为MPT-30B,这是继五月份首次推出的较小的MPT-7B模型之后。为了讨论新模型及其对开发人员的意义,我采访了MosaicML联合创始人兼首席执行官NaveenRao。他之前的创业公司是Nervana,这是一家深度学习公司,于2016年被英特尔收购,所以他最近......
  • 历史最全ChatGPT、LLM相关书籍、论文、博客、工具、数据集、开源项目等资源整理分享
    ChatGPT是一个生成型预训练变换模型(GPT),使用基于人类反馈的监督学习和强化学习在GPT-3.5之上进行了微调。这两种方法都使用了人类训练员来提高模型的性能,通过人类干预以增强机器学习的效果,从而获得更为逼真的结果。在监督学习的情况下,模型被提供了这样一些对话,在对话中训练......
  • 如何利用 ChatGPT 写出完美小说
    ChatGPT的小说写作能力和局限性作为人工智能,ChatGPT没有任何与生俱来的创造力。它不能自己提出原创概念或发挥其想象力。一般情况下,需要向其提供特定请求(称为提示)才能生成文本反馈。请记住,ChatGPT会记住你在给定对话的之前对话部分所说的话,并且你可以通过反馈进行更正。至于......
  • 当ChatGPT续写《红楼梦》,能替代原著吗?
    近段时间,人工智能聊天机器人ChatGPT火爆网络,“AI写作是否会让文字工作者被替代?”成为人们关注并持续讨论的话题。闲聊、问答、解题、写代码、写诗、创作小说,连续回答,不断纠错,ChatGPT能做的事,包括且不限于以上领域。那么,它到底只是“废话文学生成器”,还是真正能够达到人类感性认知......
  • 比尔·盖茨最新分享:ChatGPT的发展,不止于此
    最近,ChatGPT、GPT4、文心一言、Copilot,人工智能产品层出不容,一路轰炸;王慧文、王兴、李开复等各位高调以及低调的商业领袖和技术专家,纷纷入局AI赛道。人声鼎沸,十分热闹。昨天(3月22号),OpenAI的“资助人”比尔·盖茨,在个人博客中畅谈了人工智能的重要,以及将来对人类社会的贡献,比如在提......
  • GPT-4零失误通关大厂模拟面试,offer拿到手软?与AGI首次接触
    “GPT-4可被视作AGI(通用人工智能)的早期版本。”如若从他人口中说出,或许是无稽之谈——但是由微软雷蒙德研究院机器学习理论组负责人万引大神SébastienBubeck与2023新视野数学奖得主RonenEldan、2023新晋斯隆研究奖得主李远志、2020斯隆研究奖得主YinTatLee等科学家共同撰写的......
  • CHATGPT制作AI绘画
    CHATGPT是一种基于机器学习和自然语言处理技术的人工智能应用。它可以生成自然语言文本,并且可以通过训练来学习各种不同的技能。其中,CHATGPT制作AI绘画指的是将CHATGPT应用于绘画领域,训练CHATGPT以生成艺术作品。CHATGPT生成绘画的基本原理是通过训练机器学习模型来学习一些......