大型语言模型指的是具有数十亿参数(B+)的预训练语言模型(例如:GPT-3, Bloom, LLaMA)。这种模型可以用于各种自然语言处理任务,如文本生成、机器翻译和自然语言理解等。
大型语言模型的这些参数是在大量文本数据上训练的。现有的大型语言模型主要采用 Transformer 模型架构,并且在很大程度上扩展了模型大小、预训练数据和总计算量。
他们可以更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本。其中某些能力(例如上下文学习)是不可预测的,只有当模型大小超过某个水平时才能观察到。
以下是 2019 年以来出现的各种大型语言模型(百亿参数以上)时间轴,其中标黄的大模型已开源。
开源大语言模型完整列表
大型语言模型的发展历史
- 大型语言模型 1.0:过去五年里,自从我们看到最初的 Transformer 模型 BERT、BLOOM、GPT、GPT-2、GPT-3 等的出现,这一代的大型语言模型在 PaLM、Chinchilla 和 LLaMA 中达到了顶峰。第一代 Transformers 的共同点是:它们都是在大型未加标签的文本语料库上进行预训练的
- 大型语言模型 2.0:过去一年里,我们看到许多经过预训练的大型语言模型,正在根据标记的目标数据进行微调。第二代 Transformers 的共同点是:对目标数据的微调,使用带有人工反馈的强化学习(RLHF)或者更经典的监督式学习。第二代大型语言模型的热门例子包括:InstructGPT、ChatGPT、Alpaca 和 Bard 等。
- 大型语言模型 3.0:过去的几个月里,这个领域的热门主题是参数高效微调和对特定领域数据进行预训练,这是目前提高大型语言模型计算效率和数据效率的最新方法。另外,下一代大型语言模型可能以多模态和多任务学习为中心,这将为大型语言模型带来更多崭新并突破想象力的众多新功能。
近年来的大型语言模型概览: https://arxiv.org/abs/2303.18223
上图展示了近年来大型语言模型(大于 10B 的参数)的统计数据,包括容量评估、预训练数据规模(token 数量或存储大小)和硬件资源成本。
其中图中:
- “Adaptation” 表示模型是否经过了后续微调:IT 表示指令调整,RLHF 表示通过人工反馈进行强化学习。
- “Evaluation” 表示模型在原始论文中是否经过了相应能力的评估:ICL 表示上下文学习(in-context learning),CoT 表示思维链(chain-of-thought)
大模型最新研究方向分析
01:Amazon Titan
2023年4月,亚马逊云科技宣布推出 Amazon Titan 模型。根据其以下官方网站和博客的信息(如下图所示):一些亚马逊云科技的客户已经预览了亚马逊全新的 Titan 基础模型。目前发布的 Amazon Titan 模型主要包括两个模型:
- 针对总结、文本生成、分类、开放式问答和信息提取等任务的生成式大语言模型;
- 文本嵌入(embeddings)大语言模型,能够将文本输入(字词、短语甚至是大篇幅文章)翻译成包含语义的数字表达(jiembeddings 嵌入编码)。
- Source: https://aws.amazon.com/cn/bedrock/titan/
- https://aws.amazon.com/cn/blogs/china/aws-announces-new-tools-for-generative-ai/
虽然这种大语言模型不生成文本,但对个性化推荐和搜索等应用程序却大有裨益,因为相对于匹配文字,对比编码可以帮助模型反馈更相关、更符合情境的结果。实际上,Amazon.com 的产品搜索能力就是采用了类似的文本嵌入模型,能够帮助客户更好地查找所需的商品。
为了持续推动使用负责任 AI 的最佳实践,Titan 基础模型可以识别和删除客户提交给定制模型的数据中的有害内容,拒绝用户输入不当内容,过滤模型中包含不当内容的输出结果,如仇恨言论、脏话和语言暴力。
02:Alpaca: LLM Training LLM
2023年3月 Meta 的 LLaMA 模型发布,该模型对标 GPT-3。已经有许多项目建立在 LLaMA 模型的基础之上,其中一个著名的项目是 Stanford 的羊驼(Alpaca)模型。Alpaca 基于 LLaMA 模型,是有 70亿参数指令微调的语言 Transformer。Alpaca 没有使用人工反馈的强化学习(RLHF),而是使用监督学习的方法,其使用了 52k 的指令-输出对(instruction-output pairs)
- LLaMA 模型:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
研究人员没有使用人类生成的指令-输出对,而是通过查询基于 GPT-3 的 text-davinci-003 模型来检索数据。因此,Alpaca 本质上使用的是一种弱监督(weakly supervised)或以知识蒸馏(knowledge-distillation-flavored)为主的微调
这里值得关注的是羊驼(Alpaca)模型的训练数据,是通过查询 GPT-3 模型获得的。通俗地来说,这是“用 LLM 来训练 LLM”,或者称之为“用 AI 来训练 AI”。我觉得大多数人可能低估了这件事情对人类社会影响的意义,我觉得其意义非凡。这意味着:AI 之间的相互学习成长这件事,已经开始了。很多年后,当我们回望 AI 世代的演进史,这件事也许会是一个重要的时间节点。
03:PaLM-E: Multimodality
在 2023 年 3 月,PaLM-E 模型发布,展示了在大型语言模型和多模态数据模式(multimodality)融合的一些最新进展。这是大型语言模型的另一个重要趋势:通过视觉、多模态和多任务训练来扩展能力
- https://arxiv.org/pdf/2303.03378.pdf
国内状况
参考资料
- https://blog.csdn.net/awschina/article/details/130960194
- https://arthurchiao.art/blog/llm-practical-guide-zh/
- http://www.uml.org.cn/ai/202306084.asp
- https://chat.aimoshu.cc/?type=1&token=UVFtx188yqgK1rCtjKifK3OyvdsIaLiy@DuUAG0cQQL8xHGUSh6jmPrn89R8y5TkL&bd_vid=7150431897398934043#/session