LLMs 综述

标签：Alpaca 语言综述 LLMs 模型 https GPT 大型

大型语言模型指的是具有数十亿参数（B+）的预训练语言模型（例如：GPT-3, Bloom, LLaMA)。这种模型可以用于各种自然语言处理任务，如文本生成、机器翻译和自然语言理解等。

大型语言模型的这些参数是在大量文本数据上训练的。现有的大型语言模型主要采用 Transformer 模型架构，并且在很大程度上扩展了模型大小、预训练数据和总计算量。

他们可以更好地理解自然语言，并根据给定的上下文（例如 prompt）生成高质量的文本。其中某些能力（例如上下文学习）是不可预测的，只有当模型大小超过某个水平时才能观察到。

以下是 2019 年以来出现的各种大型语言模型（百亿参数以上）时间轴，其中标黄的大模型已开源。

开源大语言模型完整列表

https://gitee.com/runappli/awesome-llm

大型语言模型的发展历史

大型语言模型 1.0：过去五年里，自从我们看到最初的 Transformer 模型 BERT、BLOOM、GPT、GPT-2、GPT-3 等的出现，这一代的大型语言模型在 PaLM、Chinchilla 和 LLaMA 中达到了顶峰。第一代 Transformers 的共同点是：它们都是在大型未加标签的文本语料库上进行预训练的
大型语言模型 2.0：过去一年里，我们看到许多经过预训练的大型语言模型，正在根据标记的目标数据进行微调。第二代 Transformers 的共同点是：对目标数据的微调，使用带有人工反馈的强化学习（RLHF）或者更经典的监督式学习。第二代大型语言模型的热门例子包括：InstructGPT、ChatGPT、Alpaca 和 Bard 等。
大型语言模型 3.0：过去的几个月里，这个领域的热门主题是参数高效微调和对特定领域数据进行预训练，这是目前提高大型语言模型计算效率和数据效率的最新方法。另外，下一代大型语言模型可能以多模态和多任务学习为中心，这将为大型语言模型带来更多崭新并突破想象力的众多新功能。

近年来的大型语言模型概览: https://arxiv.org/abs/2303.18223

上图展示了近年来大型语言模型（大于 10B 的参数）的统计数据，包括容量评估、预训练数据规模（token 数量或存储大小）和硬件资源成本。

其中图中：

“Adaptation” 表示模型是否经过了后续微调：IT 表示指令调整，RLHF 表示通过人工反馈进行强化学习。
“Evaluation” 表示模型在原始论文中是否经过了相应能力的评估：ICL 表示上下文学习（in-context learning），CoT 表示思维链（chain-of-thought）

大模型最新研究方向分析

01：Amazon Titan

2023年4月，亚马逊云科技宣布推出 Amazon Titan 模型。根据其以下官方网站和博客的信息（如下图所示）：一些亚马逊云科技的客户已经预览了亚马逊全新的 Titan 基础模型。目前发布的 Amazon Titan 模型主要包括两个模型：

针对总结、文本生成、分类、开放式问答和信息提取等任务的生成式大语言模型；
文本嵌入（embeddings）大语言模型，能够将文本输入（字词、短语甚至是大篇幅文章）翻译成包含语义的数字表达（jiembeddings 嵌入编码）。
Source: https://aws.amazon.com/cn/bedrock/titan/
https://aws.amazon.com/cn/blogs/china/aws-announces-new-tools-for-generative-ai/

虽然这种大语言模型不生成文本，但对个性化推荐和搜索等应用程序却大有裨益，因为相对于匹配文字，对比编码可以帮助模型反馈更相关、更符合情境的结果。实际上，Amazon.com 的产品搜索能力就是采用了类似的文本嵌入模型，能够帮助客户更好地查找所需的商品。

为了持续推动使用负责任 AI 的最佳实践，Titan 基础模型可以识别和删除客户提交给定制模型的数据中的有害内容，拒绝用户输入不当内容，过滤模型中包含不当内容的输出结果，如仇恨言论、脏话和语言暴力。

02：Alpaca: LLM Training LLM

2023年3月 Meta 的 LLaMA 模型发布，该模型对标 GPT-3。已经有许多项目建立在 LLaMA 模型的基础之上，其中一个著名的项目是 Stanford 的羊驼（Alpaca）模型。Alpaca 基于 LLaMA 模型，是有 70亿参数指令微调的语言 Transformer。Alpaca 没有使用人工反馈的强化学习（RLHF），而是使用监督学习的方法，其使用了 52k 的指令-输出对（instruction-output pairs）

LLaMA 模型：https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

研究人员没有使用人类生成的指令-输出对，而是通过查询基于 GPT-3 的 text-davinci-003 模型来检索数据。因此，Alpaca 本质上使用的是一种弱监督（weakly supervised）或以知识蒸馏（knowledge-distillation-flavored）为主的微调

这里值得关注的是羊驼（Alpaca）模型的训练数据，是通过查询 GPT-3 模型获得的。通俗地来说，这是“用 LLM 来训练 LLM”，或者称之为“用 AI 来训练 AI”。我觉得大多数人可能低估了这件事情对人类社会影响的意义，我觉得其意义非凡。这意味着：AI 之间的相互学习成长这件事，已经开始了。很多年后，当我们回望 AI 世代的演进史，这件事也许会是一个重要的时间节点。

03：PaLM-E: Multimodality

在 2023 年 3 月，PaLM-E 模型发布，展示了在大型语言模型和多模态数据模式（multimodality）融合的一些最新进展。这是大型语言模型的另一个重要趋势：通过视觉、多模态和多任务训练来扩展能力

https://arxiv.org/pdf/2303.03378.pdf

国内状况

参考资料

标签：Alpaca,语言,综述,LLMs,模型,https,GPT,大型
From： https://www.cnblogs.com/tgzhu/p/17913141.html

相关文章

赞助商

阅读排行