前言

我们介绍了LLaMA，这是一个参数范围从7B到65B的基础语言模型集合。我们在数以万亿计的标记上训练我们的模型，并表明有可能完全使用公开可用的数据集来训练最先进的模型，而不必求助于专有的和不可获取的数据集。特别是，LLaMA-13B 在大多数基准上超过了GPT-3（175B）， LLaMA-65B与最好的模型Chinchilla-70B和PaLM-540B相比具有竞争力。我们向研究界发布了我们所有的模型。

总结：

仅仅在公开的数据集上进行训练了多个尺度的模型，就可以达到最先进的效果。
对模型和实现方式进行优化，加速训练。

方法

使用的数据

英语CommonCrawl[67%] ：我们用CCNet管道（ Wenzek等人， 2020年）对五个CommonCrawl转储进行预处理，范围从2017年到2020年。这个过程在行的层面上对数据进行了删除，用fastText线性分类器进行语言识别，以去除非英语页面，并用n-gram语言模型过滤低质量内容。此外，我们训练了一个线性模型来对维基百科中用作参考文献的页面与随机抽样的页面进行分类，并丢弃了未被分类为参考文献的页面。

C4 [15%] ：在探索性的实验中，我们观察到，使用多样化的预处理Com-monCrawl数据集可以提高性能。因此，我们将公开的C4数据集（ Raffel等人，2020）纳入我们的数据。C4的预处理也包含重复数据删除和语言识别步骤：与CCNet的主要区别在于质量过滤，它主要依赖于标点符号的存在或网页中的单词和句子的数量等判例。

Github[4.5%] ：我们使用谷歌BigQuery上的GitHub公共数据集。我们只保留在Apache、BSD和MIT许可下发布的项目。此外，我们用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件，并用规范的表达式删除了模板，如标题。最后，我们在文件层面上对结果数据集进行重复计算，并进行精确匹配。

维基百科[4.5%] ：我们添加了2022年6月至8月期间的维基百科转储，涵盖了20使用拉丁字母或西里尔字母的语言：BG、CA、CS、DA、DE、EN、ES、FR、HR、HU、IT、NL、PL、PT、RO、RU、SL、SR、SV、UK。我们对数据进行处理，以删除超链接、评论和其他格式化的模板。

古腾堡和Books3[4.5%] ：我们的训练数据包括两个书体：Guten- berg项目和TheP-ile（ Gao等人，2020）的Books3部分，后者是一个用于训练大型语言模型的公开可用数据集。我们在书籍层面上进行重复数据删除，删除内容重叠度超过90%的书籍。

ArXiv[2.5%] ：我们处理了arXiv的Latex文件，将科学数据添加到我们的数据集中。按照Lewkowycz等人（2022）的做法，我们删除了第一节之前的所有内容，以及书目。我们还删除了.tex文件中的注释，以及用户写的内联扩展的定义和宏，以提高不同论文的一致性。

Stack Exchange[2%] ：我们包括了Stack Exchange的转储，这是一个高质量的问题和答案的网站，涵盖了从计算机科学到化学等不同的领域。我们保留了28个最大网站的数据，重新将HTML标签从文本中移出，并将答案按分数（从高到低）排序。

标记器

标记器：我们用字节对编码（BPE）算法（ Sennrich等人，2015）对数据进行标记，使用 Sentence-Piece（Kudo和Richardson，2018）中的实现。值得注意的是，我们将所有数字分割成单个数字，并回退到字节来分解未知的UTF-8字符。

总的来说，我们的整个训练数据集在标记化之后大约包含1.4T的标记。对于我们的大多数训练数据，每个标记在训练过程中只使用一次，但维基百科和图书领域除外，我们对其进行了大约两个epochs训练。

模型结构

基本还是transformer结构，主要要一下一些不同：

预归一化[GPT3] ：为了提高训练的稳定性，我们对每个transformer子层的输入进行规范化，而不是对输出进行规范化。我们使用Zhang和Sennrich（2019）介绍的RMSNorm归一化函数。

SwiGLU激活函数[PaLM] ：我们用SwiGLU激活函数替换ReLU的非线性，由Shazeer（2020）引入以提高性能。我们使用的维度是\(\frac{2}{3}4d\)，而不是PaLM中的4d。

旋转嵌入[GPTNeo] ：我们删除了绝对位置嵌入，取而代之的是在网络的每一层添加Su等人（2021）介绍的旋转位置嵌入（RoPE）。表2中给出了我们不同模型的超参数细节。

优化器

我们的模型使用AdamW optimizer（ Loshchilov和Hutter，2017）进行训练，超参数如下：β1 = 0.9，β2 = 0.95。我们使用一个余弦学习率计划，使最终的学习率等于最大的10%。我们使用0.1的权重衰减和梯度剪裁为1.0。我们使用2，000个预热步骤，并随着模型的大小而改变学习率和批次大小（详见表2）。

高效的实现

我们进行了一些优化，以提高我们模型的训练速度。首先，我们使用causal multi-head attention，以减少内存使用和运行时间。这个实现可在xformers库中找到。这是通过不存储注意力权重和不计算由于语言建模任务的因果性质而被掩盖的键/查询分数来实现的。

为了进一步提高训练效率，我们重新缩减了在后向传递过程中建议使用的激活量。更确切地说，我们保存了计算成本较高的激活，如线性层的输出。这是通过手动实现transformer层的后向函数来实现的，而不是依靠PyTorch的autograd。为了充分受益于这种优化，我们需要如Korthikanti等人（2022）所述，通过使用模型和序列并行，减少模型的内存使用。此外，我们还尽可能地过度重视激活的计算和GPU之间通过网络的通信（由于all_reduce操作）。当训练一个65B参数的模型时，我们的代码在2048个A100GPU和80GB的内存上处理大约380个令牌/秒/GPU。这意味着在我们包含1.4T标记的数据集上进行训练大约需要21天。