0.简介
Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。
1.改进亮点
- 参数规模与模型架构:Llama 3提供了8B和70B两种参数规模的模型,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。同时,Llama 3采用了标准的纯解码器(decoder-only)Transformer架构,并引入了Group Query Attention(GQA)技术,提高了模型的推理效率和处理长文本的能力。
- 训练数据集的扩展:Llama 3的训练数据集比Llama 2大了7倍,包含了超过15万亿个token,其中包括4倍的代码数据,这使得Llama 3在理解和生成代码方面更加出色。
- 性能提升:通过改进的预训练和后训练过程,Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了显著进步。
- 安全性增强:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增强了模型的安全性和可靠性。
- 多语言支持:Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
训练数据 | 模型参数 | 上下文长度 | GQA | 训练Token数 | 知识截止 | |
---|---|---|---|---|---|---|
Llama 3 | 公开在线数据的新组合。 | 8B | 8k | Yes | 15T+ | 2023 年 3 月 |
公开在线数据的新组合。 | 70B | 8k | Yes | 15T+ | 2023 年 12 月 |
注意:训练Token数仅指预训练数据。
2.模型架构
2.1 通用GPT架构
主流的大语言模型都采用了Transformer[架构,它是一个基于多层自注意力(Self-attention)的神经网络模型。
原始的Transformer由编码器(Encoder)和解码器(Decoder)两个部分构成,同时,这两个部分也可以独立使用。例如基于编码器的BERT 模型和基于解码器的GPT模型。
Llama模型与GPT类似,也是采用了基于解码器的架构。在原始Transformer解码器的基础上,Llama进行了如下改动:
- 为了增强训练稳定性,采用前置的**RMSNorm **作为层归一化方法。
- 为了提高模型性能,采用**SwiGLU **作为激活函数。
- 为了更好地建模长序列数据,采用**RoPE **作为位置编码。
- 为了平衡效率和性能,部分模型采用了分组查询注意力机制**(Grouped-Query Attention, GQA)**。
具体来说,首先将输入的token序列通过词嵌入(word embedding)矩阵转化为词向量序列。然后,词向量序列作为隐藏层状态依次通过
标签:训练,AI,LLaMA3,模型,Llama3,亮点,改进,Llama,数据 From: https://blog.csdn.net/zhishi0000/article/details/143040708