一、LLaMA架构
LLaMA (Large Language Model Meta AI) 是一个基础语言模型的集合,参数范围从 7B 到 65B,LLaMA并非专门为对话任务而设计的模型,而是专注于语言理解和生成。但是作为基础模型,LLaMA 被设计为多功能的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。换句话说,你可以训练自己的基础模型,在这个基础上为其他任务(比如对话)继续进行微调。
它基于Transformer架构,被发表完并随后提出了各种改进。据 Meta 称,自模型发布以来,开源 AI 社区已在Hugging Face平台上微调并发布了 7000 多个 LLaMA 衍生品。
下面是 vanilla Transformer 和 LLaMA 的对比图。
好像Google的gemini使用的也是LLaMA 架构(gemini自己说的),LLaMA 模型的 137B 参数版本,基于 Google AI 的 LLaMA 模型构建,该模型使用了一种称为“masked language modeling”的训练目标
标签:从头开始,Transformer,架构,Python,模型,AI,gemini,LLaMA From: https://blog.csdn.net/bashendixie5/article/details/137401504