首页 > 编程语言 >大模型算法必学,万字长文Llama-1到Llama-3详细拆解

大模型算法必学,万字长文Llama-1到Llama-3详细拆解

时间:2024-08-20 11:26:28浏览次数:12  
标签:训练 AI 模型 必学 Meta Llama 字长 数据

导读

Llama系列的大语言模型在多个自然语言处理任务中表现出色,包括文本分类、情感分析和生成式问答,本质是使用 Transformer 架构并结合预训练和微调技术。本文详细讲解Llama-1到Llama-3,值得读者点赞收藏!

引言

在AI领域,大模型的发展正以前所未有的速度推进技术的边界。

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama-1、Llama-2和Code-Llama之后的第三代模型,Llama-3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型。

纵观Llama系列模型,从版本1到3,展示了大规模预训练语言模型的演进及其在实际应用中的显著潜力。这些模型不仅在技术上不断刷新纪录,更在商业和学术界产生了深远的影响。因此,对Llama模型不同版本之间的系统对比,不仅可以揭示技术进步的具体细节,也能帮助我们理解这些高级模型如何解决现实世界的复杂问题。

文本将详细梳理Llama开源家族的演进历程,包括:

  • Llama进化史(第1节)
  • 模型架构(第2节)
  • 训练数据(第3节)
  • 训练方法(第4节)
  • 效果对比(第5节)
  • 社区生态(第6节)
  • 总结(第7节)

与此同时,我们还设计了一系列全面的开源课程(So-Lrage-Lm),旨在从多个维度深入解析大规模预训练语言模型的内在工作机制和外在应用场景。课程内容覆盖了从模型架构、性能评估,到数据管理和模型优化等关键技术点,以及模型在社会、环境和法律层面的复杂交互。

通过本课程,参与者将学习如何从理论和实践层面评估和优化大模型。我们的课程规划包括了一系列模块化的学习单元,每一单元都针对大模型的一个具体方面,从基础知识到高级应用逐步深入,确保学习者可以在结束课程后,独立进行大模型的设计、评估和应用。此外,课程中的案例研究和实践项目将直接关联到当前最前沿的AI技术和应用,以及这些技术如何在现实世界中找到应用。

点击访问课程地址或者阅读原文即可查看课程内容,欢迎Star~

https://github.com/datawhalechina/so-large-lm

1. Llama进化史

本节将对每个版本的Llama模型进行简要介绍,包括它们发布的时间和主要特点。

*1.1 Llama-1 系列*

Llama-1 [1]是Meta在2023年2月发布的大语言模型,是当时性能非常出色的开源模型之一,有7B、13B、30B和65B四个参数量版本。Llama-1各个参数量版本都在超过1T token的语料上进行了预训训练,其中,最大的65B参数的模型在2,048张A100 80G GPU上训练了近21天,并在大多数基准测试中超越了具有175B参数的GPT-3。

由于模型开源且性能优异,Llama迅速成为了开源社区中最受欢迎的大模型之一,以Llama为核心的生态圈也由此崛起。我们将在第6节对这一生态进行详细介绍。与此同时,众多研究者将其作为基座模型,进行了继续预训练或者微调,衍生出了众多变体模型(见下图),极大地推动了大模型领域的研究进展。

图片

唯一美中不足的是,因为开源协议问题,Llama-1不可免费商用。

1.2 Llama-2 系列

时隔5个月,Meta在2023年7月发布了免费可商用版本 Llama-2 [2],有7B、13B、34B和70B四个参数量版本,除了34B模型外,其他均已开源。

图片

相比于Llama-1,Llama-2将预训练的语料扩充到了 2T token,同时将模型的上下文长度从2,048翻倍到了4,096,并引入了分组查询注意力机制(grouped-query attention, GQA)等技术。

有了更强大的基座模型Llama-2,Meta通过进一步的有监督微调(Supervised Fine-Tuning, SFT)、基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)等技术对模型进行迭代优化,并发布了面向对话应用的微调系列模型 Llama-2 Chat。

通过“预训练-有监督微调-基于人类反馈的强化学习”这一训练流程,Llama-2 Chat不仅在众多基准测试中取得了更好的模型性能,同时在应用中也更加安全。

随后,得益于Llama-2的优异性能,Meta在2023年8月发布了专注于代码生成的Code-Llama,共有7B、13B、34B和70B四个参数量版本。

图片

1.3 Llama-3 系列

2024年4月,Meta正式发布了开源大模型 Llama 3,包括8B和70B两个参数量版本。除此之外,Meta还透露,400B的Llama-3还在训练中。

图片

相比Llama-2,Llama-3支持8K长文本,并采用了一个编码效率更高的tokenizer,词表大小为128K。在预训练数据方面,Llama-3使用了超过15T token的语料,这比Llama 2的7倍还多。

Llama-3在性能上取得了巨大飞跃,并在相同规模的大模型中取得了最优异的性能。

另外,推理、代码生成和指令跟随等能力得到了极大的改进,使Llama 3更加可控。

2. 模型架构

本节将详细描述Llama的模型架构,包括神经网络的大小、层数、注意力机制等。

目前,主流的大语言模型都采用了Transformer[3]架构,它是一个基于多层自注意力(Self-attention)的神经网络模型。

原始的Transformer由编码器(Encoder)和解码器(Decoder)两个部分构成,同时,这两个部分也可以独立使用。

例如基于编码器的BERT [4]模型和基于解码器的GPT [5]模型。

Llama模型与GPT类似,也是采用了基于解码器的架构。在原始Transformer解码器的基础上,Llama进行了如下改动:

  • 为了增强训练稳定性,采用前置的RMSNorm [6]作为层归一化方法。
  • 为了提高模型性能,采用SwiGLU [7]作为激活函数。
  • 为了更好地建模长序列数据,采用RoPE [8]作为位置编码。
  • 为了平衡效率和性能,部分模型采用了分组查询注意力机制(Grouped-Query Attention, GQA)[9]。

具体来说,首先将输入的token序列通过词嵌入(word embedding)矩阵转化为词向量序列。然后,词向量序列作为隐藏层状态依次通过

标签:训练,AI,模型,必学,Meta,Llama,字长,数据
From: https://blog.csdn.net/python1222_/article/details/141353425

相关文章

  • ollama搭建本地ai大模型并应用调用
    1、下载ollama1)https://ollama.com 进入网址,点击download下载2)下载后直接安装即可。2、启动配置模型默认是启动cmd窗口直接输入1ollamarunllama3启动llama3大模型 或者启动千问大模型1ollamarunqwen2启动输入你需要输入的问题即可 3、配置UI界面安装......
  • Oracle数据库必学!超实用的9个字符串处理函数
    Oracle查询语句中的单行函数,特别是一些常用的字符串处理函数。1.ConCAT函数作用:将两个字符串连接在一起,生成一个新的字符串。使用方法:concat(字符串1,字符串2)示例:SELECTconcat('Hello,','World')FROMDUAL;结果为:“Hello,World”。2.CHR与ASCII函数CHR函数......
  • AI绘画Stable Diffusion 必学技能——从零开始训练你的专属 Lora 模型!模型训练保姆级
    大家好,我是灵魂画师向阳接触AI绘画的小伙伴,一定听过Lora。Lora模型全称是:Low-RankAdaptationofLargeLanguageModels,可以理解为Stable-Diffusion中的一个插件,在生成图片时,Lora模型会与大模型结合使用,从而实现对输出图片结果的调整。我们举个更容易懂的例子:大模型就像......
  • 【实战教程】手把手教你微调热门大模型 Llama 3
    Llama3近期重磅发布,发布了8B和70B参数量的模型,我们对Llama3进行了微调!!!今天手把手教大家使用XTuner微调Llama3模型。Llama3概览首先我们来回顾一下Llama3亮点概览~首次出现8B模型,且8B模型与70B模型全系列使用GQA(GroupQueryAttention)。最......
  • 全面指南:LLMs中的Llama-3模型——简介、安装教程、使用技巧及案例实践详解
    LLMs之Llama3:Llama-3的简介、安装和使用方法、案例应用之详细攻略导读:2024年4月18日,Meta重磅推出了MetaLlama3,本文章主要介绍了Meta推出的新的开源大语言模型MetaLlama3。模型架构Llama3是一种自回归语言模型,采用了优化的Transformer架构。调优版本使用了监督......
  • (免费源码)计算机毕业设计必看必学 php 酒店预约管理系统-92767-原创定制程序 java、PHP
    摘 要随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,酒店预约管理系统当然也不能排除在外。酒店预约管理系统是以实际运用为开发背景,运用软件工程开发方法,采用Thinkphp技术构建的一个管理系统。整个开发过程首......
  • 开源最强Llama3.1 部署本地知识库应用
    一.环境介绍高性能应用服务HAI拥有丰富的预装应用,可以将开源社区的前沿模型快速转化为您专有的部署实践,一键拉起,即开即用。现已支持在HAI购买页的社区应用中,找到Llama3.1等应用的入口,简单选型后,即可一键启动推理服务。Chatchat项目介绍该项目利用langchain思想,实现......
  • 计算机毕业设计必看必学! ! 94755 spring boot高校毕业生就业信息管理系统,原创定制程
    摘 要信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对高校毕业生就业信息管理系统等问题,对高校毕业生就业信息管理系统进行研究分析,然后开发设计......
  • Ollama
    BiliBili视频官网:https://ollama.com/GitHub:https://github.com/ollama/ollama官方文档(GitHub):https://github.com/ollama/ollama/tree/main/docs标签:对话型,客户端,开源大模型网络部分需要访问GitHub,可以使用WattToolkit免费工具访问容器镜像,国内镜像被禁用,下载可查看......
  • 使用 Ollama 集成 GraphRag.Net:一步步教你如何实现
            在当今的技术世界,人工智能(AI)正在以惊人的速度发展。对于开发者来说,使用最新的工具和框架来提升工作效率至关重要。而在AI领域,GraphRag.Net作为一个强大的图算法框架,允许我们以高效的方式进行数据处理。同样,Ollama作为一个开源的、简单易用的AI模型部......