首页 > 其他分享 >Llama3改进与亮点

Llama3改进与亮点

时间:2024-10-18 11:19:24浏览次数:8  
标签:训练 AI LLaMA3 模型 Llama3 亮点 改进 Llama 数据

0.简介

Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。

1.改进亮点

  1. 参数规模与模型架构:Llama 3提供了8B和70B两种参数规模的模型,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。同时,Llama 3采用了标准的纯解码器(decoder-only)Transformer架构,并引入了Group Query Attention(GQA)技术,提高了模型的推理效率和处理长文本的能力。
  2. 训练数据集的扩展:Llama 3的训练数据集比Llama 2大了7倍,包含了超过15万亿个token,其中包括4倍的代码数据,这使得Llama 3在理解和生成代码方面更加出色。
  3. 性能提升:通过改进的预训练和后训练过程,Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了显著进步。
  4. 安全性增强:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增强了模型的安全性和可靠性。
  5. 多语言支持:Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
训练数据模型参数上下文长度GQA训练Token数知识截止
Llama 3公开在线数据的新组合。8B8kYes15T+2023 年 3 月
公开在线数据的新组合。70B8kYes15T+2023 年 12 月

注意:训练Token数仅指预训练数据。

2.模型架构

2.1 通用GPT架构

主流的大语言模型都采用了Transformer[架构,它是一个基于多层自注意力(Self-attention)的神经网络模型。

原始的Transformer由编码器(Encoder)和解码器(Decoder)两个部分构成,同时,这两个部分也可以独立使用。例如基于编码器的BERT 模型和基于解码器的GPT模型。

Llama模型与GPT类似,也是采用了基于解码器的架构。在原始Transformer解码器的基础上,Llama进行了如下改动:

  • 为了增强训练稳定性,采用前置的**RMSNorm **作为层归一化方法。
  • 为了提高模型性能,采用**SwiGLU **作为激活函数。
  • 为了更好地建模长序列数据,采用**RoPE **作为位置编码。
  • 为了平衡效率和性能,部分模型采用了分组查询注意力机制**(Grouped-Query Attention, GQA)**。

具体来说,首先将输入的token序列通过词嵌入(word embedding)矩阵转化为词向量序列。然后,词向量序列作为隐藏层状态依次通过

标签:训练,AI,LLaMA3,模型,Llama3,亮点,改进,Llama,数据
From: https://blog.csdn.net/zhishi0000/article/details/143040708

相关文章

  • 一图为你揭秘云数据库GaussDB管理平台亮点
    云数据库GaussDB管理平台(TPOPS)是一款即开即用、稳定可靠、管理便捷的数据库运维管理平台。通过该平台,用户可以快速部署安装GauSSDB,实现智能化运维,大幅度提升运维和管理效率。一图带你揭秘云数据库GaussDB管理平台亮点。 华为开发者空间,汇聚鸿蒙、昇腾、鲲鹏、GaussDB、欧拉等......
  • YOLOv8改进 - 注意力篇 - 引入ShuffleAttention注意力机制
    一、本文介绍作为入门性篇章,这里介绍了ShuffleAttention注意力在YOLOv8中的使用。包含ShuffleAttention原理分析,ShuffleAttention的代码、ShuffleAttention的使用方法、以及添加以后的yaml文件及运行记录。二、ShuffleAttention原理分析ShuffleAttention官方论文地址:文章Sh......
  • 界面控件Telerik UI for WPF 2024 Q3亮点 - 支持禁用数据过滤等
    TelerikUIforWPF拥有超过100个控件来创建美观、高性能的桌面应用程序,同时还能快速构建企业级办公WPF应用程序。UIforWPF支持MVVM、触摸等,创建的应用程序可靠且结构良好,非常容易维护,其直观的API将无缝地集成VisualStudio工具箱中。本文将介绍界面组件TelerikUIforWPF在今......
  • YOLO11有效改进专栏目录
    |试读篇|使用YOLO11训练自己的数据集【下载模型】-【导入数据集】-【训练模型】-【评估模型】-【导出模型】YOLO11关键改进与网络结构图YOLO11改进|注意力机制篇|添加GAM、CBAM、CA、ECA等注意力机制YOLO11改进|卷积篇|引入可变核卷积AKConv|注意力机制篇|YOLO11改进|注意......
  • YOLOv11改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对C3k2进行二次
    一、本文介绍本文记录的是利用空间自适应特征调制模块SAFM优化YOLOv11的目标检测方法研究。SAFM通过更好地利用特征信息来实现模型性能和效率的平衡。本文通过二次创新C3k2,能够动态选择代表性特征,并结合局部上下文信息,提升模型的检测精度。专栏目录:YOLOv11改进目录一览......
  • YOLOv11改进策略【Conv和Transformer】| CVPR-2024 Single-Head Self-Attention 单头
    一、本文介绍本文记录的是利用单头自注意力SHSA改进YOLOv11检测模型,详细说明了优化原因,注意事项等。传统的自注意力机制虽能提升性能,但计算量大,内存访问成本高,而SHSA从根本上避免了多注意力头机制带来的计算冗余。并且改进后的模型在相同计算预算下,能够堆叠更多宽度更大的......
  • 界面组件DevExpress WPF v24.1亮点 - 支持全新的字体图标图像
    DevExpressWPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpressWPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。DevExpressWPF控件日前正式发布了今年一个重大版......
  • YOLOv11改进 | 代码逐行解析(一) | 项目目录构造分析
     一、本文介绍Hello,大家好这次给大家带来的不是改进,是整个YOLOv11项目的分析,整个系列大概会更新5-7篇左右的文章,从项目的目录到每一个功能代码的都会进行详细的讲解,下面开始进行YOLOv11逐行解析的第一篇——项目目录构造分析开头之前顺便给大家推荐一下我的专栏,本专栏更新上......
  • 【路径规划】一种考虑拥塞的改进路径规划算法[CCPF-RRT*](Matlab代码实现)
    ......
  • 非线性非高斯模型的改进粒子滤波算法(Matlab代码实现)
      ......