首页 > 其他分享 >主流大语言模型的技术原理细节

主流大语言模型的技术原理细节

时间:2023-09-24 09:02:17浏览次数:61  
标签:tuning 模型 Attention 并行 主流 细节 LLaMA adapter

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。
2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。
3. 大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

图片

1. 大语言模型的细节

1.0 transformer 与 LLM

图片

1.1 模型结构

图片

1.2 训练目标

图片

1.3 tokenizer

图片

1.4 位置编码

图片

1.5 层归一化

图片

1.6 激活函数

图片

1.7 Multi-query Attention 与 Grouped-query Attention

图片

1.8 并行 transformer block

图片

1.9 总结-训练稳定性

图片

2. LLM 的分布式预训练

图片

2.0 点对点通信与集体通信

图片

2.1 数据并行

图片

2.2 张量并行

图片
图片

2.3 流水线并行

图片

2.4 3D 并行

图片

2.5 混合精度训练

图片

2.6 激活重计算

图片

2.7 ZeRO,零冗余优化器

图片

2.8 CPU-offload,ZeRO-offload

图片

2.9 Flash Attention

图片

2.10 vLLM: Paged Attention

图片

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?

图片

3.1 prompt tuning

图片

3.2 prefix tuning

图片

3.3 adapter

图片

3.4 LLaMA adapter

图片

3.5 LoRA

图片

3.6 实验比较

图片

4. 参考文献

图片
  1. 分析 transformer 模型的参数量、计算量、中间激活、KV cache
  2. 【万字长文】LLaMA, ChatGLM, BLOOM 的高效参数微调实践
  3. FlashAttention:加速计算,节省显存, IO 感知的精确注意力

 

作者:spring

标签:tuning,模型,Attention,并行,主流,细节,LLaMA,adapter
From: https://www.cnblogs.com/88223100/p/Technical_principles_and_details_of_mainstream_large_la

相关文章

  • 能计算虫洞模型的算筹数字计算机电路图
     ......
  • 能计算虫洞模型的算筹数字计算机3
    能计算虫洞模型的算筹数字计算机3              第十一部分  古筹算考释计算电路下面的内容可参见清劳乃宣著《古筹算考释》,清劳乃宣,字玉初,桐乡人。此集系追述古代筹算之法,凡算术之涉乎筹者,均徽引著书,祥为考释。卷一筹制、算位、乘除、开方;卷二......
  • vivo亮相博鳌科创会 自研大模型即将发布
    2023年9月19日-21日,博鳌亚洲论坛国际科技与创新论坛第三届大会在广东珠海举行。长期以来,博鳌亚洲论坛与vivo保持着战略合作伙伴关系。今年3月,vivoXFold2系列手机荣膺博鳌亚洲论坛官方指定手机。在本次会议中,vivo执行副总裁、首席运营官、vivo中央研究院院长胡柏山,vivo副总裁、OS......
  • 金融行业迎来大模型时代,存算基建成决胜关键
    去年年底,ChatGPT诞生,凭借强大、精准的自然语言理解和生成能力,令全球用户为之一震。自此,各行各业纷纷投身大模型研发竞赛,掀起新一轮技术创新热潮。金融行业更是如此。如何构筑面向大模型时代的新型算力和存力基础设施,实现大模型能力向金融领域的迁移,成为金融机构热议的话题。金融大......
  • 金融行业迎来大模型时代,存算基建成决胜关键
    去年年底,ChatGPT诞生,凭借强大、精准的自然语言理解和生成能力,令全球用户为之一震。自此,各行各业纷纷投身大模型研发竞赛,掀起新一轮技术创新热潮。金融行业更是如此。如何构筑面向大模型时代的新型算力和存力基础设施,实现大模型能力向金融领域的迁移,成为金融机构热议的话题。金融大......
  • 【转载】人人都能看懂的大模型原理(四)
     四、AIGC可控生成原理       本章我们将揭露AIGC的神秘面纱,解答AIGC和大模型的区别和关系。我们也将讨论openAI和其他大模型公司的关键区别点,为什么他们能够遥遥领先。本章试图从机器学习理论出发,对图像生成和文本生成建立统一的理论。本章诸多理论和观点均为作者......
  • 小米云原生文件存储平台化实践:支撑 AI 训练、大模型、容器平台多项业务
    小米作为全球知名的科技巨头公司,已经在数百款产品中广泛应用了AI技术,这些产品包括手机、电视、智能音箱、儿童手表和翻译机等。这些AI应用主要都是通过小米的深度学习训练平台完成的。在训练平台的存储方案中,小米曾尝试了多种不同的存储方式,包括Ceph+NFS、HDFS和对象存储挂......
  • 【Python深度学习】深度学习中框架和模型的区别
        深度学习是人工智能领域的一股强大力量,它的快速发展离不开深度学习框架和模型的进步。本文将介绍深度学习框架和模型的基本概念、它们之间的联系与区别,以及如何根据项目需求选择合适的框架和模型。一、深度学习框架        深度学习框架是进行深度学习研......
  • 2023-09-21 裸k交易法 日内模型 低开
    低开高走  低开低走  ......
  • 搜索引擎排名因素有哪些具体的细节?
    搜索引擎排名因素有很多,以下是一些常见的因素:关键词密度和位置:搜索引擎会考虑关键词在网页上的出现频率和位置。关键词密度指的是关键词在网页内容中出现的频率与整个文本的比例。关键词的位置也很重要,例如,如果关键词出现在页面的顶部或标题标签中,则更有可能被搜索引擎重视。页......