首页 > 其他分享 >轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

时间:2024-09-24 14:54:54浏览次数:11  
标签:A100 训练 TinyLlama 模型 token LiteLlama 轻量级


前言

当大家都在研究大模型(LLM)参数规模达到百亿甚至千亿级别的同时,小巧且兼具高性能的小模型开始受到研究者的关注。

小模型在边缘设备上有着广泛的应用,如智能手机、物联网设备和嵌入式系统,这些边缘设备通常具有有限的计算能力和存储空间,它们无法有效地运行大型语言模型。因此,深入探究小型模型显得尤为重要。

接下来我们要介绍的这两项研究,可能满足你对小模型的需求。

TinyLlama-1.1B

来自新加坡科技设计大学(SUTD)的研究者近日推出了 TinyLlama,该语言模型的参数量为 11 亿,在大约 3 万亿个 token 上预训练而成。

TinyLlama 以 Llama 2 架构和分词器(tokenizer)为基础,这意味着 TinyLlama 可以在许多基于 Llama 的开源项目中即插即用。此外,TinyLlama 只有 11 亿的参数,体积小巧,适用于需要限制计算和内存占用的多种应用。

该研究表示仅需 16 块 A100-40G 的 GPU,便可在 90 天内完成 TinyLlama 的训练。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_ai

该项目从上线开始,持续受到关注,目前星标量达到 4.7K。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_ai_02

TinyLlama 模型架构详细信息如下所示:

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_语言模型_03

训练细节如下:

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_ai_04

研究者表示,这项研究旨在挖掘使用较大数据集训练较小模型的潜力。他们重点探究在用远大于扩展定律(scaling law)建议的 token 数量进行训练时,较小模型的行为表现。

具体来说,该研究使用大约 3 万亿个 token 训练具有 1.1B 个参数的 Transformer (仅解码器)模型。据了解,这是第一次尝试使用如此大量的数据来训练具有 1B 参数的模型。

尽管规模相对较小,但 TinyLlama 在一系列下游任务中表现相当出色,它的性能显著优于同等大小的现有开源语言模型。具体来说,TinyLlama 在各种下游任务中都超越了 OPT-1.3B 和 Pythia1.4B 。

此外,TinyLlama 还用到了各种优化方法,如 flash attention 2、FSDP( Fully Sharded Data Parallel )、 xFormers 等。

在这些技术的加持下,TinyLlama 训练吞吐量达到了每 A100-40G GPU 每秒 24000 个 token。例如,TinyLlama-1.1B 模型对于 300B token 仅需要 3,456 A100 GPU 小时,而 Pythia 为 4,830 小时,MPT 为 7,920 小时。这显示了该研究优化的有效性以及在大规模模型训练中节省大量时间和资源的潜力。

TinyLlama 实现了 24k tokens / 秒 / A100 的训练速度,这个速度好比用户可以在 8 个 A100 上用 32 小时训练一个具有 11 亿参数、220 亿 token 的 chinchilla-optimial 的模型。同时,这些优化也大大减少了显存占用,用户可以把 11 亿参数的模型塞入 40GB 的 GPU 里面还能同时维持 16k tokens 的 per-gpu batch size。只需要把 batch size 改小一点, 你就可以在 RTX 3090/4090 上面训练 TinyLlama。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_语言模型_05

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_语言模型_06

实验中,该研究主要关注具有纯解码器架构的语言模型,包含大约 10 亿个参数。具体来说,该研究将 TinyLlama 与 OPT-1.3B、Pythia-1.0B 和 Pythia-1.4B 进行了比较。

TinyLlama 在常识推理任务上的性能如下所示,可以看出 TinyLlama 在许多任务上都优于基线,并获得了最高的平均分数。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_语言模型_07

此外,研究者在预训练期间跟踪了 TinyLlama 在常识推理基准上的准确率,如图 2 所示,TinyLlama 的性能随着计算资源的增加而提高,在大多数基准中超过了 Pythia-1.4B 的准确率。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_人工智能_08

表3表明,与现有模型相比,TinyLlama 表现出了更好的问题解决能力。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_ai_09

手快的网友已经开始整活了:运行效果出奇得好,在 GTX3060 上运行,能以 136 tok / 秒的速度运行。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_人工智能_10

「确实是快!」

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_人工智能_11

小模型 LiteLlama

由于 TinyLlama 的发布,SLM(小型语言模型)开始引起广泛关注。德克萨斯工农大学的 Xiaotian Han 发布了 SLM-LiteLlama。它有 460M 参数,由 1T token 进行训练。这是对 Meta AI 的 LLaMa 2 的开源复刻版本,但模型规模显著缩小。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_transformer_12

项目地址:https://huggingface.co/ahxt/LiteLlama-460M-1T

LiteLlama-460M-1T 在 RedPajama 数据集上进行训练,并使用 GPT2Tokenizer 对文本进行 token 化。作者在 MMLU 任务上对该模型进行评估,结果如下图所示,在参数量大幅减少的情况下,LiteLlama-460M-1T 仍能取得与其他模型相媲美或更好的成绩。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_agi_13

以下为该模型的性能表现,更详细内容请参阅:

https://huggingface.co/datasets/open-llm-leaderboard/details_ahxt__llama2_xs_460M_experimental

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_语言模型_14

面对规模大幅缩小的 LiteLlama,有网友好奇,它是否能够在 4GB 的内存上运行。如果你也想知道,不如亲自试试看吧。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了_agi_15



标签:A100,训练,TinyLlama,模型,token,LiteLlama,轻量级
From: https://blog.51cto.com/u_16163452/12099851

相关文章

  • AI大模型推理性能优化之KV Cache
    前言本篇介绍KVCache。KVCache(键-值缓存)是一种在大模型推理中广泛应用的优化技术,其核心思想是利用缓存key和value来避免重复计算,从而提高推理效率。代价是显存占用会增加。核心思想在自注意力层的计算中,对于给定的输入序列,模型会计算每个token的key和value向量。这些向量的值......
  • 为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了?
    前言本篇介绍为什么多模态大语言模型(MLLM)最近的工作中用BLIP2中Q-Former结构的变少了?简单来说,相较于MLP的方案,即LLaVA-1.5,BLIP-2中的Q-Former模型在参数量上更为庞大,其收敛过程也相对缓慢。在同等条件下,Q-Former的性能并未达到LLaVA-1.5所展现出的卓越水平。值得注意的是,即使在数据......
  • AI大模型面经之BERT和GPT的区别
    前言本篇介绍bert和gpt区别。BERT和GPT是自然语言处理(NLP)领域中的两种重要预训练语言模型,它们在多个方面存在显著的区别。以下是对BERT和GPT区别的详细分析一、模型基础与架构BERT:全称:BidirectionalEncoderRepresentationsfromTransformers。架构:基于Transformer的编码器部分进......
  • AI大模型大厂面经——LoRA面试题最全总结
    前言大家的显卡都比较吃紧,LoRA家族越来越壮大,基于LoRA出现了各种各样的改进,最近比较火的一个改进版是dora,听大家反馈口碑也不错。基于PEFT的话用409024G显存也可以进行大模型的微调,所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分:1、LoRA总述2、LoRA家族......
  • JMeter与大模型融合应用之JMeter菜单栏中切入大模型交互详解
    JMeter与大模型融合应用之JMeter菜单栏中切入大模型交互详解门槛要求本文开始,我们就具体针对JMeter与大模型之间的具体功能实现进行详细介绍。在具体介绍之前,这里需要说明几点:第一:本文所有开发的特性都是基于JMeter5.1.1版本进行开发。第二:针对JMeter如何从官网下载源......
  • 详解2024 openAi最新gpt o1模型分析
    探索GPT的O1模型:一场人工智能的革命在人工智能领域,尤其是自然语言处理(NLP)领域,模型的不断迭代和升级为我们带来了前所未有的机遇。最近,OpenAI发布了全新的O1模型,这一创新不仅在技术上取得了重大突破,也为各行各业的应用提供了更多可能性。本文将深入探讨O1模型的核......
  • 美图视频生成大模型「奇想」完成升级;李飞飞:空间智能不仅适用虚拟世界生成,还可融合现实
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编......
  • 详解Diffusion扩散模型:理论、架构与实现
    本文深入探讨了Diffusion扩散模型的概念、架构设计与算法实现,详细解析了模型的前向与逆向过程、编码器与解码器的设计、网络结构与训练过程,结合PyTorch代码示例,提供全面的技术指导。关注TechLead,复旦AI博士,分享AI领域全维度知识与研究。拥有10+年AI领域研究经验、复旦机器人智......
  • 马斯洛需求理论(人类需求的五个层次)&用户体验五要素&四点心智模型
    一:核心用户1.1什么是核心用户潜在用户:未使用该产品的用户,但是有使用的需求。目标用户:已经使用产品的普通用户,活跃度低。种子用户:活跃度比较高,对产品的熟悉程度比较高,乐意优先测试新功能并给出积极反馈的用户。通常新功能优先开放给这些用户使用,等用户反馈后再优化一版再开放......
  • 需求分析方法(场景五要素&5W3H&Y模型&MECE法则&人性七宗罪)
    一:业务需求和产品需求产品需求是对用户真实需求的提炼,形成产品需求后,要制定复合产品定位的解决方案,进而满足业务上的需求。需求分析就是将用户的需求(目的、想法、问题等)转为对应的产品解决方案(产品结构+产品流程+产品功能)。1.1需求的辨别需求真实:不是所有需求都是用户需要的。需......