首页 > 其他分享 >北邮&剑桥最新SLM(小语言模型)研究综述

北邮&剑桥最新SLM(小语言模型)研究综述

时间:2024-09-28 23:49:26浏览次数:11  
标签:SLMs 综述 训练 FFN 北邮 模型 tokens SLM 数据

今天介绍的这篇文章是关于小型语言模型(Small Language Models, SLMs)的研究综述,作者团队来自北京邮电大学、鹏城实验室、Helixon Research、剑桥大学等机构。

语言模型的发展目前呈现出分歧,一方面是追求人工通用智能的LLMs,在训练和推理双scaling law的指引下不断加大计算量;另一方面是为了ROI考虑,快速迭代、低成本训练&推理而提出的SLMs。

前者是为了扩宽现有通用人工智能技术解决问题能力的边界,是仰望星空,在各种自媒体资讯的轰炸中,已经处于舞台灯光的中心;

后者是为了加速LLM在各个领域的落地,是脚踏实地,是让LLM这波技术革命发挥经济效益的关键假设,幕后坚强的后盾。

论文调研了59个最先进的开源SLMs,分析了它们的技术创新,包括架构、训练数据集和训练算法。

图片

模型架构

SLMs通常采用基于Transformer的decoder架构,参数范围在100M到5B之间。

作者们对的几个主要组成部分进行了详细的统计分析:

  1. 自注意力的类型:自注意力机制是Transformer模型的核心。SLMs主要使用以下四种注意力机制之一:多头自注意力(Multi-Head Attention, MHA)、多查询注意力(Multi-Query Attention, MQA)、组查询注意力(Group-Query Attention, GQA)和多头潜在注意力(Multi-Head Latent Attention, MLA)。这些机制的不同之处在于它们处理输入数据的方式,例如MHA通过多个注意力头同时关注输入数据的不同部分,而MQA、GQA和MLA则通过不同的方式减少计算复杂性。

  2. 前馈神经网络的类型:前馈网络可以分为标准前馈网络(Standard FFN)和带门控的前馈网络(Gated FFN)。标准前馈网络是一个带有激活函数的两层神经网络,而带门控的前馈网络则增加了额外的门控层。

  3. FFN的中间比率:FFN的中间比率是指中间维度与隐藏维度的比率。不同的FFN配置对模型的性能和效率有不同的影响。

  4. FFN的激活函数:FFN使用的激活函数主要有四种:ReLU(Rectified Linear Unit)、GELU(Gaussian Error Linear Unit)、GELUtanh和SiLU(Sigmoid Linear Unit)。不同的激活函数对模型的非线性处理能力有影响。

  5. 层归一化类型:层归一化主要有LayerNorm和RMSNorm两种类型。归一化是用于稳定训练过程和加速收敛的技术。

  6. 词汇量大小:词汇量是模型能够识别的独特标记的总数。词汇量的大小直接影响模型处理语言的能力。

作者们还讨论了SLMs在架构上的创新,包括参数共享和逐层参数缩放等技术。参数共享是通过在不同层或网络组件之间重用同一组权重来减少参数数量,从而提高训练和推理的效率。逐层参数缩放则是允许模型中的每个Transformer层有不同的配置,以便更好地利用可用的参数预算。

图片

图片

训练数据

作者发现共有12个这样的数据集被用于训练SLMs,这些数据集的多样性和质量直接影响了模型的性能。

  1. The Pile  (825B tokens): 这是一个由多个较小的、不同领域的语料库组合而成的大型数据集。

  2. FineWeb-Edu (1.3T tokens): 从FineWeb中筛选出来的教育文本的集合。

  3. StarCoder (35B tokens): 包含Python代码的语料库。

  4. Cosmopedia  (25B tokens): 由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博客文章、故事、帖子和WikiHow文章的数据集。

  5. RefinedWeb (5T tokens): 从CommonCrawl中提取的经过广泛筛选的、高质量的网页数据。

  6. RedPajama (1.2T tokens): 包括来自84个CommonCrawl快照的超过100B个文本文件,并使用CCNet管道进行处理。

  7. Dolma : 一个英语语料库,使用MinHash算法进行了内部和跨语料库的去重。

  8. WuDaoCorpora(4T tokens): 一个超大规模的中文语料库,包含约3T的训练数据和1.08T的汉字。

  9. RoBERTa CCNewsV2: 包含CommonCrawl新闻数据集的英文部分的更新版本。

  10. PushShift.io Reddit: 自2015年以来收集Reddit数据并供研究人员使用的社交媒体数据收集、分析和归档平台。

  11. DCLM-baseline (1.35T tokens): 从Common Crawl提取的标准语料库,基于OpenLM框架的有效预训练配方,以及53个下游评估的广泛套件。

  12. CulturaX (6.3T tokens): 一个庞大的多语言数据集,包含167种语言。

作者们还对这些数据集的使用偏好进行了统计分析,发现数据集的选择随着时间的推移而多样化。例如,The Pile在2022年和2023年被广泛使用,但最近逐渐被其他数据集所取代,如RefinedWeb和RedPajama。

此外,作者们还探讨了预训练数据集的质量对SLMs性能的影响。他们根据模型在常识推理和问题解决任务上的平均准确率,将过去三年的SLMs分为小于0.5B、1B、2B和3B的参数组,并分析了这些数据集的质量。研究发现,最近发布的两个数据集,DCLM和FineWeb-Edu,由于采用了基于模型的数据过滤,因此在性能上显示出了优越性。

图片

训练算法

在这一部分,文章探讨了用于提升小型语言模型(SLMs)性能的几种创新训练方法。这些方法致力于通过改进模型的学习能力和知识迁移效率,从而提高模型在实际应用中的表现。

  1. 最大更新参数化(Maximal Update Parameterization, µP):

    • 这种方法控制初始化、逐层学习率和激活幅度,以确保模型训练在不同层宽度下都能保持分析上的稳定性。

    • 除了提高训练稳定性外,µP还提高了训练超参数(尤其是学习率)从小规模模型到大规模模型的可转移性。

    • 例如,Cerebras-GPT就是使用最大更新参数化来训练模型的。

  2. 知识蒸馏(Knowledge Distillation):

    • 知识蒸馏是大型语言模型(LLMs)领域的一个重要概念,它涉及从大型复杂的教师模型中提取有价值的知识,并将其传递给更小、更高效的学生模型。

    • 该技术的核心是让学生模型学习接近教师模型的行为和预测,通过最小化两者输出之间的差异来实现。

    • 例如,LaMini-GPT和Gemma-2就采用了知识蒸馏技术。

  3. 二阶段预训练策略(Two Stage Pre-training Strategy):

    • 这种策略涉及将模型训练分为两个不同的阶段。

    • 在预训练阶段,模型仅使用大规模但质量较低的预训练数据,这些数据量大且能支持持续训练,尤其是在提供更多计算资源的情况下。

    • 在退火阶段,使用多样化和高质量的特定领域预训练数据,这些数据被混合到预训练数据中。

    • MiniCPM采用了二阶段预训练策略。

这些训练算法的引入和应用,为SLMs的性能提升和应用范围拓展提供了新的可能性。通过这些方法,研究者能够更有效地利用有限的资源来训练出性能更强的模型,同时保持模型的尺寸和运行成本在可接受的范围内。

SLM的能力

图片

SLM运行成本

图片

图片

附录:

https://arxiv.org/pdf/2409.15790

欢迎微信扫码关注nlp之路,发送LLM领取奖品~

标签:SLMs,综述,训练,FFN,北邮,模型,tokens,SLM,数据
From: https://blog.csdn.net/jude2013/article/details/142624244

相关文章

  • 小模型(SLM)的效率、性能和潜力
    关于小语言模型小语言模型(slm)是为在桌面、智能手机和可穿戴设备上进行资源高效部署而设计的。其目标是使先进的机器智能能够为每个人所使用和负担得起,就像人类认知的普遍性一样。小语言模型(slm)已经广泛集成到商业设备中。例如,最新的谷歌和三星智能手机内置了大型语言模型(......
  • 文献阅读笔记|合成医学图像数据综述|Generating Synthetic Data for Medical Imaging
    论文链接:https://doi.org/10.1148/radiol.232471论文信息:GeneratingSyntheticDataforMedicalImaging,综述,2023年9月14日投稿,2024年3月1日接收,2024年9月10日发表于Radiology蓝色字体标注对我而言的新知识目录绪论需求决定合成数据的应用合成数据应具备的特点合成图像的应用1......
  • 文本摘要综述—从统计方法到大型语言模型综述介绍,原文阅读:A Systematic Survey of Tex
    ASystematicSurveyofTextSummarization:FromStatisticalMethodstoLargeLanguageModels文本摘要的系统综述:从统计方法到大型语言模型paper:https://arxiv.org/abs/2406.11289文章目录~原文阅读Abstract1.Introduction1.1.MajorDifferences1.2.MainContri......
  • 无线安全综述
    目录无线安全综述(一)未经授权的访问(二)数据窃取(三)网络干扰(四)恶意软件传播(一)使用强密码(二)启用加密(三)隐藏无线网络名称(SSID)(四)启用MAC地址过滤(五)定期更新固件(一)Aircrack-ng(二)Wireshark(三)Netsh一、无线安全术语SSID(ServiceSetIdentifier):服务集标识符,用于标识一......
  • 药物分子生成算法综述:从生成对抗网络到变换器模型的多样化选择
    创作不易,您的打赏、关注、点赞、收藏和转发是我坚持下去的动力!基于已有的药物数据生成新的药物分子是一项复杂的任务,通常涉及到生成模型和机器学习算法。以下是一些常用的算法和方法:1.生成对抗网络(GANs)特点:由生成器和判别器两个神经网络组成,生成器生成新分子,判别......
  • 【人工智能时代】- 同济大学发布最新检索增强(RAG)的LLM生成技术综述
    摘要1引言1.1大型语言模型的进步1.2面临的挑战1.3解决方案:检索增强生成(RAG)1.4RAG的研究和发展1.5研究背景2背景2.1RAG的定义2.2RAGvs微调2.3RAG的优势3RAG框架3.1原始RAG(NaiveRAG)3.2高级RAG(AdvancedRAG)3.2.1预检......
  • 自然语言处理综述笔记
    自然语言处理综述自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。自然语言处理主要分两个流程:自然语言理解(NLU)和自然语言生成(NLG)处理流程大致可分为五步:第一步获取语料。第二步对语料进行预处理,其中包括语料......
  • Nature Genetics | Rajeev K. Varshney综述:解锁植物遗传学的端粒到端粒(T2T)基因组组装
    近期,RajeevK.Varshney团队在Naturegenetics发表综述文章:Unlockingplantgeneticswithtelomere-to-telomeregenomeassemblies。摘要连续基因组序列组装将帮助我们实现作物转化基因组学的全面潜力。最近在测序技术方面的进步,尤其是长读长测序策略,使得构建无间隙的端粒到端粒(T......
  • 论文阅读笔记 --- 图模互补:知识图谱与大模型融合综述 --- 按参考文献整理
    论文阅读笔记---图模互补:知识图谱与大模型融合综述---按参考文献整理关于首次发表日期:2024-09-13论文原文链接:http://xblx.whu.edu.cn/zh/article/doi/10.14188/j.1671-8836.2024.0040/将文章中的参考文献整理一下,基本保持原文的目录结构引言、相关介绍KnowledgeGra......
  • 2024年的端到端自动驾驶综述
    2024年的端到端自动驾驶综述这是一篇比较新的2024年端到端自动驾驶的综述文章。目前在arXiv上可以阅读到。https://arxiv.org/abs/2306.16927v3​arxiv.org/abs/2306.16927v3阅读之后写下这篇文章记录我的一些学习心得。本文将遵循整篇论文的框架进行写作,但是我不太愿意......