通用大语言模型(Large Language Models,LLMs)通常需要通过进一步的预训练,以深入掌握特定领域的专业知识。为提升领域大语言模型的预训练效率,并在一定程度上降低对训练数据和资源的依赖,本文提出了一种名为PreparedLLM的“前预训练”框架。该框架旨在优化预训练过程,助力领域模型更高效地获取专业知识。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
01
研究背景
通用大语言模型(LLM)在特定领域任务中的表现受限于领域数据的稀缺性、领域语义的差异性以及领域知识的复杂性。为弥补这一不足,现有方法通常通过领域数据进行继续预训练(Continual Pretraining),以掌握该领域的专业知识并通过对齐(Alignment)提升其解决领域任务的能力。然而,继续预训练往往需要大量的训练数据和资源。在“前预训练”(Pre-pretraining,即继续预训练之前)阶段对LLM进行精细优化,不仅能够提升其训练效率,还能显著增强大语言模型的性能表现。同时,这种优化策略有助于减少对训练数据和资源的需求。
图1. 训练领域LLM的三个阶段:前预训练(得到精细优化的基座模型)、预训练(得到具备领域知识的基座模型)、对齐(得到具备解决领域任务能力的指令模型)
02
研究方法
PreparedLLM框架包括四个关键模块:数据菜谱、数据清洗、词表扩充和嵌入初始化,旨在优化领域LLM的预训练过程。
· 数据菜谱: 构建了一个多样化且大规模的预训练语料库,确保训练广泛覆盖领域内的专业知识。
· 数据清洗: 设计了精细的数据清洗流程,结合fastText、KenLM等工具快速过滤低质量数据,并通过启发式方法和正则表达式去除非法信息和隐私信息,在字符、单词、段落和文档四个层次进行数据去重,从而为LLM提供高质量的训练数据。
· 词表扩充: 采用SentencePiece在大规模地球科学语料库上训练领域词表;人工筛选高质量词表,构造了通用词表。这些词表有助于提升LLM的训练速度与推理速度。
· 嵌入初始化: 提出基于语义和噪声叠加的嵌入初始化策略,以加快LLM的收敛速度。
图2. PreparedLLM的四个模块:数据菜谱、数据清洗、词表扩充、嵌入初始化
03
研究结果
本文以地球科学领域为例,使用PreparedLLM框架对Llama-7b进行继续预训练,构建了地球科学领域大语言模型Prepared-Llama。通过OpenCompass评测框架,将Prepared-Llama与同样基于Llama-7b的地球科学大语言模型K2(其base版本,即GeoLLaMA)及原始Llama-7b进行对比。结果表明,在使用了更少训练数据量的情况下,Prepared-Llama在地球科学领域任务和通用任务中的表现非常出色(如表1和表2所示)。
表1. LLMs在地球科学任务上的表现
表2. LLMs在通用任务上的表现
为了进一步验证PreparedLLM框架中各模块对LLM性能的贡献,本文开展了消融实验,使用约10%的预训练数据进行训练。实验结果显示,数据清洗和嵌入初始化加速了模型训练过程中交叉熵损失的下降,提升了模型的收敛速度(如图3所示)。此外,词表扩充提高了模型的编解码效率,有助于提升模型的训练速度和推理速度(如表3所示)。
图3. 数据清洗和嵌入初始化对LLM收敛速度的影响
表3. PreparedLLM词表与基线模型词表性能对比
此外,本文展示了PreparedLLM优化后的Prepared-Llama在预训练过程中的性能变化趋势。由图4可见,随着训练的进行,Prepared-Llama在地球科学领域和通用评测基准上的得分持续上升,表明PreparedLLM框架在提升领域LLM训练效率和性能方面的有效性和潜力。
图4. Prepared-Llama预训练过程中的性能变化
04
研究结论
本文提出的PreparedLLM框架在“前预训练”阶段通过精细优化模型的训练过程,不仅减少了训练数据和资源需求,还显著提升了领域LLM的收敛速度、训练效率、推理速度及在领域任务和通用任务中的整体表现。PreparedLLM框架展现出作为训练领域LLM基础框架的潜力,为构建高性能的领域大语言模型提供了新的解决方案。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
标签:前预,高效,训练,模型,词表,领域,PreparedLLM,LLM From: https://blog.csdn.net/aolan123/article/details/144267653