Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

时间：2024-09-28 10:19:42浏览次数：9

标签：剪枝 Training Semi Language AST 结构化模型稀疏 LLM

本文是LLM系列文章，针对《Pruning Large Language Models with Semi-Structural Adaptive Sparse Training》的翻译。

通过半结构化自适应稀疏训练修剪大型语言模型

摘要
1 引言
2 相关工作
3 方法
4 实验
5 结论

摘要

大型语言模型（LLM）在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模，由于其大量的内存消耗，这给模型部署带来了挑战。最近，许多研究尝试使用一次性剪枝方法来压缩 LLM。然而，这些方法在复杂的语言理解任务上通常会出现相当大的性能下降，这使人们对LLM中剪枝的可行性产生了质疑。为了解决这个问题，我们提出了一种通过再训练对半结构化稀疏模型进行修剪的管道，称为自适应稀疏训练器（AST）。与之前的一次性剪枝方法不同，AST 通过对屏蔽权重应用衰减，逐步将密集模型转换为稀疏模型，同时允许模型在整个训练过程中自适应选择屏蔽。此外，我们观察到使用密集模型的蒸馏作为教师可以防止稀疏模型陷入局部最优并加速收敛。此外，我们还结合了额外的良好初始化参数，以在内存占用量增加最小的情况下进一步增强模型性能。 AST 可以显着增强模型性能，接近密集模型的水平。当应用于 LLaMA2-7B 模型时，AST 在多个零样本任务中将密集模型和半结构化稀疏模型之间的零样本精度差距缩小到 1.12%，而使用的预训练token不到 0.4%。我们的工作证明了部署半结构化稀疏大型语言模型的可行性，并介绍了一种

标签：剪枝,Training,Semi,Language,AST,结构化,模型,稀疏,LLM
From： https://blog.csdn.net/c_cpp_csharp/article/details/142450112

《Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining
系列论文研读目录文章目录系列论文研读目录摘要1.引言2.相关工作3.方法3.1.模型概述3.2.提取以实例为中心的表示法3.3.多模式预培训目标3.4.转移到下游任务4.实验预训练细节4.2.下游任务评价4.2.1零冲击产品分类4.2.2zero-shot图像-文本检索4.2.3零次产品检索4.2.4零......
关于Clion汉化失败Plugin “Chinese (Simplified) Language Pack / 中文语言包“ was
关于Clion汉化失败出现Plugin"Chinese(Simplified)LanguagePack/中文语言包"wasnotinstalled:Invalidfilenamereturnedbyaserver意思是你安装的汉化包不可被识别，截止到23/7/22pluginsmarket搜索到的汉化包版本不再能兼容21版本的clion了解决方法有两个1.升......
semi-sync原主库加入集群阻塞问题分析
问题现象客户在一个一主两从的半同步复制环境下做了手工切换，然后尝试把原主库加入集群中，结果发现新集群中的数据一直无法同步到slave（原主库）中来，查看slave（原主库）同步状态，IO线程和SQL线程都是YES状态，但是Seconds_Behind_Master大于0.查看showprocesslist状态,发现SQL线程一......
MT5016A-ASEMI三相整流桥MT5016A
编辑：llMT5016A-ASEMI三相整流桥MT5016A型号：MT5016A品牌：ASEMI封装：D-63批号：2024+类型：三相整流桥电流（ID）：50A电压(VF)：1600V安装方式：直插式封装特性：大功率、整流方桥产品引线数量：4产品内部芯片个数：4产品内部芯片尺寸：MIL工作结温：-55℃~150℃功率：大功率包装方式：500/盒：3000/箱MT5016A应用领......
MT5016A-ASEMI三相整流桥MT5016A
编辑：llMT5016A-ASEMI三相整流桥MT5016A型号：MT5016A品牌：ASEMI封装：D-63批号：2024+类型：三相整流桥电流（ID）：50A电压(VF)：1600V安装方式：直插式封装特性：大功率、整流方桥产品引线数量：4产品内部芯片个数：4产品内部芯片尺寸：MIL工作结温：-55℃~150℃功率：大功率包装方式：500/盒：3000......
36MT160-ASEMI三相电机专用36MT160
编辑：ll36MT160-ASEMI三相电机专用36MT160型号：36MT160品牌：ASEMI封装：D-63批号：2024+分类：整流桥特性：整流方桥、三相整流桥平均正向整流电流（Id）：35A最大反向击穿电压（VRM）：1600V恢复时间：＞2000ns结温：-55℃~150℃正向峰值电压：1.10V引脚数量：4芯片个数：4芯片尺寸：MIL36MT160特点芯片与底板电气绝缘真......
36MT160-ASEMI三相电机专用36MT160
编辑：ll36MT160-ASEMI三相电机专用36MT160型号：36MT160品牌：ASEMI封装：D-63批号：2024+分类：整流桥特性：整流方桥、三相整流桥平均正向整流电流（Id）：35A最大反向击穿电压（VRM）：1600V恢复时间：＞2000ns结温：-55℃~150℃正向峰值电压：1.10V引脚数量：4芯片个数：4芯片尺寸：MIL36MT160特点芯......
KBU1010-ASEMI单向整流桥KBU1010
编辑：llKBU1010-ASEMI单向整流桥KBU1010型号：KBU1010品牌：ASEMI封装：KBU-4批号：2024+类型：单向整流桥电流（ID）：10A电压(VF)：1000V安装方式：直插式封装特性：大功率、整流扁桥产品引线数量：4产品内部芯片个数：4产品内部芯片尺寸：MIL工作结温：-55℃~150℃功率：中小功率包装方式：500/盒：3000/箱KBU1010应用......
KBU1010-ASEMI单向整流桥KBU1010
编辑：llKBU1010-ASEMI单向整流桥KBU1010型号：KBU1010品牌：ASEMI封装：KBU-4批号：2024+类型：单向整流桥电流（ID）：10A电压(VF)：1000V安装方式：直插式封装特性：大功率、整流扁桥产品引线数量：4产品内部芯片个数：4产品内部芯片尺寸：MIL工作结温：-55℃~150℃功率：中小功率包装方式：500/盒：3......
LoRA: Low-Rank Adaptation of Large Language Models 笔记
问题背景⼤模型通常包含数亿甚⾄数百亿个参数，对其进⾏微调需要⼤量的计算资源和存储空间。在微调过程中，直接修改预训练模型的所有参数可能会破坏模型的原始性能。存储和部署微调后的⼤模型需要⼤量存储空间，尤其是当需要在多个应⽤场景中部署不同微调版本时。许多微调⽅法会增......

Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

通过半结构化自适应稀疏训练修剪大型语言模型

摘要

相关文章

赞助商

阅读排行