大语言模型【基础】（二）微调需要多少算力？

时间：2025-01-02 11:26:44浏览次数：3

标签：显存算力模型微调 1B LoRA 占用

微调模型需要多少的GPU显存？

一、模型【训练】占用显存

【QWen2.5-32B为例】模型配置情况如下所示

方法一：较为精确估计全量微调占用情况

结论

根据模型配置和假设的 batch size、序列长度：

总显存需求：约 388 GB
所需卡数：至少 13 张昇腾 910B 卡 才能满足显存需求，推荐使用 13 张卡以确保运行流畅。

如果 batch size 或序列长度更大，显存需求和卡数将进一步增加。

方法二：粗略估计微调占用情况

【全量微调模型】占用情况 = 模型参数 + 梯度 + 优化器 + cuda keral + 中间计算结果

数据类型：pf16 （16bit = 2bytes）

估算的比例：1B的模型 ~ 2GB的模型参数 ~ 2GB的梯度 ~ 8GB的优化器+其他（共4倍）

1B模型 ~ 12GB

【LoRA微调】占用情况 = 模型参数 + 梯度（LoRA） + 优化器（LoRA）+ 其他

数据类型：pf16

LoRA Adapter：2.5%

估算的比例：1B的模型 ~ 2GB的模型参数 ~ 0.05GB的梯度 ~ 0.25GB的优化器+其他

1B模型 ~ 2.3GB

【QLoRA微调】占用情况（相较于LoRA，变动的地方在模型参数部分）

数据类型：8bit or 4bit

注意：以上都是基本的估算，具体的情况还是要考虑其他要素：单卡训练、多卡训练、单节点训练、多节点训练、deepspeed等。

二、模型【推理】占用显存

数据类型：pf16

1B模型 ~ 约2GB

剩下的估算都差不多，可以自行推理。

（可以粗略认为是训练模型占用情况的45%~55%）

【再次强调，大模型占用显存的情况是多方面的因素综合下来得到的结果，上面所有的仅作为在选模型阶段对硬件需求的一个大体估量，在实际项目做出来的会有差异】

下面附上文中提到的一些技术栈的出处，如果觉得文章对您有帮助，请点赞关注博主，博主会不定期分享对于大模型的一些学习心得，期待与大家一起交流探讨，谢谢！

估算大模型微调预训练算力资源的文章：

[2404.10933] LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs

QLoRA微调：[2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs

LoRA微调：[2106.09685] LoRA: Low-Rank Adaptation of Large Language Models

标签：显存,算力,模型,微调,1B,LoRA,占用
From： https://blog.csdn.net/qq_45990786/article/details/144844385

大语言模型（LLM）如何改变金融风控？
近年来，随着科技的飞速发展，金融风险控制领域也在悄然发生变革。其中，大语言模型（LLM）无疑是推动这一变革的重要力量。作为一项具备理解、生成、多模态融合和推理决策能力的技术，LLM正逐步渗透到金融风控的各个环节，帮助企业在复杂的风险环境中保持前瞻性和智能化的应对能力。今天，我们......
我的天！腾讯大模型岗面试太强了吧，真的hold不住了
最近金九银十，跑了很多场面试，其中令我印象最为深刻的就是腾讯的大模型面试了，真的太强了，问的问题都好尖锐，很专业，面试过程中紧张的全身冒冷汗…真的hold不住了，回来整理了一下面经，希望对大家有帮助！如何学习大模型下面这些都是我当初辛苦整理和花钱购买的资料，现在我......
打造三甲医院人工智能矩阵新引擎：文本大模型篇--基于GPT-4o的探索（一）
一、引言当今时代，人工智能技术正以前所未有的速度蓬勃发展，深刻且广泛地渗透至各个领域，医疗行业更是这场变革的前沿阵地。在人口老龄化加剧、慢性疾病患病率上升以及人们对健康需求日益增长的大背景下，三甲医院作为医疗体系的核心力量，承担着极为繁重且复杂的医疗任务。传统医......
.Net程序员机会来了，微软官方新推出一个面向Windows开发者本地运行AI模型的开源工具
想要开发AI产品的.Net程序员机会来了，这个项目应该好好研究。虽然说大模型基本都有提供网络API，但肯定没有直接使用本地模型速度快。最近微软官方新推出AIDevGallery开源项目，可以帮助Windows开发人员学习如何将具有本地模型和API的AI添加到Windows应用程序中。01项目简介AI......
LLM2Vec: 解锁大语言模型的隐藏能力
LLM2Vec：重新定义大语言模型在自然语言处理中的应用一种名为**LLM2Vec**的新方法正在改变我们对大语言模型（LLMs）在自然语言处理（NLP）中的使用方式。研究人员提出了一种创新方法，将通常仅用于生成文本的大型语言模型转化为更强大的文本理解和组织工具。这项技术有可能颠覆我们......
分布匹配蒸馏：扩散模型的单步生成优化方法研究
扩散模型在生成高质量图像领域具有显著优势，但其迭代去噪过程导致计算开销较大。分布匹配蒸馏（DistributionMatchingDistillation，DMD）通过将多步扩散过程精简为单步生成器来解决这一问题。该方法结合分布匹配损失函数和对抗生成网络损失，实现从噪声图像到真实图像的高效映射，为快速图......
揭秘o1类模型的过度思考：明明只需5个token,它偏要用900个?
今天给大家分享一篇论文，揭秘o1类超大型语言模型的过度思考:2+3=？答案仅需5个token，o1类模型凭啥要900个？题目是：DoNOTThinkThatMuchfor2+3=?OntheOverthinkingofo1-LikeLLMs作者单位：腾讯AILab、上海交通大学论文链接:https://arxiv.org/abs/2412.21187论文概述这......
《数据质量：人工智能模型的成败关键》
在当今人工智能飞速发展的时代，数据质量对人工智能模型的影响至关重要，它直接关系到模型的性能、准确性和可靠性。以下是对这一问题的详细探讨。影响模型的准确性数据准确性的作用：准确的数据是模型准确输出的基础。如果数据中存在错误、偏差或噪声，模型就会学习到这些错误信......
Java 大视界 -- Java 大数据机器学习应用：从数据预处理到模型训练与部署（三）
......
ANPC三电平逆变器损耗计算的Simulink仿真模型
ANPC三电平逆变器损耗计算的Simulink仿真模型资源文件列表LossCalculation_3Phase3LevelInverter/plot_FFTresults.m , 1071LossCalculation_3Phase3LevelInverter/LossModelib.jpg , 36690LossCalculation_3Phase3LevelInverter/LossModelib.mdl , 266208LossCalculat......