在16G的GPU上微调Mixtral-8x7B

时间：2024-03-19 09:45:10浏览次数：27

Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。

这时我们就想到了QLoRA，它将模型大小除以4，同时通过仅调整LoRA适配器进行微调来减小优化器状态的大小。但是即使使用QLoRA，然需要32 GB的GPU内存来微调Mixtral-8x7B。

如果我们可以将Mixtral-8x7B量化到更低的精度呢?

例如我们可以用AQLM将Mixtral-8x7B量化为2位，同时最小化模型性能的下降。

在本文中，我将展示如何仅使用16 GB的GPU RAM对使用AQLM进行量化的Mixtral-8x7B进行微调。我还讨论了如何优化微调超参数，以进一步减少内存消耗，同时保持良好的性能。对2位的Mixtral进行微调是很快的，并且可能产生比QLoRA更好的模型，同时使用的内存减少了两倍。

https://avoid.overfit.cn/post/2e5820701d9c4da2afe82b696999be72

标签：16G,QLoRA,微调,8x7B,内存,GPU,Mixtral
From： https://www.cnblogs.com/deephub/p/18082070

Linux监控CPU和GPU
监控显卡占用情况watch-n2nvidia-smicpupower安装sudoaptinstalllinux-tools-commonCPU实时频率查看watch-n1sudocpupowermonitor查看cpu频率watch-n0"cat/proc/cpuinfo|grep-imhz"查看cpu频率模式cpupowerfrequency-info查看当前所有CPU的信息su......
用免费GPU部署自己的stable-diffusion-学习笔记
最近由于工作需要，开始学习AI+大模型，零基础，听从同事的推荐报名参加了一个免费学习团队，本文是整理的一些学习笔记。课程是趋动云提供支持的，在注册时赠送了足够学习使用的188算力。项目在趋动云上可以直接快速简洁地部署起来，不用自己配置环境、安装软件。教程是傻瓜式的，跟着步骤一......
在GPU上利用规约算法完成对数组元素累加的并行计算
目录序言规约算法介绍GPU代码实现规约算法序言并行规约是一种适用于GPU平台的并行算法，主要提高求和、最值、均值、逻辑与和逻辑或等一类运算的并行度。若使用CPU计算，需要串行遍历所有元素得到上述运算的结果，但在GPU平台可以使用规约操作并行实现上述运算。规约算法介......
【DataWhale学习】用免费GPU线上跑StableDiffusion项目实践
用免费GPU线上跑SD项目实践DataWhale组织了一个线上白嫖GPU跑chatGLM与SD的项目活动，我很感兴趣就参加啦。之前就对chatGLM有所耳闻，是去年清华联合发布的开源大语言模型，可以用来打造个人知识库什么的，一直没有尝试。而SD我前两天刚跟着B站秋叶大佬和Nenly大佬的视频学习过......
【论文阅读】THEMIS: Fair and Efficient GPU Cluster Scheduling
11.THEMIS:FairandEfficientGPUClusterScheduling出处:2020USENIXThemis：公平高效的GPU集群调度|USENIX主要工作：使用拍卖机制，针对长时间运行、位置敏感的ML应用程序。任务以短期的效率公平来赢取投标但确保长期是完成时间公平性。对每个ML应用程序......
一键开启 GPU 闲置模式，基于函数计算低成本部署 Google Gemma 模型服务
作者：王骜本文介绍如何使用函数计算GPU实例闲置模式低成本、快速的部署GoogleGemma模型服务。背景信息Google在2024年02月21日正式推出了自家的首个开源模型族Gemma，并同时上架了四个大型语言模型，提供了2B和7B两种参数规模的版本，每种都包含了预训练版本（base模......
一键开启 GPU 闲置模式，基于函数计算低成本部署Google Gemma 模型服务
背景信息Google在2024年02月21日正式推出了自家的首个开源模型族Gemma，并同时上架了四个大型语言模型，提供了2B和7B两种参数规模的版本，每种都包含了预训练版本（base模型）和指令微调版本（chat模型）。根据Google的技术报告，本次开源的Gemma在问题回答、合理性、数学、代码......
scalene python cpu&gpu 性能分析工具
scalene使用一个pythoncpu&gpu性能分析工具，同时也支持内存的分析，同时还提供了基于ai的智能优化推荐包含的一些特性cli支持多种输出格式包含了一个web-gui基于ai的智能提示参考使用安装pipinstallscalene包含的cliusage:scalene......
AT_abc216_g [ABC216G] 01Sequence 题解
分析一道差分约束题。我们令\(\mathit{sum}_{i}\)表示\(1\)到\(i\)中，\(1\)的数量，根据题意可得：\(\mathit{sum}_{l_i-1}+x_i\le\mathit{sum}_{r_i}\)\(\mathit{sum}_{l+1}+(-1)\le\mathit{sum}_{l}\)\(\mathit{sum}_{l}+0\le\mathit{sum}_{l+1}\)因为我们要尽......
了解 NVIDIA 的数据中心 GPU 系列
长话短说NVIDIA拥有数十个GPU，可以为不同大小的ML模型提供服务。但了解这些不同卡的性能和成本（更不用说保持名称正确）是一个挑战。每个GPU的名称是一个字母数字标识符，传达有关其架构和规格的信息。本指南可帮助您浏览NVIDIA数据中心GPU系列并将其映射到您的模型服务需......

在16G的GPU上微调Mixtral-8x7B

相关文章

赞助商

阅读排行