Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。
这时我们就想到了QLoRA,它将模型大小除以4,同时通过仅调整LoRA适配器进行微调来减小优化器状态的大小。但是即使使用QLoRA,然需要32 GB的GPU内存来微调Mixtral-8x7B。
如果我们可以将Mixtral-8x7B量化到更低的精度呢?
例如我们可以用AQLM将Mixtral-8x7B量化为2位,同时最小化模型性能的下降。
在本文中,我将展示如何仅使用16 GB的GPU RAM对使用AQLM进行量化的Mixtral-8x7B进行微调。我还讨论了如何优化微调超参数,以进一步减少内存消耗,同时保持良好的性能。对2位的Mixtral进行微调是很快的,并且可能产生比QLoRA更好的模型,同时使用的内存减少了两倍。
https://avoid.overfit.cn/post/2e5820701d9c4da2afe82b696999be72
标签:16G,QLoRA,微调,8x7B,内存,GPU,Mixtral From: https://www.cnblogs.com/deephub/p/18082070