概述
模型量化作为一种能够有效减少模型大小,加速深度学习推理的优化技术,主要包含 8/4/2/1 bit等精度设置。在 8-bit 低精度推理中, 我们将一个原本 FP32 的 weight/activation 浮点数张量转化成一个 int8/uint8 张量,从而减少内存带宽和存储空间,并提高系统吞吐量降低系统时延。[2] 中具体给出了经典量化算法的实现,这里不再展开。
使用
在本次项目使用的transformers
库中,可以通过以下函数进行量化:
model = model.quantize(model_args.quantization_bit)
我们尝试使用该技术并进行对比,模型表现前后差异不大。但模型所需要的显存大幅降低,可以更便于部署在CPU等设备上,在实际使用场景中有很大的运用价值。
参考资料
[1] 深度学习模型量化(低精度推理)大总结_深度学习 量化-CSDN博客
[2] 人工智能 - LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ) - 汀NLP - SegmentFault 思否
标签:模型,技术,实训,本科,量化,model,推理,bit From: https://www.cnblogs.com/yichengliu0219/p/18264218