大型语言模型(LLMs)通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数,通常需要配备大量显存的GPU来加速推理过程。
因此越来越多的研究致力于通过改进训练、使用适配器等方法来缩小这些模型的体积。在这一领域中,一个主要的技术被称为量化。
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
https://avoid.overfit.cn/post/11536319ad704103b39ec8da734eeb3c
标签:语言,综述,模型,前沿技术,量化,大型 From: https://www.cnblogs.com/deephub/p/18340321