• 2024-09-29将 LLMs 精调至 1.58 比特: 使极端量化变简单
    随着大语言模型(LLMs)规模和复杂性的增长,寻找减少它们的计算和能耗的方法已成为一个关键挑战。一种流行的解决方案是量化,其中参数的精度从标准的16位浮点(FP16)或32位浮点(FP32)降低到8位或4位等低位格式。虽然这种方法显著减少了内存使用量并加快了计算速度,但往往