• 2024-10-16大模型量化算法之Smoothquant
    SmoothQuant:AccurateandEfficientPost-TrainingQuantizationforLargeLanguageModels发表于ICML20238-bitweight,8-bitactivation(W8A8)训练后量化方法(PTQ)量化的部分是线性层以及矩阵乘法,LayerNorm以及Softmax还是以更高精度的半精度浮点数F