• 2024-08-19gptq 中W4A16 或者 W8A16 中具体是怎么计算的呢?
    在深入了解了quantization之后,对quant有所了解之后,不论是dynamicquant还是staticquant都有所了解,但是因为看了大佬的有关量化之后,理解了trt中的W8A8的运算,理解了为什么量化之后会加速的原因,但是针对gptq的W8A16或者W4A16却不明白到底属于是dynamicquant还是staticquan
  • 2024-07-17大模型LLM量化 , 5个基础技术知识
    写这篇文章原因下载qwen110B模型发现不同量化占的内存差异很大,就想搞明白到底量化会着重影响哪方面的推理能力“Qwen1.5-110B-Chat的显存全精度部署(32精度)占用220GB;8bit量化部署Qwen1.5-110B需要113GB显存;4bit量化部署Qwen1.5-110B,需要62GB显存大型语言模型(LL