gptq

2024-08-19gptq 中W4A16 或者 W8A16 中具体是怎么计算的呢？
在深入了解了quantization之后，对quant有所了解之后，不论是dynamicquant还是staticquant都有所了解，但是因为看了大佬的有关量化之后，理解了trt中的W8A8的运算，理解了为什么量化之后会加速的原因，但是针对gptq的W8A16或者W4A16却不明白到底属于是dynamicquant还是staticquan
2024-07-17大模型LLM量化 , 5个基础技术知识
写这篇文章原因下载qwen110B模型发现不同量化占的内存差异很大,就想搞明白到底量化会着重影响哪方面的推理能力“Qwen1.5-110B-Chat的显存全精度部署(32精度)占用220GB;8bit量化部署Qwen1.5-110B需要113GB显存;4bit量化部署Qwen1.5-110B，需要62GB显存大型语言模型（LL