网站首页
编程语言
数据库
系统相关
其他分享
编程问答
BLOCKWIDTH
2024-08-19
gptq 中W4A16 或者 W8A16 中具体是怎么计算的呢?
在深入了解了quantization之后,对quant有所了解之后,不论是dynamicquant还是staticquant都有所了解,但是因为看了大佬的有关量化之后,理解了trt中的W8A8的运算,理解了为什么量化之后会加速的原因,但是针对gptq的W8A16或者W4A16却不明白到底属于是dynamicquant还是staticquan