关于真正量化和假冒量化的原理分析

背景：

目前大量的 GPT-base 模型的量化仅仅对权重（weights）进行量化，而没有对特征图（feature maps）进行量化。这样的量化模型实际上并不是真正的量化模型。在深度学习中，模型参数（weights）和输入数据（feature maps）都可以进行量化，从而在计算和存储上大大降低了模型的计算和存储开销。但是，如果只对权重进行量化而不对特征图进行量化，那么在模型推理时，仍然需要使用高精度浮点数进行计算，因为特征图没有被量化。这就导致了量化后的模型仍然需要较大的计算和存储开销，而且没有达到真正的量化的效果。因此，对于 GPT-base 模型的量化，如果只对权重进行量化而不对特征图进行量化，那么虽然可以降低模型的大小，但是无法真正实现模型的加速和优化，而真正的量化模型需要将权重和特征图都进行量化。

问：绿色部分是计算值所以我理解一定也是定点了为什么还要单独对featurmap量化

答：只是对weight进行了量化，实际forward算的时候，可以理解为还是把weight又反量化成了浮点数，然后和浮点数的featuremap做运算

说明：当然也可能是反过来，运算时在线把某一层的输入featuremap量化后送给算子算，算完了后把输出featuremap又反量化成浮点。

　　这种情况的概率很小，毕竟gpt类模型这么算的话，精度可能不能保证。

关于前处理

问：但是我的输入图片/序列，都是经过前处理，变为定点整形了呀，难道还要再把定点图片数据再转为浮点型？

答：图片或者nlp中的字符index的话本身就可以是定点的，估计在某几层后的featuremap就是float型了

理解

问：某几层后的float的featuremap -> weights 反量化为浮点 ->计算得到结果 是这样吧

答：是的。主要是省模型存储空间和内存占用，运算上省不了多少。

问：目前量化 weights的意义在于， load 模型的大小变小了，如原来float32 ->int16了所以只是模型加载到内存占用小了。实际的计算可能开销还更大了？

答：运算不至于更大，只能说是减少的有限。

　　这个过程“某几层后的float的featuremap -> weights 反量化为浮点 ->计算得到结果 ”可以做的不怎么额外费时。

对featuremap量化难点

问：那么我们为什么不做featuremap量化？难点在哪里？

答：它这种情况肯定是为了减少量化损失，featuremap量化后的损失在他这种情况肯定是过大不可接受了。

标签：假冒,模型,浮点,featuremap,weights,计算,原理,量化
From： https://www.cnblogs.com/lx63blog/p/17388987.html

mybatis运行原理-- 总述
1.根据mybatis配置文件和mapper映射文件，初始化出Configuration对象。得到sqlSessionFactory，包含数据库的信息，和所有的mapper路径，mapper接口路径可用包扫描的方式代替；2.sqlSessionFactory.openSession得到sqlSession，里面已经包含了Configuration以及Executor（defaultExecutorType......
HashMap 的底层结构和原理
转:HashMap的底层结构和原理HashMap的底层 ......
【SpringBoot】【自动装配】 SpringBoot自动装配原理
1 前言我们都知道SpringBoot有个自动装配的机制，那你们知道平时如何使用么，以及他是什么时候执行的么，那么本节我们就来看看。2 为什么要有自动装配我们经历过SSM时期的时候，比如要引进Redis，是不是要先要导Maven依赖，还要进行大量的配置Bean，然后才能使用，而使用SpringBoot的......
PBR流程的基本原理是什么？
Hello，大家好，今天给大家带来PBR流程的基本原理与历史发展，我是Secohy。1、什么是PBR？一、基于物理的材质（Material）二、基于物理的光照（Lighting）三、基于物理适配的摄像机（Camera）以上三个部分都去参照物理理论去做引擎设计，理论上就能得到和真实摄像机基本相同的画面。例如基于物......
CH57x/CH58x原理图与PCB绘制
前言针对供电系统、天线系统、下载以及出现问题进行汇总。一、供电系统1、供电以CH582M举例（其他见芯片手册的第二十参数章节），芯片可供供电范围[2.3-3.6]，一般给到芯片引脚（VIO33/VDD33）的供电典型值为3.3V，只需要给该引脚供电，其他引脚均不需要供电。2、内部电路内部电路注意VSW/......
性能测试的核心原理
性能测试的核心原理1基于协议，前后端交互机制，性能核心。基于界面决定和前端用户交互，基于代码决定了后端。1网络分布式架构。2单机应用，比如安安兔，鲁大师。主要判断io读写，以及对资源的消耗。2多线程，模拟多个虚拟用户量同时访问系统。3模拟真实的场景。场......
ChatPDF/ChatDOC实现原理解析
1）把PDF切分成小的文本片段，通过OpenAI的Ada模型创建Embedding放到本地或远程向量数据库。2）把用户的提问也创建成Embedding，用它和之前创建的PDF向量比对，通过语义相似性搜索（余弦算法），找到最相关的文本片段。比关键词搜索好的一点是不要求关键词包含，也能发现文本相关性，比如汽车和公路......
jenkins工作原理
Jenkins是一款流行的开源持续集成和交付工具，其工作原理如下：代码管理：Jenkins可以与各种代码管理工具（如Git、SVN等）进行集成，以便从中获取最新代码。构建触发：Jenkins可以根据时间计划或代码仓库的变更来触发构建任务。构建环境设置：Jenkins可以配置构建环境（如操作......
【redis】哨兵监控原理
redis-主从模式弊端：一、master节点异常shutdown后，从机原地待命，从机数据可以查询（不可以写入），等待主机重启归来二、复制延时，信号衰减redis-哨兵监控：是什么？哨兵即为吹哨人，可以巡查监控后台master主机是否故障，如果故障可以根据投票数自动将一个从库转换为新的ma......
【笔记】编译原理 - 中
5语法制导翻译考虑语义分析——为CFG中的文法符号设置语义属性；在语法分析树上，语义属性值用与文法符号所在产生式（语法规则）相关联的语义规则来计算语义规则同语法规则（产生式）相联系，涉及概念：语法制导定义(Syntax-DirectedDefinitions,SDD)语法制导翻译方案(Syntax-Directe......

关于真正量化和假冒量化的原理分析

关于真正量化和假冒量化的原理分析

相关文章

赞助商

阅读排行