首页 > 其他分享 >VIT模型压缩综述(Comprehensive Survey of Model Compression and Speed up for Vision Transformers)

VIT 是计算机视觉的开山之作,在不同的领域都表现了优越的性能.但是过大的计算量和内存需求,限制了其使用.该篇综述研究了并评估了四种模型压缩的方法,在VIT上的作用:量化,低秩分解,知识蒸馏,剪枝. 系统的分析并比较了这些方法在资源受限的环境下,优化VIT方面的效果.我们的压缩实验结果说明这些压缩方法促进了在模型体积压缩和精度做了很好的平衡.


  • 量化:  量化已经在神经网络的性能提升上取得了里程碑式的效果. 量化就是将网络转为低比特,来降低对计算资源和内存资源的需求,而对模型精度基本不影响.量化的关键是确定权重的clipping的范围. Krishnmoorthi[15] 建议确定这个范围通过评估卷积层的所有滤波器的权重, Shen[16] 等人则使用分组量化的方法. 为了降低精度的损失,提出了QAT(Quantization-Aware Training) .QAT 方法是量化的模型使用浮点数进行标准的前向反向传播,然后梯度计算后,再次量化模型,因此可以保留量化的效果.
  • 低秩分解:  chen[17]强调VIT的注意力矩阵天生拥有低秩属性[18], 提供了降低复杂度的可能[19]. [20,21,22,23] 等方法使用低秩分解的方法. 而将低秩分解与稀疏注意力机制结合,会取得更好的效果[17]
  • 知识蒸馏:  Touvron[27]  引入了蒸馏token.这个token类似于类的token,但是专注于捕获教师网络的预测结果,通过自注意力参与蒸馏,优化蒸馏过程.这种蒸馏方法已经获得了可观的效果相对于卷积蒸馏.
  • 剪枝: 由[29]Yang提出的维度重新分布的策略,被整合到剪枝过程中,进一步优化模型的性能.



 硬件条件: Tesla V100-SXM2 16GB GPU,


  不同模型压缩方法对比: 评估模型压缩方法对模型大小的影响,发现量化和剪枝能最大程度降低模型大小并最小的精度损失。特别的,量化方法,尤其是动态量化,有最优的效果,动态量化使用的是pytorch的量化API


对于推理速度,知识蒸馏有尤其明显的效果。尤其,DeiT base模型,获取了接近两倍的加速而且精度几乎不受影响。



Model Method Accuracy GPU speed CPU speed Size(MB)
Vanilla ViT [14]   98.94 4.48 0.050 327
Dynamic Quantization PTQ 98.73 - 0.062 84
FQ-ViT[32] PTQ 97.31 - - -
DIFFQ with LSQ[33] QAT 93.37 2.10 - 41
DIFFQ with diffq [34] QAT 60.29 12.20 - 2
DeiT base [27] Knowledge Distillation 98.47 7.04 0.096 327
DeiT tiny [27] Knowledge Distillation 95.43 16.78 - 21
ViT-Pruning(r=0.1)[28] Pruning 88.36 4.86 - 301
ViT-Pruning(r=0.2) [28] Pruning 80.56 5.54 - 254
ViT-Nystr(m=24) [21] Low-rank Approximation 65.91 4.67 - 327
ViT-Nystr(m=32) [21] Low-rank Approximation 75.94 4.57 - 327
ViT-Nystr(m=64) [21] Low-rank Apporximation 91.70 4.38 - 327
DeiT base +Dynamic Quantization Knowledge Distillation+PTQ 96.75 - 0.117 84




Model Method Accuracy GPU speed CPU speed Size(MB)
Vanilla ViT [14]   92.87 4.34 0.093 327
Dynamic Quantization PTQ 90.87 - 0.122 84
FQ-ViT[32] PTQ 84.87 - - -
DIFFQ with LSQ[33] QAT 76.08 2.10 - 41
DIFFQ with diffq [34] QAT 41.02 12.00 - 2
DeiT base [27] Knowledge Distillation 87.35 6.97 0.149 327
DeiT tiny [27] Knowledge Distillation 75。90 16.16 - 21
ViT-Pruning(r=0.1)[28] Pruning 74.46 4.69 - 302
ViT-Pruning(r=0.2) [28] Pruning 64.27 5.19 - 272
ViT-Nystr(m=24) [21] Low-rank Approximation 38.51 4.7 - 327
ViT-Nystr(m=32) [21] Low-rank Approximation 50.31 4.65 - 327
ViT-Nystr(m=64) [21] Low-rank Apporximation 74.01 4.46 - 327
DeiT base +Dynamic Quantization Knowledge Distillation+PTQ 82.61 - 0.196 84



