首页 > 其他分享 >[CVPR2024]DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets

[CVPR2024]DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets

时间:2024-09-22 20:46:23浏览次数:8  
标签:Transformer Datasets DeiT min text Training right mathcal left

在长尾数据集上,本文引入强增强(文中也称为OOD)实现对DeiT的知识蒸馏的改进,实现尾部类分类性能的提升。

动机

  1. ViT相较于CNN缺少归纳偏置,如局部性(一个像素与周围的区域关系更紧密)、平移不变性(图像的主体在图像的任意位置都应该一样重要)。因此需要大型数据集进行预训练。
  2. 长尾数据学习的工作有很多,例如Re-weighting、Re-sampling,这些方法可以帮助尾部类学习,但会损害头部类的表现。一些工作提出了“多专家”去专攻不同的类别,最后汇总预测结果得到最终输出以改善性能。但是这些方法都是基于CNN的,而本文将“多专家”的思想代入transformer架构(ViT)。

对于第1点,之前的工作——DeiT通过对预训练的CNN架构模型知识蒸馏,改进了ViT的效率。而在本文中,作者希望将这一知识蒸馏的思想应用到长尾数据集上,并提高尾部类的分类性能。

还有一些工作虽然使得 ViT 在长尾识别任务上的性能有所提高,但它们通常需要在大规模数据集预训练。在这项工作中,目标是从头开始研究和改进视觉变换器的训练,而不需要对不同的长尾数据集(图像大小和分辨率各不相同)进行大规模预训练。

方法

回顾下DeiT[1],相较于ViT,多了DIS(distillation) token,它是教师模型对x的预测结果,作为\(\mathcal{L}_\text{teacher}\)的标签输入。

本文中的DeiT-LT,是在DeiT架构基础上:

  • 对于输入的样本使用强增强(文中管强增强后的样本为OOD样本)。
  • 增加了一个分类器用来表示尾部类专家,使用DRW(Deferred Re-weighting)loss优化。
  • 通过蒸馏,从扁平的教师模型学习低秩特征。

引入OOD样本的蒸馏

表中比较了教师、学生模型,是否使用强图像增强,和是否使用mixup(用X、√表示)的精度表现。

\[\begin{array} {c|cc|ccc|c}\hline\text{Tch} & \text{Stu} & \text{Tch} & \text{Tch} & \text{Stu} & \text{Train} \\ \textbf{Model} & \text{Augs.} & \text{Augs.} & \text{Acc.} & \text{Acc.} & \text{Time} \\ \hline\text{RegNetY16GF} & \text{Strong}\left(\checkmark\right) & \text{Strong}\left(\checkmark\right) & \text{79.1} & \text{70.2} & \text{33.3} \\ \hline\text{ResNet-32} & \text{Strong}\left(X\right) & \text{Weak}\left(X\right) & \text{97.2} & \text{54.2} & \text{17.8} \\ & \text{Strong}\left(X\right) & \text{Strong}\left(X\right) & \text{71.9} & \text{69.6} & \text{17.8} \\ & \text{Strong}\left(\checkmark\right) & \text{Strong}\left(\checkmark\right) & \text{56.6} & \text{79.4} & \text{19.0} \end{array} \]

可看到,使用强增强训练的教师模型虽然精度下降了,但是学生模型的表现提升了。作者认为,这是学生模仿了老师对OOD的错误预测,从而学习到了老师的归纳偏置(例如下图的局部性),即\(f^d(X)\approx g(X),X\sim A(x)\)。

由于OOD样本对教师的影响,使得教师模型的预测\(y_t\)与ground-truth \(y\)不同。下图展示了,随着epoch增加,头部类专家和尾部类专家的余弦距离(1-余弦相似度)的变化。两条主要的线分别表示在强增强/非强增强(OOD/ID)训练得到的教师模型。

这也揭示了一个现象,CLS token与预测的DIS token不那么一致,也能进行有效蒸馏。

作者引入了DRW:

\[\mathcal{L}=\frac12\mathcal{L}_{CE}(f^c(x),y)+\frac12\mathcal{L}_{DRW}(f^d(x),y_t),\ \mathrm{where~}\mathcal{L}_{DRW}=-w_{y_t} log(f^d(x)_{y_t}) \]

其中,\(w_y=1/\{1+(e_y-1)\mathbb{1}_{\mathrm{epoch\geq K}}\}\),\(e_y=\frac{1-\beta^{N_y}}{1-\beta}\),在上图也可以看到,DRW进一步增加了CLS token与DIS token间的多样性。

证明引入强增强(OOD)对知识蒸馏的有效性,可通过尾部类特征来判断。下图表示,尾部类特征的平均attention distance与transformer头的关系。可以看到没有OOD蒸馏的ViT和DeiT,过拟合了虚特征,使得尾部类泛化较差。

通过SAM 教师模型得到低秩特征

Sharpness Aware Minimization (SAM) 相当于在计算损失时,对模型参数增加扰动提高模型的泛化性。

对于低秩矩阵的计算,令\(\mathcal{X}_{all},\mathcal{X}_{min}\subset\mathcal{X}\),其中\(\mathcal{X}_{all}\)表示所有样本,\(\mathcal{X}_{min}\)表示尾部类样本。对应的特征矩阵为\(F_{n_h,d}^{all},\ F_{n_t,d}^{min}\),n表示样本数,d表示特征维度。对前者进行奇异值分解\(U,S,V^T=\mathsf{SVD}(F_{n_h,d}^{all})\),并使用右奇异值矩阵对\(F_{n_t,d}^{min}\)进行投影降维。对角阵k的取值满足

\[\frac{\left\|F_{n_t,d}^{min}-F_{recon}^{min}(k)\right\|^2}{\left\|F_{n_t,d}^{min}\right\|^2}\leq0.01 \]

其中\(F_{recon}^{min}(k)=F_{proj}^{min}(k)*{V_k}^T.\)

对比CLS token和DIS token在不同block中输出特征的秩。可以看到DIST token从多数类中学到判别性特征,充分保证了尾部类的学习。

参考文献

  1. Touvron, Hugo, et al. "Training data-efficient image transformers & distillation through attention." International conference on machine learning. PMLR, 2021.
  2. Rangwani, Harsh, et al. "DeiT-LT: Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

标签:Transformer,Datasets,DeiT,min,text,Training,right,mathcal,left
From: https://www.cnblogs.com/zh-jp/p/18425831

相关文章

  • Transformer模型-7- Decoder
    概述Decoder也是N=6层堆叠的结构,每层被分3层:两个注意力层和前馈网络层,同Encoder一样在主层后都加有Add&Norm,负责残差连接和归一化操作。Encoder与Decoder有三大主要的不同:第一层MaskedMulti-HeadAttention:采用Masked操作第二层Multi-HeadAttention:K,V矩阵是......
  • Matlab 基于NRBO-Transformer-LSTM-SVM多特征分类预测 (多输入单输出)[24年算法]
    基于NRBO-Transformer-LSTM-SVM多特征分类预测(多输入单输出)NRBO优化参数为隐藏层节点数、正则化系数、学习率!你先用你就是创新!!!1.程序已经调试好,无需更改代码替换数据集即可运行!!!数据格式为excel!2.评价指标包含:分类准确率、灵敏度、特异性曲线下面积(AUC值)、卡帕(Kappa)系......
  • 【深度学习】Transformer掌握文本嵌入层和位置编码的实现过程,解码器中各个组成部分的
    1输入部分介绍输入部分包含:源文本嵌入层及其位置编码器目标文本嵌入层及其位置编码器 2文本嵌入层的作用 无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示转变为向量表示,希望在这样的高维空间捕捉词汇间的关系.文本嵌入层的代码分析:#导入必......
  • LSTR:基于Transformer的车道形状预测
    LSTR:基于Transformer的车道形状预测引言随着自动驾驶技术的快速发展,车道检测和预测成为了自动驾驶系统中的关键任务之一。准确的车道形状预测不仅能够帮助车辆保持正确的行驶路径,还能提高行驶的安全性和舒适性。近年来,基于深度学习的方法在车道检测和预测领域取得了显著的进展。其......
  • Hugging Face NLP课程学习记录 - 2. 使用 Hugging Face Transformers
    HuggingFaceNLP课程学习记录-2.使用HuggingFaceTransformers说明:首次发表日期:2024-09-19官网:https://huggingface.co/learn/nlp-course/zh-CN/chapter2关于:阅读并记录一下,只保留重点部分,大多从原文摘录,润色一下原文2.使用HuggingFaceTransformers管道的内部......
  • 论文解读《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Trai
    系列文章目录文章目录系列文章目录论文细节理解1、研究背景2、论文贡献3、方法框架4、研究思路5、实验6、限制论文细节理解Ensembleteacher.在深度学习领域,什么意思?在深度学习领域,“ensembleteacher”通常指的是一种模型集成的方法,其中多个模型(教师模型)共同训......
  • Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
    通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Samba和Gri......
  • Transformer从入门到精通的实战指南看这本书就够了—《Transformers in Action》(附PDF
    前言TransformersinAction将革命性的Transformers架构添加到您的AI工具包中。您将深入了解模型架构的基本细节,通过易于理解的示例和巧妙的类比解释所有复杂的概念-从袜子分类到滑雪!即使是复杂的基础概念也从实际应用开始,因此您永远不必为抽象理论而苦恼。这本书包括一个广......
  • 2024年JCR一区极光优化算法+分解对比!VMD-PLO-Transformer-BiLSTM多变量时间序列光伏功
    中秋献礼!2024年中科院一区极光优化算法+分解对比!VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测目录中秋献礼!2024年中科院一区极光优化算法+分解对比!VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测效果一览基本介绍程序设计参考资料效果一览......
  • CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer
    近年来,VisionTransformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了ConvolutionalAdditiveSelf-attentionVisionTransformers(CAS-ViT),这是一种轻量级的ViT变体,旨在在效率和性......