首页 > 其他分享 >ToCom:一次训练随意使用,华为提出通用的ViT标记压缩器 | ECCV 2024

ToCom:一次训练随意使用,华为提出通用的ViT标记压缩器 | ECCV 2024

时间:2024-09-11 15:05:53浏览次数:1  
标签:训练 标记 压缩 ToCom 2024 压缩器 mathcal 模型

标记压缩通过减少冗余标记的数量(例如,修剪不重要的标记或合并相似的标记)来加快视觉变换器(ViTs)的训练和推理。然而,当这些方法应用于下游任务时,如果训练和推理阶段的压缩程度不匹配,会导致显著的性能下降,这限制了标记压缩在现成训练模型上的应用。因此提出了标记补偿器(ToCom),以解耦两个阶段之间的压缩程度。该插件通过在预训练模型上额外执行了一个快速参数高效的自蒸馏阶段获得一个小型插件,描述了不同压缩程度下模型之间的差距。在推理过程中,ToCom可以直接插入到任何下游现成模型中,无论训练和推理的压缩程度是否匹配,都能获得通用的性能提升,而无需进一步训练。

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning

Introduction


  视觉变换器(ViTs)在计算机视觉的多个领域取得了显著成功,包括图像分类、目标检测、语义分割等。然而,随着ViTs规模的快速增长,计算成本的增加已成为一个迫切问题。因此,大量研究工作集中在加速ViTs的训练和推理上。ViTs的特点在于能够处理可变数量的输入标记,除了卷积神经网络中广泛使用的传统技术,如模型剪枝、量化和蒸馏,近期的研究通过标记压缩来加速ViTs,例如修剪不重要的标记或合并相似的标记。

  与剪枝和蒸馏等技术相比,标记压缩技术具有明显的优势。一些标记压缩方法(例如,ToMe)可以以零样本的方式应用于现成模型或用于加速训练。与量化不同,标记压缩方法不需要对低精度操作符的支持。此外,标记压缩方法与上述其他技术在操作上是正交的,使其在ViTs中具有广泛的适用性。

  然而,当标记压缩应用于下游任务时,论文观察到如图1所示的以下缺点:

  1. 尽管一些标记压缩技术可以应用于现成模型,但通常会导致显著的性能下降。
  2. 即使标记压缩仅在训练期间应用以加速过程,而在推理期间不进行压缩,模型的性能仍然低于未经标记压缩训练的模型。
  3. 总之,当训练和推理阶段的标记压缩程度不一致时,模型的性能表现不佳。

  论文指出,经过不同标记压缩程度微调的模型在参数层面存在一定的差距,这导致在推理过程中改变压缩程度时性能下降。此外,这一差距可以在不同的下游数据集之间转移。基于此,论文提出标记补偿器(Token Compensator,简称ToCom),这是一种旨在解耦训练和推理过程中的标记压缩程度的预训练插件。ToCom是一个参数高效的模块,仅包含少量参数,用于描述具有不同压缩程度的模型之间的差距。为了获得ToCom,在预训练数据集上通过不同压缩程度之间的快速自蒸馏过程进行训练。具体来说,教师模型和学生模型都是相同的冻结预训练模型,其中学生模型包括ToCom。在每一步中,教师模型和学生模型被随机分配不同的压缩程度,同时ToCom通过蒸馏学习它们之间的差距。此外,为不同的压缩程度设置分配不同ToCom参数的子集,使ToCom能够通过单一的训练过程适应各种压缩程度对。

  在推理过程中,将ToCom直接集成到在下游任务上进行微调的现成模型中,而无需进一步训练。通过选择ToCom参数的子集,微调后的模型可以直接应用于各种标记压缩程度,并达到与训练和推理压缩程度一致时相当的性能。重要的是,ToCom只需预训练一次,即可应用于在任意下游数据集上经过微调的模型,不论其标记压缩程度如何,从而使任何单一的现成模型能够处理动态延迟约束,而无需修改参数。

  论文在超过20个数据集上进行了实验,涵盖了各种压缩程度设置。实验结果表明,ToCom作为一个即插即用的模块,能够有效地解耦训练和推理过程中的标记压缩程度。例如,在VTAB-1k基准测试中,ToComDeiT-B的平均性能上比ToMe最高可提升2.0%,如图1所示。ToCom还可以应用于不同规模的模型或在不同对象上预训练的模型,或者用于增强各种标记压缩方法,包括标记合并和标记剪枝。

Delve into Token Compression


Impact of Compression Degrees

  首先,对ViTs中的标记压缩方法进行公式化。ViTs的单层由两个模块组成,即多头自注意力(MHSA)和多层感知机(MLP)。该层可以被形式化为

\[\begin{equation} \widetilde{\mathbf{X}}^l=\mathbf{X}^l+\textrm{MHSA}(\textrm{LN}(\mathbf{X}^l)), \quad \mathbf{X}^{l+1}=\widetilde{\mathbf{X}}^l+\textrm{MLP}(\textrm{LN}(\widetilde{\mathbf{X}}^l)), \end{equation} \]

  其中, \(\mathbf{X}^l \in \mathbb{R}^{N \times d}\) 是第 \(l\) 层的输入,具有长度 \(N\) 和维度 \(d\) ,LN表示层归一化。

  论文主要关注一种具有代表性且最先进的无训练标记压缩方法ToMe,并进一步推广到其他方法。ToMeMHSAMLP模块之间操作,利用图像块标记的键来评估它们的相似性,并通过二分软匹配将 \(r\) 个相似的标记进行合并。

  在ToMe中,每层合并的标记数量被视为超参数,以调整ViTs的吞吐量,这通常在训练之前根据推理需求来确定。合并的标记越多,模型在训练和推理时的速度就越快,如图3所示。然而,在实际场景中,训练期间的压缩程度(称为源压缩程度)和推理期间的压缩程度(称为目标压缩程度)可能不一定相等。也就是说,一个在某一压缩程度下训练好的现成模型,可能会在没重新训练的情况下进行不同的压缩程度下的应用。这种情况具有实际意义,例如,使用下载的checkpoint而无法访问训练数据或重新训练资源时,或根据服务器负载动态调整推理期间的压缩程度。此外,在现有计算资源有限的情况下,可能需要在训练期间使用较高的压缩程度以减少内存和时间开销,但在推理期间恢复到较低的压缩程度以确保性能。

  为了研究标记压缩方法在源压缩程度与目标压缩程度不一致时的性能,论文在五个下游数据集上进行了实验。如图2所示,论文对DeiT-B进行了ToMe的 \(r=0\) 和 \(16\) 的微调,并报告了在推理期间使用 \(r=0, 2, 4, \ldots, 16\) 的性能。可以看到,对于特定的目标压缩程度,当源压缩程度与其匹配时,模型的表现更好。源压缩程度与目标压缩程度之间的差距越大,性能下降的程度就越显著。

  然而,由于在较低压缩程度下训练的模型在训练期间接触到了更多的标记,这意味着它们遇到的信息范围比在较高压缩程度下训练的模型更广泛,因此,前者在各种目标压缩程度下理应优于后者。这表明,不同源压缩程度下训练的模型之间存在差距,使得在不同压缩程度之间的迁移效果较差。

Transfer across Tasks

  对于具有不同源压缩程度的模型之间的差距,是否可以在不同任务之间转移?更具体地说,令 \(\mathcal{M}_m^{\mathcal{D_A}}\) 和 \(\mathcal{M}_{n}^{\mathcal{D_A}}\) 表示在数据集 \(\mathcal{D_A}\) 上以压缩程度 \(m\) 和 \(n\) 训练的模型, \(\mathcal{M}_m^{\mathcal{D_B}}\) 和 \(\mathcal{M}_{n}^{\mathcal{D_B}}\) 表示在数据集 \(\mathcal{D_B}\) 上训练的模型。如果这种差距是可转移的,应该有

\[\begin{equation} \mathcal{M}_{m}^{\mathcal{D_A}} - \mathcal{M}_n^{\mathcal{D_A}} \approx \mathcal{M}_{m}^{\mathcal{D_B}} - \mathcal{M}_n^{\mathcal{D_B}}, \label{eq:transfer} \end{equation} \]

  其中 \(+\) 和 \(-\) 分别是逐元素的加法和减法。为了验证这一点,将公式重新写为

\[\begin{equation} \mathcal{M}_{m}^{\mathcal{D_A}} - \mathcal{M}_n^{\mathcal{D_A}} + \mathcal{M}_n^{\mathcal{D_B}} \approx \mathcal{M}_{m}^{\mathcal{D_B}}, \label{eq:transfer2} \end{equation} \]

  这意味着 \((\mathcal{M}_{m}^{\mathcal{D_A}} - \mathcal{M}_n^{\mathcal{D_A}} + \mathcal{M}_n^{\mathcal{D_B}})\) 在以目标压缩程度 \(m\) 对数据集 \(\mathcal{D_B}\) 进行评估时,应当比 \(\mathcal{M}_n^{\mathcal{D_B}}\) 的表现更好。换句话说, \((\mathcal{M}_{m}^{\mathcal{D_A}} - \mathcal{M}_n^{\mathcal{D_A}})\) 在数据集 \(\mathcal{D_A}\) 上的差距可以转移到 \(\mathcal{D_B}\) ,并有助于缩小 \(\mathcal{M}_{m}^{\mathcal{D_B}}\) 和 \(\mathcal{M}_n^{\mathcal{D_B}}\) 之间的差距。

  在ToMe上进行初步实验,使用CIFAR100作为 \(\mathcal{D_A}\) , \(m=16\) , \(n=0\) 。在表1中,展示了使用不同FGVC数据集作为 \(\mathcal{D_B}\) 时的结果。通过添加 \((\mathcal{M}_{16}^{\mathcal{D_A}} - \mathcal{M}_0^{\mathcal{D_A}})\) , \(\mathcal{M}_0^{\mathcal{D_B}}\) 在 \(r=16\) 下的表现明显提高,验证了在不同任务中存在源压缩程度之间的模型差距的正向迁移,这表明可以使用通用插件来建模这种差距,从而在各种下游任务中提高具有不等源和目标压缩程度的标记压缩性能。

Token Compensator


Arithmetic of Parameter-Efficient Modules

  当训练和推理过程中的压缩程度不相等时,由于不同压缩程度的模型在行为上存在差异,导致其参数空间中出现不同的局部最小值,从而使模型性能下降。为了在这种情况下提升标记压缩的性能,尤其是在现成模型上,论文打算寻找一个通用插件以弥补具有不同压缩程度的模型之间的差距,假设两个特定压缩程度的模型在不同数据集上表现出类似的差距。假设有一个插件 \(\mathcal{P}_{m\rightarrow n}\) ,可以弥补在ToMe训练下的模型 \(\mathcal{M}_m\) (压缩程度 \(r=m\) )和模型 \(\mathcal{M}_{n}\) (压缩程度 \(r=n\) )之间的差距。如果 \(\mathcal{M}_m\) 是现成模型,可以期望

\[\begin{equation} \mathcal{M}_m \oplus \mathcal{P}_{m\rightarrow n} = \mathcal{M}'_n \approx \mathcal{M}_n, \label{eq:plugin} \end{equation} \]

  其中 \(\oplus\) 表示架构层面的聚合, \(\mathcal{M}'_n\) 是用于以 \(r=n\) 进行推理的合成模型。

  然而,由于压缩程度选择的范围广(例如,DeiT-BToMe中的 \(r \in \{0, 1, ..., 16\}\) ),为所有可能的压缩程度对(即 \(16\times17\) 种 \((m,n)\) 组合)训练和存储这些插件会导致显著的训练和存储开销。为此,论文从三个方面解决这个问题。

  首先,受到参数高效微调的启发,该方法使用轻量级模块来描述预训练模型与微调模型之间的差距,论文也采用了参数高效模块来描述具有不同压缩程度的模型之间的差距。具体来说,使用LoRA作为 \(\mathcal{P}_{m\rightarrow n}\) ,即对 \(\mathcal{M}'_n\) 的所有权重矩阵 \(\mathbf{W}\in\mathbb{R}^{d_1\times d_2}\) ,有

\[\begin{equation} \begin{cases} \mathbf{W}_{\mathcal{M}'_n} = \mathbf{W}_{\mathcal{M}_m} + s\cdot\mathbf{A}\mathbf{B},\quad&\textit{if}\ \mathbf{W} \in\{\mathbf{W}_q,\mathbf{W}_v\},\\ \mathbf{W}_{\mathcal{M}'_n} = \mathbf{W}_{\mathcal{M}_m}, \quad&\textit{otherwise}, \end{cases} \end{equation} \]

  其中, \(\mathbf{W}_q\) 和 \(\mathbf{W}_v\) 是查询和值变换的权重矩阵, \(s\) 是一个超参数, \(\mathbf{A}\in\mathbb{R}^{d_1\times h}\) 和 \(\mathbf{B}\in\mathbb{R}^{h\times d_2}\) 是LoRA模块。LoRA模块仅占模型参数的约0.1%,并且在推理时不会增加额外的计算。

  其次,使用LoRA来估计仅相邻压缩程度之间的差距,即 \(n=m+1\) 。对于 \(n>m+1\) 的情况,简单地累积 \(m\) 和 \(n\) 之间的所有插件,即

\[\begin{equation} \mathcal{M}_m \oplus \left( \bigoplus_{i=m}^{n-1}\mathcal{P}_{i\rightarrow i+1}\right) = \mathcal{M}'_n \approx \mathcal{M}_n. \label{eq:plus} \end{equation} \]

  第三,假设模型之间的差距是可逆的,即 \(\mathcal{P}_{n\rightarrow m}=\ominus \mathcal{P}_{m\rightarrow n}\) 。当 \(n<m\) 时,插件被“减去”,即

\[\begin{equation} \mathcal{M}_m \ominus \left( \bigoplus_{i=n}^{m-1}\mathcal{P}_{i\rightarrow i+1}\right) = \mathcal{M}'_n \approx \mathcal{M}_n, \label{eq:minus} \end{equation} \]

  其中, \(\ominus\) 是 \(\oplus\) 的逆运算。为了实现 \(\ominus\) ,我们从权重中减去LoRA乘积 \(\mathbf{A}\mathbf{B}\) ,而不是加上它。

  现在,只需训练和存储16LoRA插件,以支持所有压缩程度对,这些插件的大小仍然相对于ViT主干来说微不足道,这些插件的集合称为Token CompensatorToCom)。由于ToCom的轻量特性,它可以以最小的开销加载到RAM中,从而实现实时推理吞吐量切换。

Training ToCom

  如前所述,ToCom应该是一个适用于任何下游数据集的通用插件。为了增强ToCom的泛化能力,将ToCom的训练整合为ViT主干的预训练阶段的扩展。具体而言,利用预训练数据(例如ImageNet)来训练ToCom

  为了获得支持任意压缩程度对的ToCom,论文提出了一种自蒸馏方法来训练它。以ToMe为例,使用 \(\widehat{\mathcal{M}}_n\) 来表示通过在现成的预训练模型上直接应用ToMe( \(r=n\) )得到的模型。训练损失的构造如下,

\[\begin{equation} \mathcal{L} = \begin{cases} \mathcal{L}_{KD}\left(\widehat{\mathcal{M}}_m \oplus \left( \bigoplus_{i=m}^{n-1}\mathcal{P}_{i\rightarrow (i+1)}\right), \widehat{\mathcal{M}}_n\right),&\textit{if}\ n > m \\ \mathcal{L}_{KD}\left(\widehat{\mathcal{M}}_m \ominus \left( \bigoplus_{i=n}^{m-1}\mathcal{P}_{i\rightarrow (i+1)}\right), \widehat{\mathcal{M}}_n\right),&\textit{if}\ n < m \end{cases} \end{equation} \]

  其中 \(m\) 和 \(n\) 在每次训练步骤中随机抽取,且满足 \(m \neq n\) , \(\mathcal{L}_{KD}\) 是带有软目标的知识蒸馏损失,即,

\[\begin{equation} \mathcal{L}_{KD}(\mathcal{M}_{s}, \mathcal{M}_{t})=\textrm{KL}(\mathcal{M}_{s}(\boldsymbol{x}), \mathcal{M}_{t}(\boldsymbol{x})), \end{equation} \]

  其中 \(\textrm{KL}\) 表示KullbackLeibler散度, \(\boldsymbol{x}\) 是输入。

  如图4所示,在蒸馏过程中,冻结所有预训练的参数,包括分类头,只更新参数高效的ToCom。值得注意的是,虽然ToCom需要在大规模数据集上进行训练,但它的模型较轻量且收敛迅速。因此,与主干网络的预训练相比,它的训练开销可以忽略不计。

  在训练完成ToCom后,可以直接将其部署到任何在下游任务上微调的现成模型上,进行任何源度数到目标度数的转换。将ToComLoRA产物加到或减去现成模型的权重上,用于推理而无需进一步训练。

Experiments




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:训练,标记,压缩,ToCom,2024,压缩器,mathcal,模型
From: https://www.cnblogs.com/VincentLee/p/18408248

相关文章

  • 2024.9.10人工智能学记
    今天课上学了很多实用知识。搜索引擎有两类,一种是全文搜索,一种是目录搜索。下面是一些搜索网站的技巧:①如果不想看到某些内容就可以在搜索关键词的前面使用(空格)减号,这样在查询结果中就不会出现这个关键词,搜索格式为“关键词A+空格+减号+关键词”②想要文件格式特定就使用FILET......
  • 2024.9 模拟赛日志
    目录NOD2301(20240904)NOD2304(20240905)2024年广州市赛第一试(20240907)2024年广州市赛第二试(20240908)金华一中24联训day15(20240910)SS240911(20240911)NOD2301(20240904)[A日记和最短路]字符串字典序题,\(a<b\iffc+a<c+b\),在Trie上维护倍增的哈希值。[B日记和欧拉函数]\(\varphi(......
  • 【2024年】最新已验证确定可以使用的免费股票数据接口集合(实时交易、历史交易、KDJ、M
    ​近一两年来,股票量化分析逐渐受到广泛关注。而作为这一领域的初学者,首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息,这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据......
  • Origin2024中绘制多因子分组柱状图,直观展示不同组别内的数据变化!
    当我们需要对比多组平行数据时,采用Origin多因子分组柱状图,不仅可以直接的对比多组数据,同时还能够直观展示各个指标因子的数据变化及趋势操作步骤:1、先打开Origin2024软件,然后在Book1中输入如下示例数据: 2、第一步,绘制分组柱形图图表,选中所有数据:3、点击菜单栏中【绘图】......
  • 2024年转行做网络安全工程师还来得及吗?薪资怎么样呢
    ......
  • C#/.NET/.NET Core优秀项目和框架2024年8月简报
    前言公众号每月定期推广和分享的C#/.NET/.NETCore优秀项目和框架(每周至少会推荐两个优秀的项目和框架当然节假日除外),公众号推文中有项目和框架的介绍、功能特点、使用方式以及部分功能截图等(打不开或者打开GitHub很慢的同学可以优先查看公众号推文,文末一定会附带项目和框架源码地......
  • 2024.08.28蚂蚁
    1.小苯买东西小苯看中了一件价值为p元的物品,他手里有1个“打折券"和1个“立减券”。两种优惠券可以都用在物品上,且使用顺序也是任意的。两种优惠券分别以整数x和y的方式给出。打折券:如果当前物品价格为p,使用后,物品价格变为:x·p/100上取整。立减券:如果当前物品价格为P,使用后......
  • 会声会影2024软件免费版无需激活永久免费
    嘿,亲爱的影像爱好者们!......
  • 会声会影2024中文免费版下载-正版下载-永久免费使用
    各位亲爱的朋友们,今天我要向大家介绍一款非常棒的视频编辑软件——会声会影2024。这可不是一般的软件哦,它可是视频编辑界的翘楚,拥有许多令人惊叹的新功能。让我们来看看会声会影2024的特点。这款软件具有强大的视频剪辑、特效制作和音频处理功能,可以让你轻松打造出专业级别的......
  • 会声会影2024破解版安装包,亲测可用
    亲爱的家人们!今天,我带来了一个让视频制作爱好者心跳加速的好消息——会声会影2024终于来了!......