首页 > 其他分享 >AnytimeCL:难度加大,支持任意持续学习场景的新方案 | ECCV'24

AnytimeCL:难度加大,支持任意持续学习场景的新方案 | ECCV'24

时间:2024-11-07 09:30:12浏览次数:4  
标签:24 存储 ECCV 标签 模型 AnytimeCL 调优 alpha equation

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Anytime Continual Learning for Open Vocabulary Classification

创新点


  • 在线训练时,每个批次由新训练样本和类别平衡的存储样本组成。
  • 在线学习每个标签的准确性,以有效对原始模型和调整后模型的预测进行加权。
  • 损失修改以支持“以上皆非”(不在预设标签内)的预测,这也使开放词汇训练更加稳定。
  • 中间层特征压缩,减少训练样本的存储并提高速度,同时对准确性的影响不大。

内容概述


论文提出了针对开放词汇图像分类的任意持续学习(AnytimeCL)方法,旨在突破批量训练和严格模型的限制,要求系统能够在任何时间预测任何一组标签,并在任何时间接收到一个或多个训练样本时高效地更新和改进。

AnytimeCL基于一种动态加权机制,结合了部分微调的模型的预测与原始的模型的预测。当有新训练样本时,用存储的样本填充一个类别平衡的批次更新微调模型最后的Transformer块,然后更新对给定标签的调优和原始模型准确度的估计,最后根据它们对每个标签的预期准确度对调优模型和原始模型的预测进行加权。

此外,论文还提出了一种基于注意力加权的主成分分析(PCA)的训练特征压缩方法,这减少了存储和计算的需求,对模型准确度几乎没有影响。

AnytimeCL


论文旨在通过将微调模型与原始模型相结合来增强开放词汇图像分类器以学习目标任务。调优后的模型使用与原始模型相同的编码器,但包含一个可训练的解码器。

对于一幅图像 \(x\) ,调优模型和原始模型都生成所有候选标签的概率,分别表示为 \(P_t(y|x)\) 和 \(P_o(y|x)\) ,最终概率通过在线类别加权(OCW)进行加权:

\[\begin{equation} \label{eq:our_weighting} P(y|x) = \alpha_o(y) P_t(y|x) + \alpha_t(y) P_o(y|x), \end{equation} \]

在训练过程中,新样本被编码为中间特征(图像块的特征向量加上一个CLS标记),可以选择进行压缩并存储,以便在未来重复使用。

模型

  • 原始模型

原始模型是公开可用的CLIP ViT模型,该模型基于图像嵌入 \(e_{x}\) (CLS标记)与文本嵌入 \(e_{y}\) 的点积,为图像 \(x\) 生成给定一组候选文本标签 \(\mathcal{Y}\) 的标签 \(y\) 的概率:

\[\begin{equation} \label{eq:class_wise_probability} P_o(y|x) = \frac{\exp(100 \cdot \cos(e_{x}, e_{y}))}{\sum_{y_k\in\mathcal{Y}} \exp(100 \cdot \cos(e_{x}, e_{y_k}))}. \end{equation} \]

  • 调优模型

调优模型仅调优最后的图像Transformer块,同时保持标签嵌入固定。这有助于特征与文本模态保持相关,并减少对接收标签的过拟合。

给定一个新样本,构造一个包含该样本的批次以及经过类平衡采样的存储训练样本。此外,使用一种正则化损失来帮助提高性能。如果真实标签不在候选标签中,那么每个候选标签都应该预测一个较低的分数。通过在候选集中添加一个“其他”选项来实现这一点,但由于“其他”没有具体的表现,仅用一个可学习的偏差项来对其建模。因此,训练调优模型的综合损失为:

\[\begin{equation} \label{eq:final_loss} \mathcal{L}(x, y, \mathcal{Y}) =\mathcal{L}_{\text{ce}}(x,y,\mathcal{Y} \cup \text{other}) + \beta \mathcal{L}_{\text{ce}}(x,\text{other},(\mathcal{Y} \cup \text{other}) \setminus y), \end{equation} \]

在线类别加权(OCW

在更新之前使用每个训练样本,根据调优和原始预测来更新对其标签正确性的可能性估计,从而对给定标签正确的模型分配更高的权重。应用指数滑动平均(EMA)更新方法在线估计它们,符合随时持续学习的目标。假设EMA衰减设置为 \(\eta\) (默认为 \(0.99\) ),当前步骤调优模型的估计准确性为:

\[\begin{equation} c_t(y) = \eta \hat{c}_t(y) + (1 - \eta) \mathbb{1}[y_t(x)=y]. \end{equation} \]

这里, \(\hat{c}_t(y)\) 是前一步骤中标签 \(y\) 的估计准确性; \(y_t(x)\) 表示调优模型对 \(x\) 的预测标签。由于指数滑动平均依赖于过去的值,将 \(c_t(y)\) 计算为前 \(\lfloor \frac{1}{1-\eta} \rfloor\) 个样本的平均准确性。 \(c_o(y)\) 也是以相同的方式更新的。

在获得 \(c_t(y)\) 和 \(c_o(y)\) 之后,两个模型的权重为:

\[\begin{equation} \label{eq:final_alpha} \alpha_t(y)= \frac{c_t(y)}{c_t(y) + c_o(y) + \epsilon}, \qquad \alpha_o(y)= 1 - \alpha_t(y). \end{equation} \]

这里, \(\epsilon\) 是一个非常小的数(1e-8),用于防止除以零。对于调优模型未见过的标签,设置 \(\alpha_t(y)=0\) ,因此 \(\alpha_o(y)=1\) 。

存储的高效性与隐私性

模型的调优需要存储每个图像或者存储输入到调优部分的特征(或标记)。存储图像存在缺乏隐私和在空间和计算上低效的缺点,因为在训练中需要重新编码。存储特征可以缓解其中一些问题,但仍然使用大量内存或存储空间。

训练良好的网络学习到的数据高效表示往往难以压缩,如果尝试使用在某个数据集上训练的VQ-VAEPCA(主成分分析)来压缩特征向量,将无法在不大幅损失训练性能的情况下实现任何有意义的压缩。然而,每幅图像中的特征包含许多冗余。因此,计算每幅图像中特征的PCA向量,并将这些向量与每个特征向量的系数一起存储。

此外,并非所有标记在预测中都是同等重要的。因此,可以训练一个逐图像的注意力加权PCA,通过每个标记与CLS标记之间的注意力加权。最后,可以通过存储每个向量及其系数的最小/最大浮点值,并将它们量化为8位或16位无符号整数来进一步压缩。通过以这种方式仅存储五个PCA向量及其系数,可以将50768维标记( \(7\times 7\) patch 标记 +CLS标记)的存储从153K字节减少到5K字节,同时预测准确度的差异不到1%

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,存储,ECCV,标签,模型,AnytimeCL,调优,alpha,equation
From: https://www.cnblogs.com/VincentLee/p/18531526

相关文章

  • 超详细2024版Latex安装Texlive+Texstudio(含环境配置)
    一、软件介绍(一)Latex介绍LaTeX(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由ΤΕX所提供的强大功能,能在几天、甚至几小时内生成很多具有书籍质量的印刷品。对于生成......
  • 2024-2025-1 20231420《计算机基础与程序设计》第六周总结
    课程答疑实验相关1.实验环境的搭建对同学们来说相对陌生,有时会出现操作错误、字母输错等情况。建议:可以多浏览实验指导书,熟悉操作。2.C语言部分算法没能掌握透彻,在实现功能时不知道怎么写代码。建议:可以多进行练习,在写代码的过程中加深理解。3.不会绘画流程图。建议:首先理......
  • 2024年11月 GitHub 十大热门项目排行榜
    欢迎来到2024年11月的GitHub热门项目前十排行榜!无论你是开发者、数据科学家,还是科技爱好者,这些项目在GitHub上都引起了广泛关注。让我们一起看看这些项目独特之处吧!Skyvern-AI/Skyvern......
  • 20241106-语音视频转文字的测试及其价格
    一、绘影Ai字幕价格 个人专业版本60元,商用大约一个120元,支持批量。二、手机app讯飞语音、语音转文字等讯飞听见迅捷转语音https://www.bilibili.com/read/cv21023516/功能价格视频、语音转文字的原理涉及的模型感悟:我使用33字幕本地识别,实在太废时间了。我用了一......
  • 2024 CSP-S 游记
    2024CSP-S游记初赛:考前的往年的习题练习,知识点的背诵都是必须的,不知是我的问题还是CCF的问题,觉的阅读程序总是看不懂,但其实就是这样的,毕竟在练习的时候都是思路不同就弃之不看,不是自己写的终究是不太理解。Day???做了不知多少初赛题,觉得无甚提升,遂放弃。Day???去一中考试,和......
  • 2024.11.6 鲜花
    アイデン貞貞メルトダウンアリ!?ナシ!?ナシ!?アリ!?ついてるついてないあれどっち?どっち?Trance,trance,trance蟻!?梨!?nAシ!?ァ理!?自我字が崩壊!インドア警備隊紫外線さよなら(バイバイalright!一級在宅allday!)やる気の“や”の字どっかにいっちゃったんだナイナイ心技体......
  • 2024.11.6随笔
    前言半期考试第一天?停课!前一天晚上提前做好了这几天的计划,本来以为晚上要回班自习,结果不用,于是计划就奇妙的往前平移了!CSP后我也反思了自己近期的学习情况,无论是whk还是竞赛。只能说有目标但是缺乏决心和长远的目光,且自己的日常习惯做的还不够好,有的东西没有坚持好。然后就......
  • 2024.11.6训练记录
    今天主要是做的单个题。下次打模拟赛就是放假了。怕会有段时间没打手感下降/ll。csp-J2024Ddp。f[i][j]表示,第i轮结束后,最终颜色是j的结束位置。f[i][j]=-1:状态不能达到。f[i][j]=0:可以在多个人处结束。(即有大于等于2个序列中的j颜色可以被转到)f[i][j]=l:只有在第l......
  • 多校A层冲刺NOIP2024模拟赛18
    多校A层冲刺NOIP2024模拟赛18T1选彩笔(rgb)签到题,但是没签上。。。没想到三维前缀和,直接上了个bitset。就是直接二分答案,然后枚举这三维每维的区间的起点,前缀和查数量是否大于等于$K$即可,也可以把二分答案改为第一维的双指针,少一个$log$。T2兵蚁排序(sort)比T1还签......
  • CSP2024 前集训:NOIP2024加赛 2
    前言T2开太晚了,没打完,别的没怎么挂。哦对,T1以为埃筛复杂度是\(nlog^2\),实际上是\(n\ln(\ln(n))\),结果以为复杂度是错的,然后本地不开O2都飞快,我甚至还在惊叹本地竟然能跑\(5e9\)……还有我之前不知道树的直径的中点时唯一的……T1新的阶乘直接埃筛做完了。点击查......