首页 > 其他分享 >模态内重叠优化,简单有效的CLIP微调方法 | BMVC'24 Oral

模态内重叠优化,简单有效的CLIP微调方法 | BMVC'24 Oral

时间:2024-11-12 09:09:47浏览次数:1  
标签:24 模态 BMVC 重叠 CLIP ++ IMO 图像

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: CLIP Adaptation by Intra-modal Overlap Reduction

创新点


  • 提出一种基于轻量级适配的新方法,直接在图像空间中减少CLIP中的模态内重叠(IMO)。新特征与任何利用缓存模型的无训练方法兼容,这些新特征提高了所有被检查的无训练方法的整体性能。
  • 表明直接减少模态内重叠(IMO)与性能之间存在正相关关系。
  • 探索了通过在监督和自监督方式下训练轻量级适配器来减少模态内重叠(IMO)的可能性。

内容概述


许多方法尝试将预训练的基础CLIP模型适应于少样本分类,因为CLIP在大规模语料库上进行训练,它能够通过适应少样本分类而具有良好的泛化能力。但当尝试在与预训练数据的分布差异显著的数据集上使用这一基础模型时,观察到性能并不理想。

论文分析了图像空间内的模态重叠,从嵌入表示的角度出发。由于对比训练最大化了配对图像和文本之间的余弦相似性(跨模态),而忽略了图像与图像之间的相似性(模态内),在图像空间中比较来自CLIP的嵌入是有问题的。这导致了非配对(不同类别的图像)和配对图像(同一类别的图像)之间存在显著的模态内重叠(IMO),这影响了依赖于图像空间相似性进行预测的少样本无训练分类方法的性能。

为了解决模态内的重叠,在Google Open Images数据集的通用样本集上训练一个轻量级适配器。只需训练一个epoch,即可提高少样本无训练分类的准确性。

通过广泛的证明了其有效性,减少模态内重叠可以带来 a ) 在多个标准数据集上提高性能,b ) 增强对分布变化的鲁棒性,以及 c ) 提高特征方差,使特征在下游任务中更具区分能力。

模态内重叠


模态内重叠分析

由于对比学习最大化了成对图像与文本之间的余弦相似度(模态间),但忽略了图像与图像之间的相似度(模态内),导致模态内重叠(IMO)。

通过适应校正模态内重叠(IMO

为了在CLIP视觉编码器中校正模态内重叠(IMO),引入了瓶颈适配器并在来自Google Open Images数据集的小样本图像上以监督方式进行微调。适配器是轻量级组件,向模型中添加了0.80%(大约1M)的新参数。

微调得到新的CLIP视觉编码器(VEimo)后,利用它创建一个改进的缓存模型,类似于Tip-Adapter。使用校正了IMO的编码N个类别各K张的训练图像 \(G_{train} \in \mathbb{R}^{NK\times d}\) ,将这些编码作为键,它们对应的one-hot编码标签 \(L_k, k \in \{1, NK\}\) 作为值,以形成键值缓存模型,目的是增强CLIP模型的先验知识。

给定一个通过VEimo编码的测试图像 \(U_i \in \mathbb{R}^{d}\) ,Affinity矩阵 \(Y\) 和Tip-Adapter++(TA++)的对数计算如下(用于softmax标签预测):

\[\begin{equation} Y = exp(-\beta(1-U_i G_{train}^T)), Y \in \mathbb{R}^{NK} \label{eq:ta_affinity_modgap} \end{equation} \]

\[\begin{equation} \text{TA++logits} = T_i W^T + \alpha YL_{train}, \text{TA++logits} \in \mathbb{R}^{N} \end{equation} \]

同样,通过用校正后的IMO矩阵 \(Y\) 替换标准Tip-X的亲和矩阵 \(A\) 来改进标准Tip-X,从而获得Tip-X++(TX++)的对数值(用于softmax标签预测):

\[\begin{equation} \text{TX++logits} = T_i W^T + \alpha YL_{train} + \gamma \phi(-M) L_{train}, \text{TX++logits} \in \mathbb{R}^{N} \end{equation} \]

主要实验



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,模态,BMVC,重叠,CLIP,++,IMO,图像
From: https://www.cnblogs.com/VincentLee/p/18541074

相关文章

  • 20241112 陶博士的宝矿
    陶博士的公众号.从06-24年,横跨20年,穿越周期.你要基于陶博的公众号,深入学习,然后努力建立自己的波段交易系统.趋势交易系统,是你未来10年的主要目标.其中的主要概念:主要概念   1.胜率趋势投机者,即使如陶博,也会有计划或者分析出错的时候.长期来看,胜率在30%-50......
  • 基于SpringBoot+Vue的创新创业教育中心项目申报管理系统设计与实现(2024-2025精选计算
    文章目录1.前言2.系统演示录像3.论文参考4.代码运行展示图5.技术框架5.1SpringBoot技术介绍5.2Vue技术介绍6.可行性分析7.系统测试7.1系统测试的目的7.2系统功能测试8.数据库表设计9.代码参考10.数据库脚本11.找我做程序,有什么保障?12.联系我们1.前......
  • 2024ICPC杭州赛后总结
    首先,还是恭喜一下我们队第一次参赛就拿到了,非常的幸运赛前事情还得从网络赛说起,由于我们队网络赛的发挥实在不好,导致最后只得到了一场比赛机会,在选择赛站的时候,就非常的犹豫,我们知道等学长都选完之后,留下给我们的赛站就不多了,我们应该选一个比较有举办经验的赛站,但是杭州站......
  • 每日科技资讯:2024年11月11日【龙】农历十月十一
    目录1.ShareTo浏览器插件,一站式社交媒体分享解决方案2.《幻兽帕鲁》发布通告:被要求共计赔付一千万日元并下架游戏3.一款可以保存网页的稍后阅读类工具4.李跳跳真实好友5.0内测版发布,悄然找出删除你的微信好友[Android]获取方式5.苹果因忘记续期TLS数字证书导......
  • 2024 Noip 做题记录(七)
    个人训练赛题解(七)\(\text{ByDaiRuiChen007}\)Round#25-2024.10.23A.[AGC010D]DivisorProblemLink题目大意给定\(a_1\sima_n\),保证\(\gcd(a_1,\dots,a_n)=1\)。两人轮流操作,每次给一个大于一的\(a_i\)减一,然后所有\(a_i\)约去\(\gcd(a_1,\dots,a_n)\),无......
  • 2024.11.11
    docker部署minio要部署MinIO并且设置accessKey、secretKey,同时暴露端口,你可以按照以下步骤进行操作:1.运行MinIO容器并暴露端口使用dockerrun命令启动MinIO容器,指定所需的环境变量、端口映射,并设置MinIO的访问密钥和密钥。以下是完整的命令:dockerrun-d\-p......
  • FreeRTOS 24:事件组EventGroup等待、清零、获取操作
    等待事件标志位xEventGroupWaitBits()既然标记了事件的发生,那么我怎么知道他到底有没有发生,这也是需要一个函数来获取事件是否已经发生,FreeRTOS提供了一个等待指定事件的函数——xEventGroupWaitBits(),通过这个函数,任务可以知道事件标志组中的哪......
  • 2024-11-11-Linux学习-基础篇(1)(鸟哥的LINUX私房菜 第四章)
    Linux的学习,也是一本大厚书,学起来。文章目录一、前言二、知识点2.1开始执行命令2.2日期与时间2.3日历2.4计算器2.4重要的热键2.4.1[TAB]2.4.2[Ctrl]-c2.4.3[Ctrl]-d2.4.4[Shift]+{[PageUP]l[PageDown]}按键小结一、前言  Linux命令学习,开始。二、......
  • CSP2024总结(学术版)
    J组T4一道/赛上觉得很难/下来也听说很难/但听老师一讲也觉得只有中位绿/的题。题目传送门,首先想到\(r=1\)时的做法,不难看出可以使用一个标记数组来存储,然后依次寻找离他最近的\(1\)看是否满足要求,标记即可。\(5\)pts拿到手。然后发现可以扩展出一种类似递推的思想,设\(f_......
  • CSP-J2024 复赛T1(洛谷P11227)题解
    前传作者初赛没过。坐标sd,79分过不了已经适应了。话说这次泄题事件闹得沸沸扬扬,都说各省分数线要降,最后sd降了8分,80。挺逆天的,感觉sd再这样下去一点OIer都要没了。思路桶排思想,用二维数组模拟一整副牌,本来做的时候是怕有重复牌才这样做,事实上不会。ACCode#include<bits/......