首页 > 其他分享 >CLIPFit:不绕弯子,直接微调比提示微调和适配器微调更好 | EMNLP'24

CLIPFit:不绕弯子,直接微调比提示微调和适配器微调更好 | EMNLP'24

时间:2024-11-11 09:44:18浏览次数:1  
标签:24 偏置 编码器 boldsymbol CLIP CLIPFit 适配器 微调

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification

创新点


  • 提出了一种CLIPFit方法以高效地微调CLIP模型,从而揭示经典模型微调在视觉语言模型(VLMs)上的潜力。
  • 与现有的提示调整或适配器调整方法不同,CLIPFit不引入任何外部参数,而仅微调CLIP固有参数中的一个小特定子集。

内容概述


微调视觉语言模型(VLMs)方面的进展见证了提示调优和适配器调优的成功,而经典模型在固有参数上的微调似乎被忽视了。有人认为,使用少量样本微调VLMs的参数会破坏预训练知识,因为微调CLIP模型甚至会降低性能。论文重新审视了这一观点,并提出了一种新视角:微调特定的参数而不是全部参数将揭示经典模型微调在VLMs上的潜力。

通过细致研究,论文提出了ClipFit,可以在不引入额外参数开销的情况下微调CLIP。仅通过微调特定的偏置项和归一化层,ClipFit可以将零样本CLIP的平均调和均值准确率提升7.27%

为了理解CLIPFit中的微调如何影响预训练模型,论文进行了广泛的实验分析以研究内部参数和表示的变化。在文本编码器中,当层数增加时,偏置的变化减少。在图像编码器中,LayerNorm也有同样的结论。进一步的实验表明,变化较大的层对知识适应更为重要。

CLIPFit


在不引入任何外部参数的情况下,CLIPFit仅对文本编码器中FNN的投影线性层的偏置项进行微调,并更新图像编码器中的LayerNorm

文本编码器

对于文本编码器,CLIPFit并不是对所有偏置项进行微调,而仅对文本编码器中FFNs的投影线性层(即第二层)的偏置项进行微调。仅微调部分偏置项将减少训练参数的数量,相较于微调所有偏置项。此外,实验表明,微调部分偏置项可以实现比微调所有偏置项更好的性能。

图像编码器

BitFit证明了在不引入任何新参数的情况下,仅微调预训练语言模型中的偏置项可以与完全微调的表现相媲美。然而,BitFit是为大型语言模型(LLM)微调设计的,直接将BitFit应用于视觉语言模型(VLM)微调可能会损害模型的泛化能力。

为此,CLIPFit并没有对图像编码器的偏置项进行微调,而是对LayerNorm进行微调。在LayerNorm中,两个可学习参数增益 \(\boldsymbol{g}\) 和偏置 \(\boldsymbol{b}\) 用于对标准化输入向量 \(\boldsymbol{x}\) 进行仿射变换,以进行重新中心化和重新缩放,这有助于通过重新塑形分布来增强表达能力。在训练过程中,不同的数据分布应该在LayerNorm中产生不同的增益和偏置,以实现分布的重新塑形。

如果在推理过程中应用偏移的增益和偏置,可能会导致次优解。因此,CLIPFit对图像编码器中的LayerNorm进行微调。

损失函数

在微调阶段,通用的预训练知识很容易被遗忘。因此,论文探索了两种不同的策略来减轻这种遗忘。

第一种策略是使用知识蒸馏损失来指导CLIPFit从原始的零样本CLIP中学习。设 \(\{\boldsymbol{w}_i^\mathrm{clip}\}_{i=1}^K\) 为原始CLIP的文本特征, \(\{\boldsymbol{w}_{i}\}_{i=1}^K\) 为CLIPFit的文本特征。CLIPFit的训练损失和知识蒸馏损失定义为:

\[\begin{equation} \mathcal{L}=\mathcal{L}_{\mathrm{ce}}+\beta \mathcal{L}_{\mathrm{k g}}, \end{equation} \]

\[\begin{equation} \mathcal{L}_\mathrm{k g} = \frac{1}{K}\sum_{i=1}^{K}\cos(\boldsymbol{w}_i^{\mathrm{clip}},\boldsymbol{w}_i), \end{equation} \]

第二种策略是使用均方误差(MSE)损失来惩罚文本编码器的变化。设 \(\{\boldsymbol{b}_i^\mathrm{clip}\}_{i=1}^L\) 为来自预训练CLIP的未固定文本偏置项, \(\{\boldsymbol{b}_i\}_{i=1}^L\) 为来自CLIPFit的未固定文本偏置项,其中 \(L\) 是未固定偏置层的数量。均方误差损失定义为:

\[\begin{equation} \mathcal{L}_\mathrm{m s e} = \frac{1}{L}\sum_{i=1}^{L}||\boldsymbol{b}_i^\mathrm{clip}-\boldsymbol{b}_i||^2. \end{equation} \]

这两种策略都能缓解遗忘问题,而知识蒸馏损失的效果更佳。因此,选择将知识蒸馏损失作为CLIPFit的最终解决方案。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,偏置,编码器,boldsymbol,CLIP,CLIPFit,适配器,微调
From: https://www.cnblogs.com/VincentLee/p/18539148

相关文章

  • C#/.NET/.NET Core技术前沿周刊 | 第 12 期(2024年11.01-11.10)
    前言C#/.NET/.NETCore技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NETCore领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与视野拓宽。欢迎投稿、推荐或自荐优质文章、项目、学习资源等......
  • 2024/11/11
    软件设计 实验12:外观模式在计算机主机(Mainframe)中,只需要按下主机的开机按钮(on()),即可调用其他硬件设备和软件的启动方法,如内存(Memory)的自检(check())、CPU的运行(run())、硬盘(HardDisk)的读取(read())、操作系统(OS)的载入(load()),如果某一过程发生错误则计算机启动失败......
  • The 2024 ICPC Asia East Continent Online Contest (I) G
    Link:TheMedianoftheMedianoftheMedian考虑二分答案,对中位数进行二分,每次去判断是否比中位数大即可。我们钦定了一个中位数\(x\),对于\(\{a\}\)数组,若\(a_i\gex\),则令\(a_i=1\),否则\(a_i=0\),这样有一个好处,我们只关心\(1\)和\(0\)的数量,就可以知道中位数......
  • 20222318 2024-2025-1 《网络与系统攻防技术》实验四实验报告
    1.实验内容1.1实验任务(1)恶意代码文件RaDa.exe类型标识、脱壳与字符串提取。(2)使用IDAPro静态或动态分析crackme1.exe与crakeme2.exe,寻找特定输入,使其能够输出成功信息。(3)分析一个自制恶意代码样本rada,并撰写报告,回答问题。(4)取证分析实践:对于Snort收集的蜜罐主机5天的网络数......
  • CTF学习24.11.7[日志分析和流量分析]
    MISC03日志分析和流量分析01日志分析什么是日志?Web访问日志记录了Web服务器接收处理请求及运行时错误等各种原始信息。通过对Web日志进行的安全分析,不仅可以帮助我们定位攻击者,还可以帮助我们还原攻击路径,找到网站存在的安全漏洞并进行修复。日志记录的内容计算机日志是......
  • # 学期(2024-2025-1) 学号(20241420) 《计算机基础与程序设计》第七周学习总结
    学期(2024-2025-1)学号(20241420)《计算机基础与程序设计》第七周学习总结作业信息这个作业属于哪个课程<班级链接>(如2024-2025-1-计算机基础与程序设计)这个作业要求在哪里<作业要求链接>(2024-2025-1计算机基础与程序设计第七周作业)这个作业的目标<计算机科学概论......
  • 2024-2025-1 20241425 《计算机基础与程序设计》第7周学习总结
    2024-2025-120241425《计算机基础与程序设计》第7周学习总结作业信息这个作业属于哪个课程[2024-2025-1-计算机基础与程序设计](https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP)这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第一......
  • #C. [GESP202409 四级] 黑白方块 GESP四级考级
    这个是具体的代码,孩子的代码问题在子矩阵的判断有问题。就是这几行,没有具体实现。原思路代码块include<bits/stdc++.h>usingnamespacestd;intn,a,b,m[105][105];intmain(){cin>>n;for(inti=1;i<=n;i++){cin>>a>>b;for(intj=1;j<=a;j++){for(int......
  • 2024 湖南省赛(HNCPC 2024)
    C-easymath\[\Pia_i\le2024^b\\\log_2(\Pi2^{k_i})\le\log_2(2024^b)\\\sumk_i\leb\log_22024\]因此答案就是\(b=\frac{\sumk_i}{\log_22024}\)#include<bits/stdc++.h>usingnamespacestd;usingi32=int32_t;usingi64......
  • 2024年(2025届)四非电子通信保研推免经历(北邮、西电、西工大、天大等)
    前言写下这篇博客的原因在于自己保研期间刷了很多很多的经验贴,保研过程中充满了大量的信息差,一路走来听了很多学长学姐讲述了自己的经历,感觉收获颇丰。所以希望能将自己的经历也分享下去,如果以后的学弟学妹能获得一点点帮助,那就再好不过了。一、保研黑话rk:绩点/均分/综测的......