首页 > 其他分享 >ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24

ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24

时间:2024-10-29 09:33:30浏览次数:4  
标签:24 分割 CLIP ECCV ClearCLIP res 残差 FFN 注意力

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

创新点


  • 发现两个关键因素在将CLIP适配密集视觉-语言推理中起着至关重要的作用:残差连接影响的减少以及通过自注意力机制的空间信息重组。
  • 提出ClearCLIP,在CLIP的最后一层中进行了三项简单的修改:去除残差连接、最后一个注意力层中采用自注意力机制以及舍弃前馈网络(FFN)。这些修改旨在增强注意力输出,从而为开放词汇语义分割任务生成更清晰的表示。

内容概述


尽管大规模预训练的视觉-语言模型(VLMs),特别是CLIP在各种开放词汇任务中取得了成功,但它们在语义分割中的应用仍然面临挑战,常常产生噪声分割图,存在误分割区域。

论文仔细重新审视了CLIP的架构,并确定残差连接是降低分割质量的主要噪声源。通过对不同预训练模型中残差连接与注意力输出的统计特性进行比较分析,发现CLIP的图像-文本对比训练范式强调全局特征,而牺牲了局部可区分性,从而导致噪声分割结果。

为此,论文提出了ClearCLIP,这是一种新颖的方法,旨在分解CLIP的表示,以增强开放词汇语义分割。对最终层进行了三项简单的修改:去除残差连接、最后一个自注意力层中采用自注意力机制以及丢弃前馈网络。ClearCLIP可以一致地产生更清晰、更准确的分割图,并在多个基准测试中超过现有方法。

ClearCLIP


基于ViTCLIP模型由一系列残差注意力块组成。

舍弃残差连接

通过比较COCOStuff数据集中CLIP-B/16CLIP-L/14模型最后一个模块的残差连接 \(X_{{res}}\) 与不同注意力输出 \(X_{{attn}}\) 的范数来开始分析,可以很容易地观察到这两个子图的共性和差异:

  1. 共性在于mIoU曲线和 \(X_{attn}\) 的范数曲线表现出一定程度的正相关。
  2. 差异包括:1CLIP-B/16中 \(X_{res}\) 的范数远小于CLIP-L/14的范数;2CLIP-B/16中的注意力修改在q-k基线之上表现出一致的改善,而CLIP-L/14中的情况则没有。

因此,当 \(X_{res}\) 的影响(或范数)最小化时,注意力修改才是有效的。换句话说, \(X_{res}\) 显著削弱了CLIP在密集推断任务上的表现。

为了验证这一假设,基于CLIP-B/16使用 \(X_{{sum}}\) 、 \(X_{{res}}\) 和 \(X_{{attn}}\) 进行开放词汇语义分割实验。COCOStuff数据集上的实验结果如图3所示,发现 \(X_{res}\) 的mIoU接近于零,这表明残差连接可能对图像分割没有帮助。相反,仅使用 \(X_{{attn}}\) 的mIoU显著高于 \(X_{{sum}}\) 。图3中的可视化结果表明,CLIP的噪声分割图可以分解为一个模糊的 \(X_{{res}}\) 图和一个更清晰的 \(X_{{attn}}\) 图。根据这些实验结果,可以初步得出结论:分割图中的噪声主要来源于残差连接。

为了进一步证明 \(X_{res}\) 如何影响CLIP的性能,引入了一个缩放因子 \(\alpha\) ,使得 \(X_{{sum}} = X_{{res}} + \alpha X_{{attn}}\) ,该因子控制 \(X_{attn}\) 相对于 \(X_{res}\) 的相对影响。实验表明表明更大的 \(\alpha\) 显著提升了性能,这清楚地说明了 \(X_{{res}}\) 对性能的不利影响。

最后,论文建议直接舍弃残差连接以在密集的视觉-语言推理任务中实现最佳性能。

舍弃前馈网络(FFN

Transformer架构中的前馈网络(FFN)在建模数据中的关系和模式方面起着至关重要的作用,但最近的研究显示,FFN在推理过程中对图像表示的影响微乎其微。最后一个注意力模块中的FFN特征与最终分类特征的余弦角度明显更大,因此建议在密集预测任务中舍弃FFN

在应用于基础CLIP模型时,论文发现移除FFN对开放词汇语义分割任务的影响较小。但当与去除残差连接相结合时,舍弃FFN会导致结果的改善,特别是在模型规模较大的情况下。这种改进的原理在于,去除残差连接显著改变了FFN的输入,从而影响其输出。因此,去除FFN的输出可能会减轻其对性能的负面影响。

自注意力机制

基于上述分析,使用最后一个自注意力层的注意力输出用于视觉-语言推理。

\[\begin{equation} X^{{visual}} = X_{{attn}} = {Proj}({Attn}_{(\cdot) (\cdot)} \cdot v), \label{eq:solution} \end{equation} \]

受到之前工作的启发,可以在注意力机制 \({Attn}_{(\cdot) (\cdot)}\) 中使用不同的查询-键组合。实际上, \({Attn}_{qq}\) 在大多数情况下始终能够实现更好的性能,因此选择默认使用它。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,分割,CLIP,ECCV,ClearCLIP,res,残差,FFN,注意力
From: https://www.cnblogs.com/VincentLee/p/18512185

相关文章

  • 【2024-10-28】兄弟姐妹
    20:00希望是坚韧的拐杖,忍耐是旅行袋,携带它们,人可以登上永恒之旅。                                                 ——伯特兰·罗素昨晚送走了小姨子,接回了奶奶,慢慢......
  • 2024.10&11 总结
    图论【LuoguP8428】Pastiri题目描述给定一棵\(N\)点的树,点编号为\(1\)到\(N\),现在在\(K\)个点上有羊,你的任务是在树上分配一些牧羊人。这些牧羊人很懒,只会看管离他最近的羊。当然如果有多个离他最近的羊,那么他会都看管。当然,牧羊人可以和羊在同一个点上,但这样牧羊......
  • 20241029
    1.四川长虹,预期高开加速,0轴以下考虑加仓,震荡走势可以考虑高卖低买(盯着华立)2.亚世光电给钱就卖其他:上海贝岭,走势目前主动性丧失,后续更多按趋势看待好一些,谨慎追大高,五日线上预期都还在。锚定:深康佳不开板、中芯不大跌(-3以内)情绪锚定为双成药业、上海贝岭,如果两者皆为负反馈,那......
  • 第四届智慧交通与城市工程国际学术会议 (STCE 2024) 2024 4th International Conferenc
    文章目录一、会议详情二、重要信息三、大会介绍四、出席嘉宾五、征稿主题六、咨询一、会议详情二、重要信息大会官网:https://ais.cn/u/vEbMBz提交检索:EICompendex、IEEEXplore、Scopus三、大会介绍第四届智慧交通与城市工程国际学术会议(STCE2024)将于2024年12......
  • 【大模型系列】mPLUG-Owl3(2024.08)
    Paper:https://arxiv.org/pdf/2408.04840Github:https://github.com/X-PLUG/mPLUG-OwlHuggingFace:https://huggingface.co/mPLUG/mPLUG-Owl3-7B-240728Author:JiaboYeetal.阿里巴巴文章目录0总结(省流版)1模型结构1.1Cross-attentionBasedAchitecture1.2H......
  • 2024 ICPC区域赛成都 游记
    Day.-1前言成都的天气真的好好,晚上走在路上很舒服。从机场到酒店以后已经是十点多了,只简单吃了飞机餐的我们决定下楼觅食,然而太晚了+并不是很敢吃辣并没有觅到什么,权当吹着晚风散步。第一次到川蜀一带,感觉成都的城市绿化做的很好,较为湿润的空气也很舒服。在北方很少见到如此多的......
  • 第四届智慧交通与城市工程国际学术会议 (STCE 2024) 2024 4th International Conferen
    @目录一、会议详情二、重要信息三、大会介绍四、出席嘉宾五、征稿主题一、会议详情二、重要信息大会官网:https://ais.cn/u/vEbMBz提交检索:EICompendex、IEEEXplore、Scopus三、大会介绍第四届智慧交通与城市工程国际学术会议(STCE2024)将于2024年12月6-8日在重庆隆重举......
  • 2024-2025-1 20231326 《计算机基础与程序设计》第四周总结
    2024-2025-120231326《计算机基础与程序设计》第四周总结目录2024-2025-120231326《计算机基础与程序设计》第四周总结课程答疑WSL2的安装问题作业中的问题作业格式问题AI工具的使用问题优秀作业课程答疑WSL2的安装问题如图所示,部分同学在WSL2中安装Ubuntu虚拟机时,报错err......
  • .NET周刊【10月第3期 2024-10-20】
    国内文章我被.NET8JIT的一个BUG反复折磨了半年之久(JITtier1finallyoptimizations)https://www.cnblogs.com/calvinK/p/18469889作者分享了一次在公司中API服务器从.NET6升级到.NET8后遇到的JITBUG经历。升级后一个实例在某些部署中出现AES解密明文字符丢失的问题,而初......
  • 2024-2025年计算机软件毕业设计选题大全:2000个精品选题推荐✅
    ......