首页 > 其他分享 >VL4AD:让语义分割认识未知类别,无需额外数据和训练的OOD语义分割 | ECCV'24

VL4AD:让语义分割认识未知类别,无需额外数据和训练的OOD语义分割 | ECCV'24

时间:2024-11-19 10:29:36浏览次数:1  
标签:24 OOD 分割 mathbf text 语义 类别 mathcal ID

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection

创新性


  1. 提出VL4AD模型用于解决语义分割网络难以检测来自未知语义类别的异常的问题,避免额外的数据收集和模型训练。
  2. VL4AD将视觉-语言(VL)编码器纳入现有的异常检测器,利用语义广泛的VL预训练来增强对离群样本的感知,还加入max-logit提示集成和类别合并策略用于丰富类别描述。
  3. 提出了一种新的评分函数,可通过文本提示实现无数据和无训练的离群样本监督。

VL4AD


视觉文本编码器

视觉编码器 \(\mathcal{E}_\text{vision, vis-lang}\) 是与文本编码器 \(\mathcal{E}_\text{text}\) 共同预训练,解码器 \(\mathcal{D}_\text{vis-lang}\) 处理多尺度的视觉和文本嵌入,生成两种类型的输出:掩码预测分数 \(\mathbf{s} \in [0, 1]^{N\times H\times W}\) 和掩码分类分数 \(\mathbf{c} \in [0, 1]^{N\times K}\) ,其中 \(N\) 表示对象查询的数量。

对象查询是可学习的嵌入,类似于目标检测网络中的先验框。掩码预测分数以类别无关的方式识别物体,而掩码分类分数计算掩码属于特定语义类别的概率。

基于编码后的视觉嵌入 \(\mathbf{v}_i\) ( \(i=1, \dots, N\) )和ID类别文本嵌入 \(\mathbf{t}_j\) ( \(j=1, \dots, K\) )之间的余弦相似性计算掩码分类分数:

\[\begin{equation} \mathbf{c}_{i} = \text{softmax}\Big(1/T \begin{bmatrix} \text{cos}(\mathbf{v}_i, \mathbf{t}_1), & \text{cos}(\mathbf{v}_i, \mathbf{t}_2), & \ldots, & \text{cos}(\mathbf{v}_i, \mathbf{t}_{K}) \end{bmatrix} \Big) \end{equation} \]

在架构上, \(\mathcal{E}_\text{vision, vis-only}\) 和 \(\mathcal{E}_\text{vision, vis-lang}\) ,以及 \(\mathcal{D}_\text{vis-only}\) 和 \(\mathcal{D}_\text{vis-lang}\) 是相当相似的,区别在于 \(\mathcal{E}_\text{vision, vis-lang}\) 在预训练后保持不变,仅对视觉-语言解码器 \(\mathcal{D}_\text{vis-lang}\) 进行微调。通过这种方式,将零样本CLIP在图像级别的竞争性OOD检测性能转移到像素级任务中。

Max-Logit提示集成于类合并

优化ID类文本嵌入可以使其更好地与相应的ID视觉嵌入对齐,提高IDOOD类别之间的可分离性,但盲目地微调文本编码器可能导致灾难性遗忘。

为此,论文通过max-logit提示集成在文本提示中引入概念词汇多样性和具体化,显著提高模型对OOD输入的敏感性。词汇多样性包括同义词和复数形式,而具体化涉及更好地与CLIP预训练对齐的分解概念。例如,使用概念{vegetation, tree, trees, palm tree, bushes}来表示类vegetation

max-logit集成考虑给定类 \(k\) 的所有替代概念,替换内容为视觉嵌入 \(\mathbf{v}_i\) 与所有 \(l\) 个替代文本嵌入 \([\mathbf{t}_{k}^{1}, \ldots, \mathbf{t}_{k}^{l}]\) 的最大余弦相似度:

\[\begin{equation} \max\Big( \begin{bmatrix} \text{cos}(\mathbf{v}_i, \mathbf{t}_{k}^{1}), & \text{cos}(\mathbf{v}_i, \mathbf{t}_{k}^{2}), & \ldots, & \text{cos}(\mathbf{v}_i, \mathbf{t}_{k}^{l}) \end{bmatrix}\Big). \end{equation} \]

此外,单靠在 \(K\) 类维度上的最大像素级得分可能导致次优性能,因为在两个ID类之间的边缘像素的不确定性较高,尤其是当类别数量增加时。

为了解决这个问题,将相关的ID类合并为超类。通过在测试期间将各个语义类的文本提示作为不同的替代概念连接到超类中来实现,而无需重新训练。然后,可以使用max-logit方法获得超类的不确定性。

通过OOD提示实现无数据、无训练异常监督

通过视觉-语言预训练,通常能够很好地检测到与ID类不同的语义OOD类(远OOD类)。但当OOD类与ID类非常相似的情况(近OOD类),则更具挑战性。例如,在CityScapes类别中,OOD类大篷车在城市驾驶场景中可能在视觉上与ID类卡车相似。

利用视觉-语言模型的开放词汇能力,论文引入了一种新的评分函数,旨在更好地检测这些近OOD类,而不需要额外的训练或数据准备。

为了在测试时整合 \(Q\) 个新的OOD概念,需要通过 \(Q\) 个额外的项 \(\text{cos}(\mathbf{v}_i, \mathbf{t}_{K+1}), \ldots, \text{cos}(\mathbf{v}_i, \mathbf{t}_{K+Q})\) 扩展公式1中的掩码分类得分 \(\mathbf{c}_i\) 。遵循公式2,即通过将 \(\mathbf{c} \in \left[0, 1\right]^{N\times (K+Q)}\) 的前 \(K\) 个通道与掩码预测得分 \(\mathbf{s} \in \left[0, 1\right]^{N\times H\times W}\) 进行组合,获得最终的不确定性得分 \(\mathbf{u} \in \mathbb{R}^{H\times W}\) :

\[\begin{equation} \mathbf{u}_{h,w} = -\max_{k}\sum_{i=1}^{N} \mathbf{s}_{i, h, w} \cdot \mathbf{c}_{i, k}\ \ . \end{equation} \]

通过这一整合, \(Q\) 类中的OOD对象将(在大多数情况下)正确分配到其相应的类别。如果没有这一整合,它们可能会被错误地分配到与其实际OOD类别相似的ID类。相反,如果输入中不存在OOD对象,额外的 \(Q\) 类的影响将保持微不足道。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,OOD,分割,mathbf,text,语义,类别,mathcal,ID
From: https://www.cnblogs.com/VincentLee/p/18554384

相关文章

  • 20222327 2024-2025-1 《网络与系统攻防技术》实验五实验报告
    一、实验内容网络攻击需要搜集的信息包括:攻击对象的名称和域名;目标网络位置,如IP地址、DNS服务器、外部网络拓扑结构;现实世界中的对应物,如注册信息、电话号段、网络或安全管理员及联系方式、地理位置等;网络地图,包括活跃主机IP、操作系统类型、开放的端口与运行的网络服务类型,以及......
  • ✨✨✨2024年11月Navicat Premium最新版(17.1.5) MacOS版免费下载✨✨✨
    该版本为MacOS专用,最新稳定版,相比旧版本,性能更高、资源占用更小、修复了频繁崩溃的bug。navicat最新破解版本都需要关闭SIP,如何关闭可参考这篇文章NavicatPremium是一款非常强大的数据库管理工具,允许您在一个应用程序中同时连接到MySQL、SQLite、MongoDB、Oracle和Postgr......
  • 【2024-11-18】连岳摘抄
    20:00爱别人就是一种个人保险或投资,它是会得到偿还的。可是绝大多数人都很近视,看不出这种长期投资的价值。                                                 ——冯友兰......
  • 20222319 2024-2025-1 《网络与系统攻防技术》实验六实验报告
    1.实验内容1.1本周学习内容本周主要学习了利用msf实现对漏洞主机攻击的具体实现原理与过程,认识XP系统、win7系统存在的许多可利用漏洞,再次复习了namp的指令,学会了主机发现、系统扫描、漏洞扫描等技术。1.2实验要求(1)前期渗透主机发现端口扫描扫描系统版本,漏洞等(2)Vsf......
  • 界面控件DevExpress WinForms v24.2新功能预览 - 支持.NET 9
    DevExpressWinForms 拥有180+组件和UI库,能为WindowsForms平台创建具有影响力的业务解决方案。DevExpressWinForms能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业务数据,它都能轻松胜任!获取DevExpressWinFormsv24.1正式版下载本......
  • 24-工控安全需求分析与安全保护工程
    24.1工控系统安全威胁与需求分析1)概念及组成工业控制系统是由各种控制组件、监测组件、数据处理与展示组件共同构成的对工业生产过程进行控制和监控的业务流程管控系统。工业控制系统通常简称工控系统(ICS)。工控系统通常分为离散制造类和过程控制类两大类,控制系统包括SCADA系......
  • IPC-7095E-2024 EN Design and Assembly Process Guidance for Ball Grid Arrays (BGA
    IPC-7095E-2024ENDesignandAssemblyProcessGuidanceforBallGridArrays(BGAs).pdf链接: https://pan.baidu.com/s/1l20O_ojtNxp3RlB7qDwZCw?pwd=1234 提取码:1234https://share.weiyun.com/msvouwaFIPC-7095E BGA设计与组装工艺的实施Industry:1.PCBFabricator......
  • 20222405 2024-2025-1 《网络与系统攻防技术》实验五实验报告
    1.实验内容信息搜集是网络攻防的关键环节,通过分析目标系统获取有价值的信息,分为被动收集和主动扫描两种方式。被动收集利用GoogleHacking、WHOIS等工具从公开资源中提取域名、IP地址、子域等数据;主动扫描则借助nmap等工具识别目标的开放端口、服务及可能存在的漏洞。熟练掌......
  • 2024-11-19每日一题
    台阶问题题目描述有\(N\)级台阶,你一开始在底部,每次可以向上迈\(1\simK\)级台阶,问到达第\(N\)级台阶有多少种不同方式。输入格式两个正整数\(N,K\)。输出格式一个正整数\(ans\pmod{100003}\),为到达第\(N\)级台阶的不同方式数。样例输入52输出8数据范围......
  • 20222302 2024-2025-1 《网络与系统攻防技术》实验六实验报告
    1.实验内容掌握metasploit的用法。下载官方靶机Metasploitable2,完成下面实验内容。(1)前期渗透①主机发现(可用Aux中的arp_sweep,search一下就可以use)②端口扫描:可以直接用nmap,也可以用Aux中的portscan/tcp等。③选做:也可以扫系统版本、漏洞等。(2)Vsftpd源码包后门漏洞(21端口)(3)S......