首页 > 其他分享 >RAC:无训练持续扩展,基于检索的目标检测器 | ECCV'24

RAC:无训练持续扩展,基于检索的目标检测器 | ECCV'24

时间:2024-11-08 09:19:14浏览次数:1  
标签:24 检索 RAC ECCV 检测器 实例 图像 上下文

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Online Learning via Memory: Retrieval-Augmented Detector Adaptation

创新点


提出一种通过检索增强分类过程的创新在线学习框架RAC,与传统的基于离线训练/微调的方法相比,具有以下优点:

  1. 在线和持续学习能力。
  2. 最少的标注需求。
  3. 对视觉领域适应的计算无需求。

内容概述


目标检测器已经从闭集模型演变为开放世界模型,但将这些模型应用于新领域往往会导致较差的检测性能。为此,论文提出了一种新颖的方法,可以在线调整任何现成的目标检测模型,以适应新的领域,而无需重新训练检测器模型。

受到人类快速学习新主题(例如,记忆)方式的启发,论文允许检测器在测试时从记忆中查找相似的物体概念。这是通过一种检索增强分类(RAC)模块与一个可以灵活更新新领域知识的记忆库来实现的。

对各种现成的开放集检测器和闭集检测器进行了实验。仅使用一个小型记忆库(例如,每类10张图像)并且无需训练,RAC显著优于基线,在将检测器适应新的领域方面表现突出。

检索增强的检测器适应


在线学习框架由以下主要模块组成:

  1. 一个可在线更新的记忆库,其中包含用于提供在线适应新概念的目标领域图像
  2. 一个来自现成模型的物体(前景)提议模型,可以是开放世界检测器、在具有不同本体的相似领域数据上训练的任何检测器,或者简单的区域提议网络(RPN)。
  3. 一个上下文检索模块,用于将记忆库中的图像上下文与推理图像关联。
  4. 一个实例检索模块,用于将提议的物体实例与检索到的相似上下文中的实例关联。

对于查询图像,上下文级RAC首先从记忆库中选择相似的上下文图像。然后基于查询图像中的物体提议,对每个提议,实例级RAC在选定的相似上下文图像中执行实例匹配。最后,每个提议根据来自检索实例的投票分配一个类别。

物体(前景)提议模型

采用预训练的检测器作为物体提议网络,用于定位子任务,并专注于解决新概念分类子任务。

提议网络可以有多种形式,例如现成的开放集检测器、在不同数据集上训练的检测器(例如,具有不同本体的检测器),或者简单的区域提议网络(RPN),只要它能够提供有意义的前景提议。即使是没有任何语义能力的二元RPN网络,也可以使其具备分类能力。

记忆库

RAC仅需最少量的数据来构建记忆库,例如每个类别10张图像,这些图像可在在线学习环境中由最终用户轻松标注。为了构建一个高效的记忆库,论文提出了一种无监督的图像选择方法,利用图像级特征聚类来最大化覆盖率以及最小化标注工作。

  • 无监督种子图像聚类

使用强大的图像特征提取主干(例如CLIP)从未标注的目标域图像中提取嵌入,这些嵌入随后根据用户标注的图像数量进行聚类(例如,使用k-means),形成目标数量的聚类。每个聚类中的中心图像是由用户标注的,代表了多样化和具有代表性的场景。该方法能够通过每个类别仅标注10张图像就实现良好的检测性能。

检索增强(RAC)模块

通过在记忆库中存储标注的种子对象和图像,检索增强模块可以使物体检测器通过将目标检测到的提议与种子对象匹配来获得新的语义分类能力。

物体匹配的一个重大挑战是目标域中存在外观相似的不同类别的物体。为了解决这些混淆问题,论文构建了一个多阶段的上下文匹配过程。第一阶段,上下文检索,通过过滤掉无关场景(例如,过滤掉船只的海事场景)来缩小搜索范围。第二阶段,实例检索,则是在上下文匹配的图像中进行。通过同时考虑实例外观和上下文,该方法最大限度地减少了分类混淆并提高了检索准确性。

对于检索增强模型,强大的特征提取器是必要的。然而,它并不需要在目标域上进行训练即可实现良好的语义分类准确性。因此,任何强大的预训练特征提取器,例如DINOV2CLIP,都可以以无训练的方式使用,或者在提供的记忆库上进行微调以获得最佳性能。

具体来说,在第一阶段进行图像级语义匹配,使用现成的CLIP模型来提取图像级特征,然后计算查询图像与记忆库图像之间的相似性。在第二阶段进行实例级匹配,从图像级匹配结果中选择前 k 张图像(k=20, 50, 100),使用现成或微调的CLIP模型提取边界框级特征,然后计算实例之间的相似性选择的前 k 张图像。因此,最终的实例分类结果是边界框级匹配和全局上下文匹配的结合,有效地减少了外观引起的混淆。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,检索,RAC,ECCV,检测器,实例,图像,上下文
From: https://www.cnblogs.com/VincentLee/p/18534451

相关文章

  • 20222410 2024-2025-1 《网络与系统攻防技术》实验五实验报告
    1.实验内容总结一下本周学习内容,不要复制粘贴2.实验过程2.1查询baidu.com并获取指定信息2.1.1DNS注册人及联系方式使用whois+域名,可以获取DNS注册人及联系方式whoisbaidu.com还可以使用在线域名查询工具获取相关信息:可以查出注册人为MarkMonitor,Inc.,联系方式为abus......
  • 多校A层冲刺NOIP2024模拟赛19
    多校A层冲刺NOIP2024模拟赛19其实不太想写博客,但还是从今天开始坚持写吧。T1图书管理对于这种一边大一边小的问题,一般套路是大的设为$1$,小的设为$-1$,这道题也是,这样之后去扫一遍,两端的前缀和值一样即可。T2两棵树新学到的一个重要$trick$是:$$连通块的个数......
  • 【专题】2024摇摆的消费者-消费者体验营销报告汇总PDF洞察(附原数据表)
    原文链接: https://tecdat.cn/?p=38173在当今经济社会的多元发展格局下,消费领域呈现出复杂且多变的态势。从日常购物到各类大宗商品消费,从国内市场到跨境交易,消费者的行为、需求以及市场趋势都在不断演变。一方面,消费者对于购物体验的重视程度愈发凸显,其不仅关注产品本身,更在意......
  • 【专题】2024年文旅微短剧专题研究报告汇总PDF洞察(附原数据表)
    原文链接: https://tecdat.cn/?p=38187当今时代,各类文化与消费领域呈现出蓬勃发展且不断变革的态势。微短剧作为新兴内容形式,凭借网络发展与用户需求,从低成本都市题材为主逐步走向多元化,其内容供给类型正历经深刻转变,以适应市场新需求。文末237份文旅行业研究报告最新趋势已分享......
  • 2024-2025-1 20242407《网络》第二周学习总结
    2024-2025-120242407《网络》第二周学习总结教材学习内容总结教材学习中的问题和解决过程问题一:对于维吉尼亚密码的加密方式不是很理解解决方法:通过询问AI基于AI的学习......
  • [63] (多校联训) A层冲刺NOIP2024模拟赛19
    lhx对\((\lnn)^{\lnn}\)求导求出一个形如\(\frac{1}{n\lnn\ln\lnn}\)的东西A.图书管理说一种很好玩的\(n^2\logn\)做法(因为动态中位数我只会这个)对顶堆:就是你开一个大根堆和一个小根堆,然后把它们怼在一起,钦定比中位数大的放小根堆,小的放大根堆,这样中间就是中位......
  • CSP 2024 游记
    Day-1回到家光速打准考证,考试前一天才打印(逆天忘了不是第一轮,把文具全拿上了,尺子、圆规、铅笔……查了查考场路线,锐评一波SZ的考场,怎么选在了坪山区,离学校都要一个半小时,地铁只能坐到双龙,虽然有车接驳,但有来无回(发了个朋友圈,睡前调了个6点的闹钟,怕睡过头,然而还是睡过头了......
  • 2024.11.7随笔
    前言觉得就两三个人在机房安静自习真的好,有很多事情要做,规划好后按计划走不会感到迷茫而无所适从,头脑中也有时间的意识。只能说我个人比较喜欢对时间的掌控感,也喜欢安静的环境。明天大家就都要归队了,不知道下一次这么安静又要等到多久?写题今天水了个三倍经验所以就过了六道题,然......
  • Oracle OCP认证考试考点详解082系列14
    题记:本系列主要讲解OracleOCP认证考试考点(题目),适用于19C/21C,跟着学OCP考试必过。66.第66题:题目解析及答案:关于撤销(UNDO)和撤销表空间(UNDOTABLESPACE),以下哪两个陈述是正确的?A.一个撤销表空间可能仅由一个实例所拥有。B.撤销段由SYSBACKUP所拥有。C.撤销段由......
  • 2024/11/5日工作总结
    学习JS基础知识:1.引入方式:点击查看代码<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>Title</title></head><body><!--内部脚本--><!--<script>alert(......