首页 > 其他分享 >CVPR 2024 | 谷歌提出OmniGlue:特征匹配新工作

CVPR 2024 | 谷歌提出OmniGlue:特征匹配新工作

时间:2024-05-27 18:22:13浏览次数:29  
标签:匹配 泛化 OmniGlue 2024 CVPR 图像 研究者 关键点

前言 第一个以「泛化」能力为核心设计原则的可学习图像匹配器来了!

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自机器之心

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

最近,研究社区又提出了新颖的可学习图像匹配器,在传统基准上实现了性能的不断改进。尽管已经取得了长足的进步,但这些进展忽略了一个重要方面:图像匹配模型的泛化能力。如今,大多数局部特征匹配研究都集中在具有丰富训练数据的特定视觉领域(如室外和室内场景),这就导致了模型高度专用于训练领域。遗憾的是,这些方法的性能在域外数据(如以对象为中心或空中捕获)上通常急剧下降,在某些情况下甚至可能并不比传统方法好很多。因此,传统的域无关技术(如 SIFT)仍被广泛用于获取下游应用的姿态。并且由于收集高质量注释的成本很高,在每个图像域都有丰富的训练数据是不现实的,就像其他一些视觉任务一样。因此,社区应该专注于开发架构改进,使得可学习的匹配方法具有泛化能力。近日,受上述观察的启发,德克萨斯大学奥斯汀分校和谷歌研究院的研究者联合提出了 OmniGlue,这是第一个以泛化为核心原则设计的可学习图像匹配器。在与域无关的局部特征基础上,他们引入了用于提高匹配层泛化性能的新技术:基础模型指导和关键点位置注意力指导。

如图 1 所示,通过引入的技术,OmniGlue 能够在分布外领域上实现更好泛化性能,同时保持源领域上的高质性能。

研究者首先整合了基础模型的广泛视觉知识。通过对大规模数据进行训练,基础视觉模型 DINOv2 在各种图像域中的各种任务(包括稳健的区域级匹配)中表现良好。尽管基础模型所产生匹配结果的粒度有限,但当专门的匹配器无法处理域位移时,这些模型可以为潜在的匹配区域提供可泛化的指导。因此,他们使用 DINO 来指导图像间特征传播过程,降低不相关的关键点并鼓励模型融合来自潜在可匹配区域的信息。接着利用关键点位置信息来指导信息传播过程。研究者发现,当模型应用于不同领域时,以往的位置编码策略会损害性能。这促使他们与用于估计对应关系的匹配描述符区分开来。研究者提出了一种新颖的关键点位置指导注意力机制,从而避免过于专注关键点的训练分布和相对姿态变换。通过实验,研究者评估了 OmniGlue 在各种视觉领域的泛化能力,包括合成图像和真实图像,从场景级到以对象为中心和空中数据集,期间使用小基线和宽基线相机。与以往工作相比,OmniGlue 展示出显著的改进。方法概览下图 2 概述了 OmniGlue 方法,主要包括以下四个阶段。首先,研究者使用两种互补类型的编码器提取图像特征,包括了专注于通用细粒度匹配的 SuperPoint 以及对粗略但广泛的视觉知识进行编码的视觉基础模型 DINOv2。其次,研究者使用这些特征构建关键点关联图,包括图像内和图像间。第三,研究者基于构建的图在两张图像中的关键点之间传播信息,分别使用自注意力层和交叉注意力层进行图像内和图像间通信。最后,一旦获得改进后的描述符,研究者应用最佳匹配层来生成两张图像中关键点之间的映射。

在具体细节上,OmniGlue 方法主要包含以下几步。特征提取。输入是两张具有共享内容的图像,表示为 I_A 和 I_B。研究者将这两张图像的 SuperPoint 关键点集表示为 A := {A_1, ..., A_N } 和 B := {B_1, ..., B_M}。N 和 M 分别是 I_A 和 I_B 的已识别关键点的数量。每个关键点都与其 SuperPoint 局部描述符 d ∈ R^C 相关联。利用 DINOv2 构建图形。研究者利用 DINOv2 特征来指导图像间图形的构建。如下图 3(左)所示,他们以 G_B→A_i 为例。对于关键点集合 A 中的每个关键点 A_i,研究者计算其与集合 B 中所有关键点的 DINOv2 特征相似度。

具有新颖指导的信息传播。研究者根据关键点图执行信息传播,这一模块包含了多个块,每个块都有两个注意力层。第一个基于图像内图更新关键点,执行自注意力;第二个基于图像间图更新关键点,执行交叉注意力。匹配层和损失函数。使用改进的关键点表示来生成成对相似度矩阵:

对比 SuperGlue 和 LightGlueSuperGlue 和 LightGlue 都使用注意力层进行信息传播。不同的是,OmniGlue 利用基础模型来指导这个过程,这对迁移到训练期间未观察到的图像域有很大帮助。在局部描述符改进方面,与 SuperGlue 不同,OmniGlue 解耦了位置和外观特征。作为参考,SuperGlue 将关键点表示为 d + p,将两个特征纠缠在一起,其中位置特征也用于产生匹配结果。与 OmniGlue 的设计类似,LightGlue 消除了更新的描述符对位置特征的依赖,但提出了一种非常具体的位置编码公式,基于旋转编码,并且仅在自注意力层中。总之,SuperGlue 是最接近 OmniGlue 的模型,可作为直接对比的参考。也因此,研究者使用 SuperGlue 作为实验验证的主要参考比较。实验结果研究者在下表 1 中列出了用于评估 OmniGlue 的数据集和任务。

从 Synthetic Homography(SH)到 MegaDepth(MD)数据集,如下表 2 所示,与基础方法 SuperGlue 相比,OmniGlue 不仅在领域内数据上表现出优异的性能,而且还表现出强大的泛化能力。

从 MegaDepth(MD)到其他领域,如下表 3 所示,OmniGlue 不仅在 MegaDepth-1500 上实现了与 SOTA 稀疏匹配器 LightGlue 相当的性能,而且与所有其他方法相比,在 6 个新领域中的 5 个领域中表现出更好的泛化能力。

研究者在下图 5 和图 4 中分别展示了新领域上的零样本泛化性能以及在源领域上的性能。

最后如下表 4 所示,OmniGlue 更容易适应目标领域。

更多技术细节和实验结果请参阅原论文。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

标签:匹配,泛化,OmniGlue,2024,CVPR,图像,研究者,关键点
From: https://www.cnblogs.com/wxkang/p/18216189

相关文章

  • 京麒CTF2024-Ezjvav
    admin/admin弱密码登录,扫网页发现/js/manage.js,访问得到js混淆代码,直接gpt梭:window.onload=function(){  fetch('/source')    .then(response=>response.json())    .then(data=>{      console.log(data);    })  ......
  • 推推宝藏会议-RAIIC 2024
    【IEEE出版|往届3个月完成检索】第三届机器人、人工智能与智能控制国际会议(RAIIC2024)The3rd InternationalConferenceonRobotics,ArtificialIntelligenceandIntelligentControl 重要信息会议时间:2024年7月5-7日会议地点:中国·绵阳二轮截稿时间:2024年6月......
  • 计算机类主题会议推荐之——ACAIB 2024
    【北方民族大学40周年校庆学术活动】第四届自动化控制、算法与智能仿生学术会议(ACAIB2024) 2024年6月7-9日   中国·银川     往届均已见刊检索   EI、SCOPUS双检索基本信息会议官网:www.acaib.org最终截稿时间:2024年6月3日晚23:59前录用通知时间:投稿......
  • 2024版小红书评论区采集工具软件,可完整批量抓取一级评论和二级评论!
    一、爬取目标小红书是众多客户的流量蓝海,可通过评论区数据高效引流获客。我用python开发的爬虫采集软件,可自动抓取小红书评论数据,并且含二级评论数据。为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!1.1效果截图软件界......
  • 斯坦福2024人工智能指数报告 2
    《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬RaymondPerrault、ErikBrynjolfsson、JamesManyika、JackClark等人员和组织合著,旨在追踪、整理、提炼并可视化与人工智能(AI)相关各类数据,该报告已被大多数媒体及机构公认为最权威、最具信誉的人工智能数......
  • 图形化编程题:根据身份证号码识别是否优先选择火车下铺,Scratch编程实现代码--电子学会2
    今天做了一下2024.3的电子学会的2道二级考级题,三道三级考级题,2道四级考级题。整体感觉越来越靠近真实的做软件了。里面应用到排序、自定义模块(这相当于c++的函数,java的方法)、校验输入是否全是数字、标识符等,感觉这次编程题整体难度比之前要提升了一丢丢。按理像我这种写了10......
  • 最新2024年计算机【软考机考经验】-系统架构设计师 考试经验分享(含部分回忆真题)
    前言        计算机技术与软件专业技术资格(水平)考试,简称软考,在2023年开始由纸考方式,改成了机考;很多考生对机考可能还不熟悉,本文基于几位最新2024年5月25日考系统架构设计师(高级)的经验,介绍一下机考要注意的问题,以及部分回忆真题分享。        首先关于机考,2......
  • 【权威出版】2024年城市建设、智慧交通与通信网络国际会议(UCSTCN 2024)
    2024年城市建设、智慧交通与通信网络国际会议2024InternationalConferenceonUrbanConstruction,SmartTransportation,andCommunicationNetworks【1】会议简介    2024年城市建设、智慧交通与通信网络国际会议即将盛大召开,这是一次聚焦城市建设、智慧交......
  • XMind 2024 v24.04.10311特别版 – 一款风靡全球的思维导图软件
    软件介绍XMind2024中文破解版(XMind思维导图2024)是一款风靡全球的头脑风暴和思维导图软件,为激发灵感和创意而生.在国内使用广泛,拥有强大的功能,包括思维管理,商务演示,与办公软件协同工作等功能.XMind中文版采用全球先进的EclipseRCP软件架构,是集思维导图.头脑风暴,脑图......
  • 【稳定检索】2024年电子技术、传感器与信号处理国际会议(ETSS 2024)
    2024年电子技术、传感器与信号处理国际会议2024InternationalConferenceonElectronicTechnology,Sensors,andSignalProcessing【1】会议简介        2024年电子技术、传感器与信号处理国际会议,作为业内领先的学术交流平台,将汇聚全球顶尖的电子技术、传......