首页 > 其他分享 >行人重识别——基于文本描述的行人检索与查找查询对象

行人重识别——基于文本描述的行人检索与查找查询对象

时间:2024-10-12 14:46:33浏览次数:9  
标签:检索 模态 匹配 语义 查找 图像 对齐 文本 行人

介绍

人的重新识别,即搜索人的图像,在许多方面都有需求,如从安全摄像机中寻找嫌疑人或丢失的儿童。其中,基于文本的人的重新识别,即不搜索显示与输入图像相同的人的图像,而是从文本中搜索显示与之匹配的人的图像,已经引起了很多人的注意。

在基于文本的人的再识别任务中,主要的方法是将图像和文本模式都映射到同一个潜在空间中。传统的方法通常使用单独的模型进行特征提取,如Resnet用于图像编码器,BERT用于文本编码器,但这种方法有两个挑战。

  1. 在单独的模型中,各模式之间没有互动。仅仅通过使用匹配损失,很难使一个具有大量参数和深层的模型考虑到相互作用。(图1a)
  2. 文本的多样性使得部分内容难以匹配。例如,一些展示同一个人的文本有关于发型和裤子的描述,而其他文本则有关于配饰和颜色的描述。

本文所采取的方法是在第一项任务中使用相同的编码器,而第二项任务的方法是更多地着眼于局部语义的匹配,而不是更仔细地寻找。

第一种方法引入了一个隐性的视觉和文本学习(IVT)框架,允许网络学习两种模式的表征(图1b)。

作为第二种方法,我们提出了两种隐性语义对齐范式,即多级对齐(MLA)和双向屏蔽建模(BMM),以实现细粒度的模态匹配。具体来说,如图1(c)所示,MLA旨在通过利用句子、短语和单词级别的匹配来探索细粒度的匹配,而BMM则允许模型通过屏蔽一定比例的视觉和文本标记来挖掘更有用的匹配线索。这两个提议的范式不仅可以实现更精细的视图,而且可以实现更多的语义匹配。

建议的方法

IVT框架包括一个统一的视觉-文本网络和两个隐性语义对齐范式(多级对齐和双向掩码建模)。

IVT的一个关键想法是使用一个统一的网络来解决模态对齐问题。通过共享一些模块,如层规范化和多头注意力,统一的网络有助于学习视觉和文本模态之间的共同空间映射。不同的模块也可以用来学习特定模态的线索。

提出了两个隐性语义对齐范式,MLA和BMM,以探索细粒度的对齐。

编码器

大多数传统方法都是利用文本和图像编码器的独立模型,缺乏模式间的互动。因此,本文建议采用一个统一的图像-文本网络。

如图2所示,该网络遵循标准的ViT架构,总共堆叠了L个块。在每个区块中,两个模态共享层归一化(LN)和多头自我关注(MSA),这有助于学习图像和文本模态之间的共同空间映射。共享的参数有助于学习共同的数据统计。例如,LN计算输入标记嵌入的平均值和标准偏差,而共享LN则学习两种模态的共同统计值。从数据层面来看,这可以被视为 “模态互动”。由于图像和文本的模态不同,每个模块都有一个特定模态的前馈层,即图2中的 "Img "和 "Txt "模块,以获得特定模态的信息。每个模块的完整处理过程可以表示如下。

隐性语义对齐

多层次对齐

提出了一种直观而高效的隐性定位方法,即多步骤定位。

如图2所示,输入图像首先以三种不同的方式进行扩展,包括水平翻转和随机裁剪。输入的文本用句号和逗号分割,形成较短的句子。这些较短的句子被用作描述人体部分外观特征的 "短语级别 "的表述。为了提取更多的细节,自然语言工具包(NLTK)被用来提取描述特定局部特征的名词和形容词,如包、衣服和裤子。三个级别的文本描述–句子级别、短语级别和单词级别–对应于三种类型的增强图像;三个级别的图像-文本对在每个迭代中随机生成。通过这种方式,可以建立起一个从全局到局部的逐步完善的匹配过程,使模型能够采用更精细的语义对齐。

双向掩码建模

本文认为,局部对齐不仅应该更精细,而且应该更多样化。微妙的视觉和文字线索可以补充全局对齐。我们提出了一种双向掩码建模(BMM)的方法来挖掘更多的语义对齐,如图2所示。一定比例的图像和文本标记被随机屏蔽,以迫使视觉和文本输出匹配。通常情况下,被遮蔽的标记对应于图像中的特定斑块或文本中的单词。如果一个特定的斑块或单词被掩盖了,模型会尝试从其他斑块或单词中找到有用的对齐线索。以图2中的女性为例,如果突出的词 "橙色大衣 "和 "黑色裤子 "被掩盖,模型将关注其他的词,如马尾辫的发型或红色背包。通过这种方式,可以探索出更微妙的视觉文本定位。这种方法使模型在学习阶段更难对齐图像和文本,但有助于在推理阶段探索更多的语义对齐。

损失函数

CMPM损失被用来作为匹配损失。我们把细节留给Deep Cross-Modal Projection Learning for Image-Text Matching(thecvf.com),但简而言之,文本-图像嵌入匹配是通过KL发散进行的。

实验

提出的IVT方法在三个数据集上实现了SOTA。评估是用Recall@n(n=1,5,10)进行的。

图4显示了基线和拟议方法IVT的决策基础的可视化。(用[CLS]标记的注意力图的可视化)。一般来说,文本描述可以对应于人体,表明模型已经学会了视觉和文本模式的语义相关性。与基线相比,IVT证实了它关注文本所描述的人体的更多属性。例如,这个男人(第1行,第1列)穿着灰色短裤。基线忽略了这个属性,但IVT能够捕捉到它。因此,拟议的IVT比基线方法更准确,可以处理更多的人的属性。

图6显示了带有本地令牌的属性。给出了四个不同的人物属性:上半身、包、下半身和鞋子。图6中的每一行都有相同的属性。如图6所示,该方法不仅能够识别突出的部分,如衣服和裤子,还能够识别细微的部分,如手袋和鞋子。这些可视化的结果表明,给定一个词级的属性描述,我们的模型能够准确地聚焦到正确的身体部位。这表明我们的方法即使在没有明确的视觉和文字部分排列的情况下,也能够探索精细的排列方式。这是所提出的两种隐含语义对齐范式,即MLA和BMM的好处。因此,可以得出结论,所提出的方法确实可以在基于文本的人物检索中实现See Finer and See More。

总结

在本文中,我们提议从两个角度解决模态对齐问题:骨干网络和隐性语义对齐。首先,引入了一个基于文本的人物检索的隐性视觉文本(IVT)框架。它使用一个单一的网络来学习视觉和文本表征。其次,提出了两个隐性语义对齐范式,即BMM和MLA,以探索细粒度的对齐。这两个范式可以通过使用三层匹配看到 “更细”,而通过挖掘更多的语义对齐来看到 “更多” 在三个公共数据集上的广泛的实验结果证明了该提议的有效性。.

标签:检索,模态,匹配,语义,查找,图像,对齐,文本,行人
From: https://blog.csdn.net/matt45m/article/details/142758910

相关文章

  • C#二分查找算法
    前言二分查找算法是一种在有序数组中查找特定元素的搜索算法。实现原理二分查找的实现依赖于以下几个关键步骤:计算查找范围的中间索引。比较中间索引处的值与目标值。根据比较结果调整查找范围(左半部分或右半部分)。重复上述步骤直到找到目标值或查找范围为空。动图演示......
  • Leetcode 1192. 查找集群内的关键连接
    1.题目基本信息1.1.题目描述力扣数据中心有n台服务器,分别按从0到n-1的方式进行了编号。它们之间以服务器到服务器的形式相互连接组成了一个内部集群,连接是无向的。用connections表示集群网络,connections[i]=[a,b]表示服务器a和b之间形成连接。任何服务器都可......
  • EI稳定检索|7天录用|第四届智能电力与系统国际学术会议(ICIPS 2024)
    电力学科品牌IEEE会议,往届均已EI检索!“推动新质生产力加快发展,培育新能源新兴产业,实现电力行业新跨越”高端主题研讨会暨第四届智能电力与系统国际学术会议(ICIPS2024)【往届见刊后1个月完成EI检索】*澳大利亚会场(11月1-3日)地点:珀斯|澳大利亚|MurdochUniversity  ......
  • c++map 查找元素和list查找元素速度对比
    在C++中,std::map和std::list是两种不同的容器类型,前者是基于红黑树实现的关联容器,后者是双向链表。如果你想比较这两种容器在查找元素上的速度,通常std::map会比std::list快得多。因为std::map的查找操作是平均常数时间复杂度,即O(logn),而std::list的查找操作是线性时间复杂度,即O(......
  • 深度理解二分查找思想~
    二分思想的基本思想:是将有序数组分成两半,通过比较数组中间元素与目标值大小,来决定下一步搜索的区间是左半部分还是右半部分,然后递归再选定的区间内继续查找。(部分有序的数组也可使用这一思想)二分查找基础代码根据划分区间方法的不同,主要分为三种类型(并在代码后方附有......
  • arm imx6ull docker启动失败问题查找与解决 内核配置相关
    1、增加POSIXMessageqeue:couldnotgetinitialnamespace:nosuchfileordirectory CONFIG_POSIX_MQUEUE=y2、增加namespacefailedtosettoinitialnamespaceCONFIG_NAMESPACES=y3、创建网络失败,veth配置:dockercreateendpointquirky_shternonnetworkbridge......
  • GIS、向量、文字检索... 火山引擎 ByteHouse 集成全场景分析能力
    企业业务场景增多、规模扩大,对于底层数据架构来说,可能也会愈加复杂。 比如,某企业因自身业务发展,需要引入向量检索能力,但前期选型的技术架构并不能直接支持,只能重新引入向量数据库。这意味着,研发团队要维护多个组件,让底层架构非常复杂,不仅带来数据冗余,也给数据运维带来压力,造成......
  • 二分查找算法
    二分查找算法基本思路二分查找的基本思路如下:找到中间元素:查找过程从数组的中间元素开始,如果中间元素恰好是目标元素,则查找过程结束。比较并缩小范围:如果中间元素不是目标元素,那么将中间元素与目标值进行比较:如果目标值小于中间元素,则说明目标值位于当前搜索范围的左半部分......
  • 探索创新宝库:一站式免费专利检索工具揭秘!
    在这个知识爆炸的时代,专利不仅是创新成果的保护伞,更是技术发展的指南针。对于研究者、发明家、企业乃至普通爱好者,专利检索成为了探索技术前沿、规避侵权风险、激发创新灵感的重要手段。今天,我们将带您了解一款集多功能于一身的免费专利检索网站,它将彻底改变您的专利检索体验。......
  • 怎么查找登陆网站后台?(如何查询网站后台地址)
    查找或确定一个网站的后台登录地址通常不是一件直接的事情,因为不同的网站可能会有不同的后台管理入口。不过,这里有一些通用的方法可以帮助你找到或猜测一个网站的后台登录地址:常见的后台路径许多网站使用一些常见的路径作为后台登录页面,例如:/admin/administrator/wp-ad......