系列论文研读目录
文章目录
模态内检索:是指在同一模态(例如,图像、文本或音频)中进行的检索任务。它通常涉及在同一类型的数据中查找相关项。比如下面图像只能查询图像,文本只能查询文本,视频只能查询视频
跨模态检索:是指在不同模态之间进行的检索任务,即使用一种模态的数据来检索另一种模态的数据。图像可以查找相关的文本的结果,文本可以查找相关的检索的结果,和视频的结果。
然而,这两种检索的方法通常受到单一模态输入的影响,这使得它们难以应用于许多现实世界的场景,其中查询和目标中都存在多模态信息。比如假设你在一个在线购物平台上搜索一款运动鞋。
上传了一张运动鞋的图片,并附上文本描述:“我想要一双红色的运动鞋。”这两种模态作为查询的根据
而目标(Targets)是数据库中有多款运动鞋的记录,每款记录包含:图像:每双鞋的图片。还有文本描述:关于每双鞋的详细描述,例如“红色运动鞋,适合跑步,轻便舒适”。
WSOD:弱监督目标检测:是一种目标检测方法,它利用有限的标注信息来训练模型。与传统的目标检测方法需要大量的精确标注(如边界框)不同,WSOD通常只依赖于弱标注,例如图像级标签或少量的边界框。。
WSOD通常依赖于预定义类的固定大小的集合,并且不容易适用于我们提出的任务,比如WSOD依赖于预定义的类标签,这意味着模型只能识别这些特定的类别。当商品种类不断变化或新增时,模型需要重新训练以适应新的类标签,这在实际应用中效率低下且成本高昂。
跨模态的自我监督学习,之前的自我监督学习有单流双流,两种,下面左边是单流的vilt右边是双流的vilbert,但是单流双流的这些方法不是为实例级检索量身定制的,作者展示了它们可能由于网络架构中的设计缺陷和不适当的代理任务而存在缺陷。
电子商务的商品种类高度丰富,网上消费者的需求多样化:
一方面,在线商品具有越来越多样化的类别,并且其中很大一部分被展示为产品组合,其中不同产品的多个实例存在于一个图像中。
另一方面,在线客户或商家可能希望检索组合中的单个产品以进行价格比较[42]或在线商品推荐[34]。
而随着多媒体生成的数据的积累,产生了大量大规模且弱注释的数据。举个例子:图像和文本:数据集包含大量图片和与之相关的简短描述。例如,一张狗的图片可能只标注为“动物”,而没有具体说明是“狗”或“猫”。这种情况下,图像的具体内容没有被详细注释。
我们提出了一个现实的问题:如何在给定的大规模弱标注的多模态数据上执行实例级细粒度的产品检索 这个图是比较不同的检索范式,图像级检索往往返回琐碎的结果,因为它不区分不同的实例,而多模态实例级检索更有利于在多模态数据中搜索各种产品。
本文的研究内容就是如图
最上面的表格是样本类别实例,检测图片的数量。
多产品特性和复杂组合:多产品图像在电子商务网站中普遍存在,并作为实例级产品检索的查询图像。如图2(1a)所示,产品可以以丰富的形式和布局组织,并且实例的数量可以很大。单一产品样本的数量过多和差异性大,导致不同产品组合图像的组合复杂。弱监督和模糊对应:我们考虑使用两种常见模式的数据,即,图像和文本,用于检索。与其他具有干净类标签的数据集不同,商品标题的监督很弱,而且通常没有信息。我们在图2(1b)中显示了不同类型的挑战性样本。一些样本包含缩写,即,几种产品的缩写形式,在它们的标题中。然而,类似于“八件套”的缩写并不包含任何关于产品的具体信息。第二类样本带有不相关的信息,标题中描述的商品可能不会出现在图像中,反之亦然。图像和标题之间的模糊对应关系的广泛分布使得实例级检索更具挑战性。
与真实场景的一致性:我们在图2(1c)中展示了一些具有挑战性的样本。它们可能具有复杂的背景,其中包含不相关的对象、无定形水印或覆盖产品信息的显著杂波。有些不同类别的产品,除了包装上的文字略有不同外,外观几乎相同,例如,日霜vs晚霜。如图2(2a,2b)所示,Product1M的长尾分布与现实世界的场景非常一致。
这个图是实例级检索流程的概述。(a)基于由复制粘贴数据增强方案生成的伪标签来预训练RPN。(b)利用CAPTURE通过混合流Transformer架构和几个代理任务捕获跨模态的潜在协同作用。( c ) 构建匹配的图像-文本样本的正对以进行跨模态对比学习。
首先图像顶部显示了三个单一产品的样本图像,这些产品在不同的背景下拍摄。我们需要从这些图像中提取产品的前景。
接下来使用了GrabCut算法,这是一个常用的图像分割方法,用于从这些单一产品图像中提取前景蒙版。图中可以看到,经过GrabCut处理后,每个产品都被单独分割出来,形成了前景蒙版。
在生成前景蒙版后,使用复制粘贴数据增强将这些蒙版粘贴到不同的真实背景图像上,以创建合成图像。这种增强技术有助于提高训练数据的多样性,使模型更好地适应不同场景中的产品检测。
进行区域建议网络(RPN)的训练,将这些合成图像用于训练一个区域建议网络(RPN)。RPN的任务是生成图像中可能包含物体的区域(即建议框),以便后续的对象检测。
使用预训练的RPN进行检测,图像中右侧的分支展示了如何使用预训练的RPN来检测产品。RPN生成的建议框被用于进一步提取特征,以提高多产品检测的准确性。
合成图像和经过训练的RPN网络用于多产品检测器的训练,以便在图像中区分多个不同的产品。
在RPN生成的建议区域基础上,使用RoIAlign操作来获取每个实例的特征。然后,这些特征被输入到CAPTURE模块中,用于进一步的跨模态学习。
整个过程的目的是通过数据增强和特征提取方法,将单一产品图像扩展到多产品检测任务中,以提高检测器在多产品场景下的性能。
这里CAPTURE的结构是把之前的单流和双流模型进行了组合,然后利用了掩码任务来学习,还用了对比学习。
在推理过程中,Co-Transformer层分别输出HIMG和HTXT作为视觉和语言输入的整体表示。然后将得到的特征作为我们检索算法的输入。在计算实例与图库集中的样本之间的余弦相似性矩阵之后,我们检索每个查询的具有最高相似性的对应的单一产品样本。
想要PPT可评论