首页 > 其他分享 >Product1M 深度理解 PPT

Product1M 深度理解 PPT

时间:2024-10-14 20:53:29浏览次数:9  
标签:检索 模态 PPT 图像 实例 产品 深度 Product1M RPN

系列论文研读目录


文章目录


在这里插入图片描述
模态内检索:是指在同一模态(例如,图像、文本或音频)中进行的检索任务。它通常涉及在同一类型的数据中查找相关项。比如下面图像只能查询图像,文本只能查询文本,视频只能查询视频
跨模态检索:是指在不同模态之间进行的检索任务,即使用一种模态的数据来检索另一种模态的数据。图像可以查找相关的文本的结果,文本可以查找相关的检索的结果,和视频的结果。
然而,这两种检索的方法通常受到单一模态输入的影响,这使得它们难以应用于许多现实世界的场景,其中查询和目标中都存在多模态信息。比如假设你在一个在线购物平台上搜索一款运动鞋。
上传了一张运动鞋的图片,并附上文本描述:“我想要一双红色的运动鞋。”这两种模态作为查询的根据
而目标(Targets)是数据库中有多款运动鞋的记录,每款记录包含:图像:每双鞋的图片。还有文本描述:关于每双鞋的详细描述,例如“红色运动鞋,适合跑步,轻便舒适”。

在这里插入图片描述
WSOD:弱监督目标检测:是一种目标检测方法,它利用有限的标注信息来训练模型。与传统的目标检测方法需要大量的精确标注(如边界框)不同,WSOD通常只依赖于弱标注,例如图像级标签或少量的边界框。。
WSOD通常依赖于预定义类的固定大小的集合,并且不容易适用于我们提出的任务,比如WSOD依赖于预定义的类标签,这意味着模型只能识别这些特定的类别。当商品种类不断变化或新增时,模型需要重新训练以适应新的类标签,这在实际应用中效率低下且成本高昂。
在这里插入图片描述
跨模态的自我监督学习,之前的自我监督学习有单流双流,两种,下面左边是单流的vilt右边是双流的vilbert,但是单流双流的这些方法不是为实例级检索量身定制的,作者展示了它们可能由于网络架构中的设计缺陷和不适当的代理任务而存在缺陷。
在这里插入图片描述
电子商务的商品种类高度丰富,网上消费者的需求多样化:
一方面,在线商品具有越来越多样化的类别,并且其中很大一部分被展示为产品组合,其中不同产品的多个实例存在于一个图像中。
另一方面,在线客户或商家可能希望检索组合中的单个产品以进行价格比较[42]或在线商品推荐[34]。
而随着多媒体生成的数据的积累,产生了大量大规模且弱注释的数据。举个例子:图像和文本:数据集包含大量图片和与之相关的简短描述。例如,一张狗的图片可能只标注为“动物”,而没有具体说明是“狗”或“猫”。这种情况下,图像的具体内容没有被详细注释。
在这里插入图片描述
我们提出了一个现实的问题:如何在给定的大规模弱标注的多模态数据上执行实例级细粒度的产品检索 这个图是比较不同的检索范式,图像级检索往往返回琐碎的结果,因为它不区分不同的实例,而多模态实例级检索更有利于在多模态数据中搜索各种产品。

在这里插入图片描述
本文的研究内容就是如图
在这里插入图片描述
最上面的表格是样本类别实例,检测图片的数量。
多产品特性和复杂组合:多产品图像在电子商务网站中普遍存在,并作为实例级产品检索的查询图像。如图2(1a)所示,产品可以以丰富的形式和布局组织,并且实例的数量可以很大。单一产品样本的数量过多和差异性大,导致不同产品组合图像的组合复杂。弱监督和模糊对应:我们考虑使用两种常见模式的数据,即,图像和文本,用于检索。与其他具有干净类标签的数据集不同,商品标题的监督很弱,而且通常没有信息。我们在图2(1b)中显示了不同类型的挑战性样本。一些样本包含缩写,即,几种产品的缩写形式,在它们的标题中。然而,类似于“八件套”的缩写并不包含任何关于产品的具体信息。第二类样本带有不相关的信息,标题中描述的商品可能不会出现在图像中,反之亦然。图像和标题之间的模糊对应关系的广泛分布使得实例级检索更具挑战性。
与真实场景的一致性:我们在图2(1c)中展示了一些具有挑战性的样本。它们可能具有复杂的背景,其中包含不相关的对象、无定形水印或覆盖产品信息的显著杂波。有些不同类别的产品,除了包装上的文字略有不同外,外观几乎相同,例如,日霜vs晚霜。如图2(2a,2b)所示,Product1M的长尾分布与现实世界的场景非常一致。
在这里插入图片描述
这个图是实例级检索流程的概述。(a)基于由复制粘贴数据增强方案生成的伪标签来预训练RPN。(b)利用CAPTURE通过混合流Transformer架构和几个代理任务捕获跨模态的潜在协同作用。( c ) 构建匹配的图像-文本样本的正对以进行跨模态对比学习。

在这里插入图片描述
首先图像顶部显示了三个单一产品的样本图像,这些产品在不同的背景下拍摄。我们需要从这些图像中提取产品的前景。
接下来使用了GrabCut算法,这是一个常用的图像分割方法,用于从这些单一产品图像中提取前景蒙版。图中可以看到,经过GrabCut处理后,每个产品都被单独分割出来,形成了前景蒙版。
在生成前景蒙版后,使用复制粘贴数据增强将这些蒙版粘贴到不同的真实背景图像上,以创建合成图像。这种增强技术有助于提高训练数据的多样性,使模型更好地适应不同场景中的产品检测。
进行区域建议网络(RPN)的训练,将这些合成图像用于训练一个区域建议网络(RPN)。RPN的任务是生成图像中可能包含物体的区域(即建议框),以便后续的对象检测。
使用预训练的RPN进行检测,图像中右侧的分支展示了如何使用预训练的RPN来检测产品。RPN生成的建议框被用于进一步提取特征,以提高多产品检测的准确性。
合成图像和经过训练的RPN网络用于多产品检测器的训练,以便在图像中区分多个不同的产品。
在RPN生成的建议区域基础上,使用RoIAlign操作来获取每个实例的特征。然后,这些特征被输入到CAPTURE模块中,用于进一步的跨模态学习。
整个过程的目的是通过数据增强和特征提取方法,将单一产品图像扩展到多产品检测任务中,以提高检测器在多产品场景下的性能。
在这里插入图片描述
这里CAPTURE的结构是把之前的单流和双流模型进行了组合,然后利用了掩码任务来学习,还用了对比学习。
在这里插入图片描述
在推理过程中,Co-Transformer层分别输出HIMG和HTXT作为视觉和语言输入的整体表示。然后将得到的特征作为我们检索算法的输入。在计算实例与图库集中的样本之间的余弦相似性矩阵之后,我们检索每个查询的具有最高相似性的对应的单一产品样本。
想要PPT可评论

标签:检索,模态,PPT,图像,实例,产品,深度,Product1M,RPN
From: https://blog.csdn.net/buyaotutou/article/details/142927961

相关文章

  • OpenCV与AI深度学习 | T-Rex Label !超震撼 AI 自动标注工具,开箱即用、检测一切
    本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。原文链接:T-RexLabel!超震撼AI自动标注工具,开箱即用、检测一切“赛博螺丝工”解放双手的时刻来了!重复手动拉框一直以来都是数据标注中最令人头疼的部分。人工标注不准确且低效,会严重影响数据集的质量......
  • 推荐几种主流数据仓库:深度剖析与对比
    引言 随着数据量的不断增长,数据仓库技术在企业的数据管理和分析中扮演着越来越重要的角色。不同的数据仓库系统在性能、架构、功能和适用场景上各有特点。本文将详细介绍目前市场上几种主流的数据仓库,帮助你更好地了解各个数据仓库的特性,选择最适合的方案。1.AmazonRe......
  • 助力YOLOv8的突破—ODConv卷积技术的深度解析与实践【附保姆级代码】(YOLOv8)
    本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术,带你从入门到精通!后续更有实战项目,助你轻松应对面试挑战!立即订阅,开启你的YOLOv8之旅!专栏订阅地址:https://blog.csdn.net/mrdeam/category_12804295.html文章目录助力YOLOv8的突破—ODC......
  • JS异步编程精通之路(一):Callback、Promise、Async/Await 和 Observable 深度对比
    在现代JavaScript编程中,异步操作是常见且必不可少的部分。处理异步的方式多种多样,其中最常见的有Callback、Promise、Async/Await,以及近年来随着响应式编程(ReactiveProgramming)理念兴起的Observable。本文将对这几种异步处理方式进行对比,帮助你理解它们各自的优缺点,以......
  • 第十期机器学习基础 01深度学习基础
    一:机器学习和深度学习对比(一)传统机器学习什么是传统机器学习?传统机器学习是指一系列能够从数据中学习规律,并根据这些规律进行预测和决策的算法。它通常包括以下几种类型的算法:线性回归和逻辑回归:用于解决回归和分类问题----可以认为:逻辑回归是在线性回归基础上加上sigmod方法......
  • 构建架构与业务一致性及合规性的路径:企业数字化转型的深度解读
    架构与业务一致性在数字化转型中的重要性企业的数字化转型是一个涵盖多方面变革的过程,成功的转型不仅依赖于新技术的引入,更需要在业务流程、企业架构和合规性之间建立一致性。这种一致性确保企业在转型过程中实现技术创新,同时不会偏离其核心业务目标,进而提高运营效率和市场竞......
  • 【深度解读】高密网到低密网的跨网文件传输方案
    哪些企业会涉及到高密网到低密网的跨网文件传输划分高密级络和低密级网络的做法通常涉及对网络安全和保密性的高度要求,主要适用于涉及军事、政府、金融、医疗以及研发型企业等关键领域的机构。以下是一些主要的行业和企业类型:1、政府部门国防和安全部门:处理机密和敏感信息,必须......
  • [转]深度学习下的相机标定
    相机标定在计算机视觉和机器人等领域中占据举足轻重的地位,它为后续场景理解及决策推断提供了标准化的成像空间和精准的几何先验。然而,传统的相机标定技术常常依赖于繁琐的人工干预和特定的场景假设,因此难以灵活拓展至不同的相机模型和标定场景。近年来,基于深度学习的解决方案展现......
  • 深度学习神经网络笔记--卷积神经网络
    为什么要用卷积捕捉特征,如文末的图)不受位置影响(左右,前后,上下)可以参考下图:卷积操作可移动的小窗口与图像数据逐元素相乘后相加小窗口是滤波器,卷积核,(权重矩阵)需要注意的问题:stride:步长卷积核的个数:决定输出的depth,卷积核个数填充值zerp-padding:外圈补0......
  • 【附源码】在线动漫信息平台(源码+数据库+毕业论文+ppt齐全),java语言springboot框架开
    ......