首页 > 其他分享 >《基于深度学习的跨模态检索综述》阅读笔记

《基于深度学习的跨模态检索综述》阅读笔记

时间:2022-09-21 11:35:05浏览次数:90  
标签:模态 检索 综述 语义 学习 深度 数据

目录

写这篇阅读笔记有如下目标

  1. 通过整理文章内容,学习如何编写学术文章。
  2. 增加知识储备,了解跨模态检索的一些基本理论和流行算法。

文献链接:基于深度学习的跨模态检索综述

0 引言

0.1 多模态数据是什么?

不同类型的用于描述相同事件或主题的数据,它具有模态间的异构特性。

0.2 多模态数据有哪些应用?

  • 主题检测
  • 信息推荐
  • 检索
  • ......

0.3 传统单模态检索是什么?

只执行相同媒体类型的相似性搜索,如基于关键字的文本检索,基于内容的图像、音频和视频检索。

0.4 跨模态检索是什么?

以一种模态的数据作为查询(query)来检索其他相关的模态数据,它需要构建跨模态关系模型。

0.4.1 优势

能够实现跨模态检索,以一种模态数据检索另一种模态数据。

0.4.2 挑战

如何度量不同模态数据间的相似度,也可说如何解决异质鸿沟问题。

0.4.3 可行的解决方案?

以深度学习技术为基础的表示学习是缓解异质鸿沟问题的一种有前景的解决方案。
大量的深度跨模态检索技术被提出并取得了优异的跨模态检索性能。

0.5 本文写作目标和探索方面

本文旨在对深度跨模态检索提供全面的综述。
在此之前,本文作者在该方向进行了深入的研究,从特征选择、子空间对齐、模态缺失、语义顺序学习、小样本学习等方面进行了较多探索( Huang 等,2015, 2017, 2018, 2019b, c, 2020b; Yin 等, 2017, 2018; Wang 等,2013,2016a;Xu 等,2016;He 等 2015)。

0.6相关跨模态检索综述有哪些?与本文的研究内容有什么不同?

  • Liu 等人在 2010 年进行了跨模态检索综述,但是无法囊括近些年来涌现的新方法新工作。
  • Xu 等人 2013 年进行了多视角学习综述但却并非针对异质模态且检索任务。
  • Peng 等人 在 2017 年发表了跨模态检索的综述论文, 但当时没有对 2017 年之后的跨模态检索方法进行总结。
  • Baltrusaitis 等人对多模态机器学习进行了综述和分类,但是其研究重点过于分散,无法涵盖跨模态检索任务的所有重要问题。

0.7本文研究重点?

与以往相关研究有很大不同的深度跨模态检索的最新研究成果。

0.8主要贡献

  • 本文综述了深度跨模态检索的最新进展。它包含了许多在以前的综述中没有出现的新的重要的参考文献,该综述有利于初学者快速了解和熟悉跨模态检索领域。
  • 本文对深度跨模态检索方法进行了分类,介绍了不同类别下的代表性方法并重点阐述了同类下不同方法以及不同类方法之间的差异,这有助于该领域研究者更好理解跨模态检索领域中使用的各种技术。
  • 本文对深度跨模态检索领域面临的机遇和挑战进行了梳理,并总结了未来该领域的发展方向,这将有助于启发进而做出更有价值的跨模态检索工作。

0.9文章组织结构

这部分能够让读者快速的对文章的结构有一个大致了解,以便于读者阅读。

本文的整体组织结构如下。第二章给出深度跨模态检索的分类依据与方法。第三章介绍不同类别下代表性的深度跨模态检索算法与其区别。第四章给 出广泛使用的基准跨模态数据库。第五章进行讨论与未来展望。最后,第六章对本文进行总结。

1 深度跨模态检索概述

1.1 深度跨模态检索一般框架

框架图可以让读者快速地对所介绍领域有一个初步的,大致的了解。这可以使读者更好的串联起各部分内容。
深度跨模态解锁一般框架
结合图表,对其中关键部分进行了说明。

深度特征学习和跨模态相关关系建模为多模态共同表示学习的重要步骤,在减少异质鸿沟问题中发挥重要作用。

1.2 多模态共同表示

一般而言,上述共同表示可以是实 值表达也可以是二值表达。

  • 对于实值表达,学习得 到的不同模态表达为实数值( 一般为向量)。
  • 对于二值表达,学习得到的不同模态表达为 - 1 以及 1 构成的编码,该精简表达有助于减少存储需求且加速跨模态检索速度,相关方法也称为跨模态哈希。

1.3 深度跨模态检索分类及依据

根据学习共同表示时提供的跨模态信息,深度跨模态检索大致可以被分为三类:

  • 基于跨模态数据间一一对应的深度跨模态检索
  • 基于跨模态数据间相似度的深度跨模态检索
  • 基于跨模态数据语义标注的深度跨模态检索
    一般来说,上述 3 类的跨模态信息呈现递增的情况,且提供学习的信息越多,跨模态检索性能越优。

1.4 对3类深度跨模态检索进行详细介绍

数学上,具有 l 模态的数据一般表示为\({{X^v,v=1,...,l}}\),模态 v 下样本 i 表示为 \(x^v_i\)。

  • 基于跨模态数据间一一对应。 模态 v 与 t 之 间对于样本 i 存在对应关系,即 \(x^v_i\) 与 \(x^t_i\) 表征数据库 中相同的样本 i 。 该信息的物理意义在于同一样本 的不同模态的描述共同存在且一一对应。
  • 基于跨模态数据间相似度。 跨模态数据间 存在相似与非相似性的关系,即一般存在矩阵 S 表 征样本间的相似关系, \(s_{ij}\)代表各种模态下样本 i 与 样本 j 之间的相似度情况。
  • 基于跨模态数据语义标注。 跨模态数据存在样本的语义标注,即对于数据库中任意样本 i 存 在矩阵 Y ,其中 \(y_{ij}\)代表样本 i 是否包含有第 j 语义 类别的标注。

1.5 对7类学习技术进行介绍

首先以图表的形式,对各类跨模态检索采用的各种相关技术列举了若干已有的典型算法。使用图表可以使介绍的内容更清晰明了,易于读者阅读,因此要善于使用图表。
然后针对每种技术进行了详细的介绍。
典型跨模态检索算法

  1. 典型相关分析,线性投影两个模态数据至低维空间并最大化模态间相关关系,深度神经网络的引入一般替换上述线性投影而有利于相关性最大化目标函数的优化。
  2. 一一对应关系,保持在共同表示层构建跨模态数据间一一对应关系,进而实现对应的跨模态数据间距离最小化。其该项技术广泛应用于早期尤其是无监督跨模态检索中。
  3. 度量学习,引入度量函数或者深度神经网络构建数据间相似性与非相似性关系,其主要目标为相似样本在共同表示空间具有较小距离而非相似样本具有较大距离。
  4. 似然分析,作为生成模型,一般通过极大似然优化目标函数进行观测数据的生成建模,在跨模态数据中,该观测数据可以是多模态特征、数据间对应关系以及数据间相似度等。
  5. 学习排序,构建排序模型保证在共同表示空间下数据间的排序关系得以保持。在跨模态数据中,该排序信息一般以三元组的形式通过模态内或者模态间相似关系进行构建。
  6. 语义预测,通过一般分类任务模型实现模态内数据相似性结构保持,即具有相同的语义标注则具有相似的共同表示,通过此间接实现跨模态数据关系构建,即相同语义下跨模态共同表示一致。
  7. 对抗学习,主要是生成对抗网络思想(Goodfellow 等,2014)的引入,通过构建生成-对抗任务以学习多模态共同表示,建模过程迫使相似的跨模态数据共同表示统计不可分,进而实现模态间相似度计算。

2 国内外代表方法

根据深度跨模态检索的类别,详细介绍了每个类别主要使用的相关技术。在介绍相关技术时,首先介绍了一种较典型的算法,然后又介绍了几种在不同方面取得进步的算法。在介绍算法时,应该说明算法的核心思想或具体做法,同时可引用原文献框架图,以便于读者理解。

  • 基于跨模态数据间一一对应,相关方法主要采用以下 5 种技术:典型 相关分析、一一对应关系保持、似然分析、学习排序 以及对抗学习。
  • 基于跨模态数据间相似度,相关方法主要采用以下 3 种技术:度量 学习、似然分析以及对抗学习。
  • 基于跨模态数据语义标注,相关方法主要采用以下 6 种技术:语义预测、典型相关分析、似然分析、度量学 习、学习排序和对抗学习。

更多详细内容请通过笔记开头的文献链接查看原文献。

2.1 方法间对比

上文从深度跨模态检索的视角出发,介绍了每种检索类别主要使用的相关技术,这部分从相关技术的视角出发,介绍了每种技术的关注点和使用异同。通过从不同视角或侧重点写作,有助于读者更全面的理解介绍的内容。

本文对比提供不同跨模态数据信息下不同技术 的区别,以阐述在提供了不同层次的跨模态数据信 息下,相关技术的关注点与使用异同。

  1. 对于典型相关分析,给定跨模态数据间一一对 应信息,主要研究 CCA 框架的非线性化、加速等问 题。 给定语义标注信息,主要研究如何通过语义信 息进行 DCCA 的增强,如采用语义标注作为额外网 络进行共同表示的增强。

更多详细内容请通过笔记开头的文献链接查看原文献。

3 典型数据库介绍

文章以图表的形式,展示了数据库名称、包含模态、样本数、类别数等信息。
然后从来源、内容和特点等方面,对每个数据库进行了更详细的介绍。
跨模态检索代表数据库

  1. Wikipedia ( Wiki ) 数 据 集 ( Rasiwasia 等, 2010) 。 该数据集收集于维基百科,其包含 2 866 个 图像—文本对。 文本为描述人、地点或者一些事件 的文档,图像为配套该文档的配图,且每一个数据对 含有 10 种语义标注中的一种。 该数据集中包含了 可选择的两种模态特征,文本为潜在狄利克雷分布 模型( latent Dirichlet allocation, LDA) 得到的 10 个 维度特征( Blei 等,2003) ,图像为 128 维的尺度不变 特征 变 换 ( scale invariant feature transform, SIFT ) ( Lowe,2004) 。

更多详细内容请通过笔记开头的文献链接查看原文献。

4 讨论与展望

1)跨模态检索新的研究思路。 2)收集大规模多种模态数据集。 3)少量且含有噪声的语义标注下的跨模态检索。. 4)轻量级的跨模态检索。 5)细粒度的跨模态相关性建模。

标签:模态,检索,综述,语义,学习,深度,数据
From: https://www.cnblogs.com/liss1998/p/16712653.html

相关文章