首页 > 其他分享 >知识图谱与多模态学习的关系研究综述P1(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)

知识图谱与多模态学习的关系研究综述P1(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)

时间:2024-11-01 20:20:18浏览次数:7  
标签:模态 Multi P1 Knowledge 图谱 知识 实体 图像 MMKG

文章汉化系列目录


文章目录


摘要

 知识图谱(KGs)在推动各种人工智能应用中发挥着关键作用,语义网社区对多模态维度的探索则为创新开辟了新途径。在本次综述中,我们审慎地回顾了300多篇文章,聚焦于两个主要的知识图谱相关研究方向:一是知识图谱驱动的多模态(KG4MM)学习,即知识图谱支持多模态任务;二是多模态知识图谱(MM4KG),将知识图谱研究扩展至多模态知识图谱(MMKG)领域。我们首先定义了知识图谱和多模态知识图谱,并探讨了它们的构建进展。我们的综述涵盖了两大任务类别:知识图谱感知的多模态学习任务,如图像分类和视觉问答,以及本质上的多模态知识图谱任务,如多模态知识图谱补全和实体对齐,重点突出了具体的研究轨迹。对于大多数任务,我们提供了定义、评估基准,同时概述了开展相关研究的关键见解。最后,我们讨论了当前的挑战并识别了新兴趋势,例如大语言模型的发展和多模态预训练策略。本综述旨在为已经参与或考虑从事知识图谱和多模态学习研究的研究人员提供全面参考,帮助他们理解多模态知识图谱研究不断演变的格局,并支持未来的研究工作。

I 引言

 将知识推理和多模态感知彼此孤立地考虑,可能并不是最合适的策略。这与人类的认知过程类似,人类大脑随着时间积累的记忆构成了适应社会和生存的重要基础,使得有意义的行为和互动成为可能。这些记忆可以分为两大类。
 第一类记忆类似于条件反射。通过反复练习,人类发展出一种直觉性记忆,这种记忆增强了直觉和类比推理能力,通常被称为浅层知识。当这种浅层知识与视觉、听觉和触觉等感官输入结合时,使我们能够高效地完成基本任务。这一能力正是传统多模态任务的核心目标。多模态任务涉及来自多个模态的数据用于解决问题,比传统的单模态自然语言处理(NLP)或计算机视觉(CV)任务更贴近现实生活。例如,视觉问答任务在NLP问答任务的基础上结合了视觉数据,通过图像和文本问题来预测答案。同样,图像描述任务通过为图像生成描述性句子,扩展了自然语言生成的原则,从而提供对内容更全面的理解。因此,随着互联网的快速发展和带宽限制的消除,多模态信息源变得至关重要且易于获取,从而实现了对信息的更精准访问。
 第二类被称为“躯干到尾部知识”,在日常生活中较少遇到,通常不会形成条件反射。这类知识需要主动记忆或思考,突显了知识图谱(KGs)在捕获和构建长尾知识方面的重要性。尽管当前的大规模预训练在整合知识方面取得了进展,但也面临诸如幻觉现象和非一般知识模糊化等挑战。相比之下,我们的研究主要关注在知识图谱中利用符号化和结构化的知识。鉴于知识图谱在组织长尾知识中的关键作用以及其在众多成功的人工智能和信息系统中作为基础知识表示元素的有效性,将知识图谱与多模态学习整合显然提供了一个有前景的途径,有助于进一步应对这些现存的挑战。

A. 动机与贡献

在这里插入图片描述

 如图1所示,现实生活中的个体需要同时处理来自环境的多模态信息,并不断吸收和利用外部知识。这些元素不应彼此独立运作;相反,知识和多模态特性本质上是相互补充的。尽管存在这种内在联系,历史上这两个领域却独立发展。先前的研究要么聚焦于基于知识图谱增强的多模态学习,要么关注多模态知识图谱本身的研究。迄今为止,还没有研究或综述能对这两个领域进行全面而平衡的分析,导致其发展进一步分离。

 本文首先追溯了从传统知识图谱到多模态知识图谱的演变,指出了语义网社区关注点的变化。我们接着对知识图谱驱动的多模态任务进行分类,知识图谱在这些任务中作为关键的知识库,为推理和各种下游多模态任务提供了基础和必要知识。随后,我们探讨多模态技术对知识图谱的影响,分析其当前状态与未来前景。详细的分析涵盖了每项任务的方法学进展,并列出关键领域的基准,支持跨任务的有效比较。本综述主要关注近三年(2020-2023)的研究进展,并讨论了大语言模型(LLMs)的最新发展及其与所涉主题的相互作用。该综述适合所有人工智能研究者,尤其是那些深入研究知识驱动的多模态推理和跨模态知识表示的研究人员,同时也为语义网技术的从业者提供新的见解和参考。
文献收集方法:在本文中,我们主要通过Google Scholar和arXiv获取文献。Google Scholar为计算机科学领域的顶级会议和期刊提供了广泛的访问渠道,而arXiv则是涵盖多个学科的预印本关键平台,其中包含了计算机科学界认可的重要资源库。我们在这些平台上采用系统性的检索策略,使用相关关键词组合来构建参考文献。我们对所收集的文献进行严格筛选,手动过滤掉不相关的论文,并加入在主文中提到但最初被忽略的研究。借助Google Scholar的引文跟踪功能,我们通过迭代的深度和广度搜索来全面补充我们的文献清单。

B. 相关文献综述

一些研究对知识图谱(KGs)和多模态学习的相关文献进行了综述。不同于这些研究,我们的综述突出了特定的差异,如表I所示。
在这里插入图片描述

表I:我们综述与其他关于多模态学习和知识图谱相关综述论文的对比。缩写解释:D.S. Tasks(下游任务),Const.(构建),MLMPT(多模态语言模型预训练),Industrial App.(工业应用),4(代表“for”),Sci.(科学)。

  1. Zhu等人【7】主要从计算机视觉(CV)的视角探讨了主流多模态知识图谱(MMKGs)的各种特性及其构建方式,包括使用KG符号标注图像和符号-图像对齐等方面。相反,Peng等人【10】从语义网的视角对MMKG进行了详细分析,提供了MMKG的定义以及其构建和本体架构的分析。然而,这两项研究在任务方面提供的见解有限,未深入讨论MMKG的任务,如多模态实体对齐(MMEA)和多模态知识图谱补全(MKGC),可能忽视了MMKG的内在局限性。为全面理解MMKG所面临的挑战,有必要在不同学术和工业任务上进行广泛的基准测试和分析。

  2. Monka等人【8】概述了知识图谱嵌入(KGE)方法及其与高维视觉嵌入的整合,强调了知识图谱在视觉信息传递中的重要性。Lymperaiou等人【9】探讨了利用知识增强多模态学习,力图融合视觉语言表示和知识图谱的领域。然而,这些研究主要关注知识图谱对多模态任务的单向支持,忽视了知识图谱与多模态方法之间的双向反馈和协同演进。我们主张KG和多模态系统的协同发展,以克服应用障碍,推进通用人工智能(AGI)的实现。

  3. Zhu等人【7】和Peng等人【10】的分析基于截至2021年的进展,未能纳入MMKG社区的最新见解。同样,Monka等人【8】和Lymperaiou等人【9】的研究仅涵盖了截至2021和2022年的内容。针对2022至2023年AGI领域的快速进展,我们的综述深入探讨了MM4KG与KG4MM之间的复杂关系,重点关注如大语言模型(LLMs)、科学AI应用以及工业应用等新兴领域,以填补关键知识空白。我们的目标是为未来研究提供清晰的路线图,并突出这些快速发展的领域中的挑战和机遇。

C. 文章结构

 第II节介绍了基础内容,定义了知识图谱(KG)和多模态学习的关键概念,并概述了KG4MM和MM4KG的设置。第III节探讨了知识图谱的范围及构建,随后介绍了多模态知识图谱(MMKG)的演变。第IV节深入分析了各种KG4MM任务,详细说明了各任务的资源及过去三年开发的先进方法的基准,并将这些方法分为四种范式:理解与推理、分类、内容生成、检索和多模态预训练。第V节审查了MM4KG领域的任务,将关键任务划分为四个领域:MMKG获取、融合、推理和MMKG驱动任务。尽管按特定任务进行分类可能导致KG4MM和MM4KG方法的重叠,但这种方法有助于澄清研究图景并促进跨学科合作和任务整合。我们在描述细节时仔细平衡,以处理任务间的内容重叠,重点关注代表性任务。

 我们还分析了KG4MM和MM4KG的当前趋势及工业应用,提供了关于其在各个行业中影响的洞见。展望未来,第VI节探讨了多模态方法与(MM)KGs的进一步整合,提出了对前述任务的潜在增强。它还研究了在大语言模型(LLMs)和科学AI应用快速发展背景下,维持KG4MM和MM4KG增长的挑战和机遇。最后,第VII节对本文进行了总结。

II 初步概述

A. 知识图谱

自2007年左右诞生以来,知识图谱(KGs)在多个学术领域中发挥着关键作用,标志性的基础项目包括Yago【11】、DBPedia【12】和Freebase【13】。2012年谷歌在网页搜索中引入知识面板,标志着知识图谱应用的一个重要里程碑。这些知识图谱如今在增强谷歌和必应等搜索引擎中扮演重要角色,并且已成为亚马逊Alexa和苹果Siri等语音助手的核心,体现了其广泛的商业重要性和日益普及。

结构组成:知识图谱通过图结构来表示现实世界中的实体和关系,节点象征真实世界的实体或原子值(属性),边则表示关系。知识通常以三元组的形式呈现,如(杭州,位于,中国)。它们使用基于本体的模式(在第II-A节中讨论)来定义基本的实体类别及其关系,通常为分类结构。这种半结构化特性将结构化数据的明确语义(来自本体)与非结构化数据的灵活性相结合,允许通过新的类别和关系轻松扩展。

可访问性和优势:知识图谱支持多种下游应用,主要通过查找和查询方法来访问。
 知识图谱查找(也称为KG检索)基于输入字符串识别相关实体或属性,利用实体和关系标签中的词汇索引(表面)进行匹配。例如,DBpedia在线查找服务就是一个实例(https://lookup.dbpedia.org/)【12】。
 另外,查询是通过RDF查询语言SPARQL(https://www.w3.org/TR/rdf-sparql-query/)【2】编写的输入查询来返回结果。这些查询通常包含带有变量的子图模式,能够匹配并返回实体、属性、文字或完整的子图。
 需要注意的是,知识图谱(尤其是采用OWL本体的知识图谱)支持符号推理功能,包括一致性检查以识别逻辑冲突,以及通过描述逻辑进行蕴涵推理来推断隐藏的知识。知识图谱还促进了跨领域连接。例如,通过共同实体(如既是演员又是歌手的个体),可以将电影和音乐领域关联起来。这种互联性不仅增强了机器的理解能力,也提升了人类的认知水平,对搜索、问答和推荐等应用带来益处。此外,最近的大型语言模型(LLMs)发展突显了知识图谱的重要作用,尤其是在管理长尾知识方面,这已在多项研究中得到了验证【2–5】。
 1) 表述:为了与既有文献保持一致,我们首先介绍了广泛接受的知识图谱(KG)定义及其基本操作,随后从语义网的角度探讨了通过本体扩展的知识图谱。最后,我们从语义网之外的视角,广泛阐述了知识图谱的多种解释和用途。

 定义1:知识图谱。一个知识图谱(KG)记为 G = { E , R , T } G = \{E, R, T\} G={E,R,T},由实体集合 E E E、关系集合 R R R 和声明集合 T T T 组成。一个声明可以是关系事实三元组 ( h , r , t ) (h, r, t) (h,r,t) 或属性三元组 ( e , a , v ) (e, a, v) (e,a,v)。具体而言,知识图谱由一组关系事实组成一个多关系图,其中节点表示实体( h h h 和 t t t 分别代表实体 E E E 中的头实体和尾实体),边表示关系( r ∈ R r \in R r∈R)。对于属性三元组,属性 a a a( a ∈ A a \in A a∈A)指示实体 e e e 具有对应值为 v v v( v ∈ V v \in V v∈V)的某一属性。这些值可以包括各种字面量,如字符串或日期,并涵盖标签和文本定义等元数据,且可以通过内置或自定义的注释属性来表示。
 2) 本体:在语义网中,本体作为知识图谱的架构,使用RDFS和OWL等语言以确保语义更加丰富且质量更高【14】。本体的关键特征包括:

  • 层次化的类别,通常称为概念。
  • 指定用于关系中的术语的属性。
  • 包含概念和关系的层级结构。
  • 约束条件,包括关系的领域和范围,以及类的不相交性。
  • 包含关系组合的逻辑表达式。

RDF、RDFS和OWL等语言引入了内置词汇来捕捉这些知识元素,使用诸如 r d f s : s u b C l a s s O f rdfs:subClassOf rdfs:subClassOf 之类的谓词表示概念的包含关系, r d f : t y p e rdf:type rdf:type 则表示实例与概念的关联。此外,RDFS提供了 r d f s : l a b e l rdfs:label rdfs:label和 r d f s : c o m m e n t rdfs:comment rdfs:comment等注释属性,用于提供有关资源的元信息。

 3) 知识图谱范围扩展:广泛认可的知识图谱包括WordNet【15】,一个定义词汇间关系的词汇数据库,以及ConceptNet【16】,记录了通过不同术语关联的常识性知识。在本文中,我们扩展了对知识图谱的传统视角,将其超越标准格式的实体和关系。此外,单独的本体(通常用于定义领域知识,如概念化和术语表等词汇分类)也被视为知识图谱的一种形式。进一步阐述这一扩展视角,如Chen等人【17】所述,我们的范围包括更简单的图结构,例如带有层次类别的基础分类和带有加权边的图,这些边表示实体间的定量关系,如相似度和距离。此外,任何以图格式组织、节点具有明确语义解释的结构化数据都被归为更广义的知识图谱定义的一部分。一个显著的例子是语义网络,它通过带标签的边连接各种概念以表示不同关系。

B. 多模态学习

 我们通过视觉、听觉、运动、触觉和嗅觉等多种模态感知这个世界【18】。直观地讲,整合多种模态数据的模型通常比单模态模型更具优势,因为它们积累了更多的信息。模态通常指特定类型的数据或信息通道,具有感官输入或表示格式的特点。每种模态(如视觉、听觉、文本输入)都包含了特定感官来源或数据获取方法的独特特征。多模态学习的目标通常是从多种模态中开发一个统一的表示或映射到输出空间,通过模态之间的互补性和冗余性来提升预测能力。关键挑战在于如何有效地对齐、融合和整合不同模态的信息,以充分利用它们的集体力量。
 1) 与多视角学习的区别:不同于多视角分析(它假设每个视角(例如花的不同角度)可以独立产生准确的预测【19】【20】),多模态学习则需应对某一模态缺失可能阻碍任务完成的情况【21】(例如缺少图像的视觉问答场景)。此外,多视角学习通常涉及相同数据类型的不同视角,源自单一来源,如图像数据的不同特征。而多模态学习处理来自多个来源的不同数据类型,如文本和图像。在本文中,我们对多模态任务的探索以及多模态学习在知识图谱上的应用都基于这种更广泛的多模态学习理解。

 定义2:多模态学习。假设给定数据 x ^ = ( x ( 1 ) , … , x ( K ) ) \hat{x} = (x^{(1)}, \dots, x^{(K)}) x^=(x(1),…,x(K)) 由 K K K个模态组成,其中 x ( k ) ∈ X ( k ) x^{(k)} \in X^{(k)} x(k)∈X(k) 表示第 k k k个模态的域集合, X = X ( 1 ) × ⋯ × X ( K ) X = X^{(1)} \times \cdots \times X^{(K)} X=X(1)×⋯×X(K)。令 Y Y Y 表示目标域, Z Z Z 表示潜在空间。设 g : X → Z g : X \rightarrow Z g:X→Z 为从输入空间(利用所有 K K K个模态)到潜在空间的真实映射, q : Z → Y q : Z \rightarrow Y q:Z→Y 为真实任务映射。例如,在基于聚合的多模态融合中, g g g充当由 K K K个独立子网络构建的聚合函数,而 q q q则为多层神经网络【22】。在学习任务中,数据对 ( x ^ , y ) ∈ X × Y (\hat{x}, y) \in X \times Y (x^,y)∈X×Y 从未知分布 D D D生成,使得:

P D ( x ^ , y ) = P y ∣ x ^ ( y ∣ q ∘ g ( x ^ ) ) P x ^ ( x ^ ) , P_D(\hat{x}, y) = P_{y|\hat{x}} (y | q \circ g(\hat{x})) P_{\hat{x}}(\hat{x}) , PD​(x^,y)=Py∣x^​(y∣q∘g(x^))Px^​(x^),

其中 q ∘ g ( x ^ ) = q ( g ( x ^ ) ) q \circ g(\hat{x}) = q(g(\hat{x})) q∘g(x^)=q(g(x^)) 表示 q q q和 g g g的复合函数。

 2) 多模态设置的范围:本文主要关注涉及文本和图像数据的视觉语言(VL)任务,旨在提供深入分析并保持相关研究的连续性。虽然某些特殊情况可能涉及视频或特定于生物化学领域的模态,但在我们的研究中相对较少见。聚焦于两种模态(即语言和视觉)时,输入域简化为 X = X I × X V \textstyle{\mathcal{X}} = \textstyle{\mathcal{X}}^{\mathbb{I}} \times \textstyle{\mathcal{X}}^{\mathbb{V}} X=XI×XV,且 x ^ = ( x I , x V ) \hat{x} = (x^{\mathbb{I}}, x^{\mathbb{V}}) x^=(xI,xV),其中 x I ∈ X I x^{\mathbb{I}} \in X^{\mathbb{I}} xI∈XI 和 x V ∈ X V x^{\mathbb{V}} \in X^{\mathbb{V}} xV∈XV 分别表示来自语言和视觉领域的输入数据。涉及其他特殊模态的任务将在相关部分单独讨论。

C. 知识图谱驱动的多模态设置

通常,知识图谱(KGs)作为各种知识类型的存储库,例如领域特定知识和常识性知识,这些知识已广泛应用于多模态场景。

 1) 子知识图谱提取:实际应用中,通常需要利用本地化知识来有效解决特定任务。一种直接的解决方案是将子知识图谱(sub-KG)提取(从大型知识图谱中隔离最小知识单元或三元组,如WordNet【15】)与下游任务结合,以减少不相关信息的干扰。这通常需要检索、路由或语义解析算法的支持。

 2) 面向任务的知识图谱构建:在某些知识图谱驱动的多模态研究中,研究人员从头开始构建特定任务的知识图谱,而不是使用现有知识图谱或子知识图谱提取。这种方法针对每个任务的独特需求,通常直接从数据集创建知识图谱或通过组合多个知识图谱来实现,并通常符合两种主流范式之一:

  (i) 静态领域知识图谱构建:这种方法涉及创建稳定的、领域特定的知识图谱,具有预定义的实体和关系,以封装关键背景知识。其必要性在两种与通用知识图谱局限性相关的主要情境中尤为明显:

  • 当通用知识图谱无法为特定任务提供充分知识时:在这种情况下,定制一个背景知识图谱变得至关重要。例如零样本图像分类任务,需要构建捕捉视觉属性或分类关联的知识图谱【23–26】。这些知识图谱设计用于覆盖所有相关的分类知识,作为静态领域知识库。通常,使用诸如类别标签之类的文本数据来描绘类别关系,帮助形成知识图谱的边。

  • 当通用知识图谱仅部分覆盖任务时:这种情境需要对现有知识图谱进行精确选择和重组,以适当填补知识空白。例如在知识感知的视觉问答【27】【28】中,问题可能需要同时使用常识性知识和百科知识。一些研究【29–32】从各种知识图谱中选择性地提取RDF事实,如ConceptNet【16】、WebChild【33】和DBpedia【12】【34】,从而创建一个统一的背景知识图谱来增强模型。

  (ii) 动态临时知识图谱构建:此方法专注于在任务执行过程中构建动态的临时知识图谱,利用知识图谱推理算法为任务提供支持。例如,建立类之间的共现关系(如食品成分)需要分析其在训练数据集中的频率,以及常见类别属性和层次结构。此外,Li等人【35】采用场景图将图像中的视觉和语义信息结合,通过实体三元组派生语义关系特征用于图像描述。

D. 多模态知识图谱设置

随着人工智能的演变,传统单模态(基于文本的)知识图谱在处理互联网上多种多样的多模态应用时逐渐暴露出局限性。这推动了学术界和工业界研究多模态知识图谱(MMKGs)的发展。

 1) MMKG 范围:当一个知识图谱包含用多种模态(如文本、图像、声音或视频)表示的知识符号时,即可视为多模态知识图谱(MMKG)。本综述基于Zhu等人【7】的研究,将MMKG表示方法区分为A-MMKG和N-MMKG,其中A-MMKG将图像作为实体属性,而N-MMKG允许图像作为独立实体,并具有直接关系。

 定义3:多模态知识图谱。与定义1一致,一个知识图谱定义为 G = { E , R , A , T , V } G = \{E, R, A, T, V\} G={E,R,A,T,V},其中 T = { T A , T R } T = \{T_A, T_R\} T={TA​,TR​} 且 T R = E × R × E T_R = E \times R \times E TR​=E×R×E, T A = E × A × V T_A = E \times A \times V TA​=E×A×V。

  • (i) A-MMKG 将多模态数据(如图像)作为实体或概念的特定属性值,表达为 T A = E × A × ( V K G ∪ V M M ) T_A = E \times A \times (V_{KG} \cup V_{MM}) TA​=E×A×(VKG​∪VMM​),其中 V K G V_{KG} VKG​ 和 V M M V_{MM} VMM​ 分别是知识图谱和多模态数据的值。

  • (ii) N-MMKG 将多模态数据视为知识图谱实体,表示为 T R = ( E K G ∪ E M M ) × R × ( E K G ∪ E M M ) T_R = (E_{KG} \cup E_{MM}) \times R \times (E_{KG} \cup E_{MM}) TR​=(EKG​∪EMM​)×R×(EKG​∪EMM​),将典型知识图谱实体( E K G E_{KG} EKG​)与多模态实体( E M M E_{MM} EMM​)区分开。例如,在N-MMKG中,关系三元组 ( h , r , t ) (h, r, t) (h,r,t) 中的 h h h 或 t t t 可以是图像,而 r r r 定义了它们之间的关系。相反,在A-MMKG中,属性三元组 ( e , a , v ) (e, a, v) (e,a,v) 可能会将图像作为 v v v 与属性 a a a(通常指定为 hasImage)关联。

需要注意的是,N-MMKG 和 A-MMKG 并非严格排他:N-MMKG 可以视为 A-MMKG 的一种特殊情况,尤其是在 A-MMKG 中的实体以图像形式存在时,这便将其转换为 N-MMKG。由于数据访问的便利性以及与传统知识图谱的相似性,A-MMKG 构成了当前大多数MMKG研究中的基础应用和方法学,具体详见第V-C和V-D节。

III 知识图谱构建

A. 典型知识图谱构建

在本文中,我们将典型的知识图谱分为两类【2】:基于实体的知识图谱和文本丰富型知识图谱。

 1) 基于实体的知识图谱:在构建基于实体的知识图谱时,知识图谱的本体和数据遵循严格的标准,图中的节点通常以一对一的关系代表真实世界的对象。这类知识图谱在学术项目(如Yago【11】和Freebase【13】)以及行业项目(如OpenBG【2】和TeleKG【36】)中尤为显著。这些知识图谱通常基于手动定义的本体构建,提供了清晰的语义,实体类型和关系之间的模糊性和重叠性较小。这导致每个领域的实体和关系数量相对较少,使得手动定义更为可控。例如,Freebase在其电影领域中仅识别52种实体类型和155种关系。这类知识图谱的构建通常涉及从结构化数据源(如关系数据库)中提取实体和关系。维基百科【37】因其对实体的描述以及实体页面间的超链接,是知识获取的常用起点。早期的知识图谱(如Yago、DBPedia【12】和Freebase)通过将信息框(Infoboxes)转换为实体和关系,受益于维基百科数据的高准确性。其他来源,如IMDb、MusicBrainz和Goodreads,进一步增强了覆盖范围,尤其是在包含不同流行程度的实体时。

 整合来自不同结构化来源的知识需要解决三种异构性【2】:(i) 模式异构性,不同数据源可能以不同方式表示相同的实体类型和关系;(ii) 实体异构性,不同来源可能使用不同名称描述相同的现实世界实体;(iii) 值异构性,不同来源可能为相同实体提供不同或过时的属性值。解决这些问题催生了大量研究任务,包括不完整知识图谱中的实体链接和跨不同知识图谱的数据融合(如知识图谱补全和实体对齐)。此外,扩展知识图谱内容的技术还包括从半结构化数据(如网站)中提取知识。在这种情况下,每个页面通常表示一个主题实体,并以键值对的形式显示信息,不同页面间的布局保持一致。这些技术旨在捕获长尾知识,通常使用手动构建的提取模式和监督式提取算法。

 2) 文本丰富型知识图谱:与基于实体的知识图谱不同,文本丰富型知识图谱由于其以文本属性为主的特点,在提取干净、明确的实体方面面临挑战,因此其结构更接近于二分图而非传统的连接图。通常,这些知识图谱具有更大的模糊容忍度,将节点表示为自由文本而非明确定义的实体,特别适合产品和百科全书等领域,这些领域中的值和类别之间的语义区分通常不明确【38】。文本丰富型知识图谱的构建,尤其在没有类似维基百科的专门结构化知识库的领域,通常依赖于提取模型。这些模型从相关的非结构化源数据中提取结构信息,利用命名实体识别方法来识别特定属性的模式。

B. 多模态知识图谱(MMKG)构建

 1) MMKG构建范式:根据Zhu等人【39】的研究,我们概述了MMKG构建的两种主要范式:(i) 用知识图谱的符号标注图像和(ii) 将知识图谱符号与图像对齐。
 第一个范式侧重于视觉实体/概念、关系和事件的提取,这对于动态创建场景图和事件图等知识图谱至关重要【40】。然而,此方法在表示罕见(即长尾)多模态知识方面面临挑战,主要由于常见现实世界实体在不同上下文中频繁出现。此外,监督方法的使用进一步加剧了这些挑战,因为其范围受限于现有标签的有限性。此外,这一系统需要大量的预处理,包括制定特定规则、创建预定义的实体列表以及应用预训练的检测器和分类器,这些都带来了显著的可扩展性问题【41】【42】。这些问题及其对MMKG构建的影响在第V-B节中进行了进一步探讨。

 此外,目前大多数MMKG的典型构建范式是将知识图谱符号对齐到图像中,包括:实体对齐(即将实体与来自在线资源的对应图像关联【43】)、概念对齐(即为视觉概念选择多样化、具代表性的图像并抽象出共同的视觉特征)和关系对齐(即选择语义上反映输入三元组关系的图像)。该范式目前在大规模MMKG构建中构成了主要挑战。
 2) 演变过程:本节探讨了多模态知识图谱(MMKG)的发展过程,表III提供了各种MMKG的统计数据。值得注意的是,最早的广义MMKG可以追溯到2009年的ImageNet【74】,这是一个基于WordNet【15】结构的大规模图像本体。尽管ImageNet拥有丰富的语义层次结构和数百万标注图像,但作为A-MMKG,它主要用于对象分类,其知识组件通常未被充分利用。NEIL(2013)【42】代表了早期从互联网构建视觉知识的尝试,通过关系提取、数据标注和分类器/检测器学习的循环实现。然而,NEIL的可扩展性受到限制,其对2273个对象的40万视觉实例进行分类的计算需求极为庞大,而典型的知识图谱要求将数十亿实例进行对齐。后续发展【70】【75–78】着重于从复杂图像中改进视觉检测和对象分割,其中Chen等人【75】通过视觉子类别的自上而下分割先验学习来辅助构建。
 Visual Genome(2016)【49】提供了对象、属性和关系的密集注释,主要用于场景理解任务,如图像描述和问答。ImageGraph(2017)【43】以Freebase【13】为基础,以及IMGpedia(2017)【53】则将Wikimedia Commons的视觉数据与DBpedia元数据关联,标志着MMKGs的进一步扩展。ImageGraph通过网页爬虫解析图像搜索结果,并应用启发式的数据清理规则(如去重和排序)进行组装,专注于视觉概念的推理,实现关系预测和多关系图像检索。作为N-MMKG,IMGpedia注重视觉描述符和相似关系,支持视觉-语义查询,但受限于其常识和百科知识的范围。
 2019年,Liu等人【54】首次正式引入了“MMKG”一词,并推出了三个用于链接预测和实体匹配研究的A-MMKG数据集,这些数据集基于Freebase15K (FB15K)【79】,通过网页爬虫收集图像构建,每个实体平均包含55.8张图像。同时,通过将DBpedia和Yago中的实体与FB15K对齐,开发了DBpedia15k (DBP15K)和Yago15k (YG15K),以丰富这些知识图谱,加入数值字面量、图像信息以及用于跨知识图谱实体链接的sameAs谓词。
 GAIA(2020)【41】是一个支持复杂图查询和多媒体信息检索的MMKG提取系统。它在相同的文档集上集成了文本知识提取和视觉知识提取流程,生成模态特定的知识图谱,随后将其合并为一致的MMKG。同时,VisualSem【44】作为一个A-MMKG出现,从BabelNet【80】中获取实体和图像,并经过精细过滤以确保数据的质量和多样性。VisualSem中的实体链接到Wikipedia、WordNet词集【15】,以及(如有)ImageNet【74】中的高分辨率图像。作为一个N-MMKG,Richpedia【58】从Wikipedia【81】收集图像和描述,通过超链接和文本手动识别图像实体之间的关系,并通过网页爬虫扩展图像实体的收集范围。
 MMKG社区最近的关注点从构建转向应用,重点研究MMKG表示学习(第V-A节)、获取(第V-B节)、融合(第V-C节)、推理(第V-D节)以及MMKG驱动的应用(第V-E节)。尽管MMKG的获取延续了构建的工作,但主要解决多模态提取的挑战【40】,突显了大规模MMKG资源的稀缺性,以及为特定任务提供数据集的需求,以应对MMKG的局限并支持新颖的下游任务。

 具体而言,Baumgartner等人【82】使用多模态检测器和基于语义网的方案,在电影角色和地点之间进行语义关系提取,以支持深度视频理解。Peng等人【83】通过图像精炼框架探索MMKG构建中的图像质量控制,该框架使用聚类去重和降噪,借助Wikidata获取实体描述,并依赖预训练模型来评估图像与文本的相似性,剔除不符合特定相关性阈值的图像。在MMKG构建中,将概念与对应图像精确对齐至关重要【10】【84】。其挑战在于区分可视化概念(VCs)和不可视化概念(NVCs),前者如“狗”有明确的视觉表现,而后者如“思维”或“质地”则缺乏直接的视觉对应。这一区别增加了将其纳入MMKG的复杂性。Jiang等人【84】提出了一种视觉概念分类器,用于识别VCs和NVCs,利用ImageNet实例示例前者。然而,这一二元分类仅作为初步阶段。MMKG构建中的更大挑战在于为实体选择具有代表性的图像,可能涉及如K-means或谱聚类等方法【39】。

 在此基础上,Zhang等人【45】推出了AspectMMKG,通过将实体与特定方面的图像关联(来源于Wikipedia)并使用训练模型优化图像选择,进一步丰富了MMKG。此外,Wu等人【67】推出了MMpedia,一个通过新颖流程构建的可扩展、高质量MMKG,该流程利用DBpedia【12】来过滤不可视化的实体,并使用文本和类型信息优化与实体相关的图像。
 Gong等人【64】在2023年推出了UKnow,一个统一知识协议,将N-MMKG三元组分类为五种单元类型:图内(in-image)、文本内(in-text)、跨图像(cross-image)、跨文本(cross-text)和图像-文本(image-text)。他们建立了一个高效的流程,用于将现有数据集转换为UKnow格式,便于从现有图像-文本对自动生成新数据集。此外,Zha等人【46】提出了一个多模态概念知识图谱框架,名为M2ConceptBase。首先,他们从图像-文本对的文本描述中提取候选概念,并使用基于规则的过滤器进行精炼。随后,这些概念通过上下文感知的多模态符号对齐,与对应的图像和详细描述进行匹配。对于未完全对齐的概念,GPT3.5-Turbo生成补充描述。需要注意的是,M2ConceptBase和AspectMMKG中的节点并未与现有公共知识图谱链接或映射,而是聚焦于实体概念的分解及其与精细化图像的关联。因此,这些MMKG中的大多数节点处于孤立状态,使得这些图谱更类似于文本丰富知识图谱的多模态扩展,正如第III-A节所讨论的那样。Song等人【47】发布了一种场景驱动的MMKG构建方法,从自然语言场景描述出发,使用基于提示的场景导向模式生成方法。这种方法结合了传统的知识工程和大型语言模型(LLMs),简化了ManipMob-MMKG的创建和优化过程,这是一种专为室内机器人任务(如操作和移动)定制的MMKG。
 在下游任务中探索MMKG的实用性,Xu等人【60】引入了两个MMKG链接预测数据集:MKGW和MKG-Y。该数据集源自OpenEA基准【61】,整合了来自Wikipedia和YAGO的结构化数据,并包含经过专家验证的网页实体图像。Wang等人【66】进一步通过TIVA-KG研究了不同模态在链接预测中的作用。TIVA-KG是一个覆盖文本、图像、视频和音频模态的MMKG,基于ConceptNet【16】构建,支持三元组对齐(即将常识三元组与图像等具体表现关联),使符号知识在其多模态框架内得以映射。
同样,Lee等人【68】提出了VTKGs,将图像与实体和三元组一一对应,并为每个实体和关系提供相应的文本描述。针对多模态实体对齐任务,Li等人【63】引入了Multi-OpenEA,扩展了OpenEA基准,增加了16个MMKG和来自Google的图像。为了研究视觉模态缺失对MMKG表示和对齐的影响,Chen等人【65】从DBP15K【55】和Multi-OpenEA数据集中随机删除图像,发布了MMEA-UMVM数据集。此外,Zhang等人【62】定义了在知识图谱上进行多模态类比推理的新任务,要求具备使用多种模态和背景知识的推理能力。他们还开发了用于基准测试的数据集MARS和对应的MMKG,称为MarKG。
 3) N-MMKG本体:考虑到A-MMKG的本体结构与标准知识图谱大致相似,主要区别在于包含了视觉属性,因此本部分我们主要讨论几种具有代表性的N-MMKG本体。这种强调是因为将图像实体集成到N-MMKG中涉及复杂的设计考量。URI前缀在本体中起着关键作用,作为类和属性的唯一标识符。标准前缀(例如rdf、rdfs、owl)确保了跨领域的一致性,而自定义前缀(例如用于IMGpedia的imo和用于Richpedia的rpo)则带来了特定领域的细微差别。这种设置不仅优化了KG中的数据表示和互操作性,还与更广泛的RDF标准保持一致,为多模态知识图谱(MMKGs)奠定了基础,从而促进了多种多媒体数据的高效查询和复杂操作。
 IMGpedia本体【53】(图4(a))扩展了DBpedia本体和开放图协议的术语,以在RDF中表示多模态数据。具体而言,imo:Image表示抽象资源,即图像,记录其尺寸(imo:heightimo:width)、URL(imo:fileURL),并通过owl:sameAs链接到DBpedia Commons中的对应资源。imo:Descriptor定义了通过imo:describes连接的视觉描述符,类型包括imo:HOG(方向梯度直方图)、imo:CLD(颜色布局描述符)和imo:GHD(渐变直方图描述符)。imo:ImageRelation包含图像之间的相似性链接,详细说明所用描述符类型和图像描述符之间的曼哈顿距离,并附有imo:similar关系,用于k近邻(k-nn)图像。
 Richpedia本体【58】(图4(b))与IMGpedia本体关系密切。rpo:KGEntity表示文本知识图谱实体,而rpo:Image则表示Richpedia中的图像实体,其特征包括URL和尺寸(如rpo:Heightrpo:Width,以xsd:float数据类型表达数值)。rpo:Descriptor的子类(如rpo:GHD)捕捉图像的视觉特征。语义关系如rpo:sameAsrpo:imageOf连接这些实体,而rpo:ImageSimilarity通过像素级比较量化rpo:sourceImagerpo:targetImage之间的图像相似性。

 在Richpedia【58】的基础上,Peng等人【10】探索了一个新的MMKG本体(图4©),以解决具有多种视觉表示(即不同方面)的实体问题,这一现象在AspectMMKG【45】和M2ConceptBase【46】中得到了强调。该范式的核心是引入“镜像实体”和“图片单元”作为基础概念。rpo:MirrorEntity表示一个特定概念,rpo:NamedEntity指向相关的知识图谱实体。其视觉对应物rpo:ImageEntity源于rpo:PictureUnit,该单元可能在同一方面下聚合多个图像实体。此外,各种rpo:PictureUnit通过rpo:similarity保持一定的相似度。当rpo:NamedEntityrpo:ImageEntity都引用同一rpo:MirrorEntity时,建立rpo:align链接。此外,rpo:pictureOf关系将rpo:PictureUnit绑定到rpo:NamedEntity,其中rpo:TextEntity作为桥梁,封装了共享描述。本体结构丰富了先前的MMKG,通过分层结构有效地将不同方面的图像聚类和关联。
 图4展示了MMKG本体的演变轨迹,突显了N-MMKG所面临的独特挑战:(i)单个实体可能有多个视觉表示(即多样化的方面);(ii)高效地从跨实体的视觉模态中提取信息至关重要;(iii)多模态表示方法的开发可超越实体级别,涵盖关系和三元组级别的表示,正如【66】【68】等研究所探索的那样。未来方向的讨论见第VI-A节。

标签:模态,Multi,P1,Knowledge,图谱,知识,实体,图像,MMKG
From: https://blog.csdn.net/buyaotutou/article/details/143386298

相关文章

  • CesiumJS 案例 P17:添加文本、文本样式、删除文本、移动文本
    CesiumJSCesiumJSAPI:https://cesium.com/learn/cesiumjs/ref-doc/index.htmlCesiumJS是一个开源的JavaScript库,它用于在网页中创建和控制3D地球仪(地图)一、添加文本<!DOCTYPEhtml><htmllang="en"> <head> <metacharset="UTF-8"/> &l......
  • 题解 洛谷 Luogu P1308 [NOIP2011 普及组] 统计单词数 C++
    题目传送门:P1308[NOIP2011普及组]统计单词数-洛谷|计算机科学教育新生态https://www.luogu.com.cn/problem/P1308getline() 会清除使当次getline() 终止的换行,而cin 不会因此cin 以换行终止,之后还需要getline()的话,需要用getchar() 吞换行Linux的一些相......
  • P11228 [CSP-J 2024] 地图探险 题解
    模拟第一眼,可能有人回想起dfs.但因为起点终点,并且走的步数都告诉你了,所以直接模拟就行.注意起始点也算被走过,所以可以用一个标记数组,判断当前格子有没有被走过.代码#include<iostream>#include<cstdio>#include<cstring>#include<algorithm>usingnamespacestd;int......
  • Unity6 URP17使用初探
    1.简介随着Unity6的发布,URP17也已经可以上手使用,相对旧的版本改动较大的是加入了RenderGraph、STP、Foveatedrendering、GPUResidentDrawer等功能,部分功能只需要开关参数即可使用,而GRD更像是Gpudriven管线下的SRPBatches升级,RenderGraph相较于HDRP之前使用的版本换了一套A......
  • [luogu P11189] 水杯降温
    纯粹是自己太唐导致的我们发现其实这两种操作是独立的,并不需要考虑操作的相对顺序。这时候就有两种解决顺序:先子树加再链减先链减再子树加由于我一开始看错题了,所以我选了第一种思路,然后就爆炸了。所以我们选第二种,钦定\(d_x=a_{fa_x}-a_x\),那么最后子树加的时候......
  • Autodesk Maya 2025.3 Multilanguage (macOS, Windows) - 三维动画和视觉特效软件
    AutodeskMaya2025.3Multilanguage(macOS,Windows)-三维动画和视觉特效软件三维计算机动画、建模、仿真和渲染软件请访问原文链接:https://sysin.org/blog/autodesk-maya/查看最新版。原创作品,转载请保留出处。作者主页:sysin.org三维计算机动画、建模、仿真和渲染软件......
  • P1779 魔鬼杀手 题解&&思路
    P1779魔鬼杀手题解&&思路题目链接。分析题目性质我们发现假如有状态表示\(M\)个方案选或不选,那么这个状态有唯一确定的结果,即结果不会随着施法的顺序而改变。考虑\(dp.\)我们从题目出发,发现每个方案有单个攻击或者集体攻击,想一想从这个方面考虑。又由于每一个方案是可......
  • P1482 Cantor表(升级版)
    P1482Cantor表(升级版)提交58.99k通过24.12k时间限制1.00s内存限制125.00MB提交答案加入题单做题计划(首页)个人题单团队题单保存题目提供者情到深处人孤独难度入门历史分数无 提交记录  查看题解标签洛谷原创 查看算法标签进入讨论版相关讨论 查看讨论......
  • P1002 [NOIP2002 普及组] 过河卒
    棋盘上�A点有一个过河卒,需要走到目标�B点。卒行走的规则:可以向下、或者向右。同时在棋盘上�C点有一个对方的马,该马所在的点和所有跳跃一步可达的点称为对方马的控制点。因此称之为“马拦过河卒”。棋盘用坐标表示,�A点(0,0)(0,0)、�B点(�,�)(n,m),同样马的位置......
  • CesiumJS 案例 P12:添加指定长宽的图片图层并居中显示(圆点分别为图片图层的中心点、左
    CesiumJSCesiumJSAPI:https://cesium.com/learn/cesiumjs/ref-doc/index.htmlCesiumJS是一个开源的JavaScript库,它用于在网页中创建和控制3D地球仪(地图)一、添加加指定长宽的图片图层并居中显示(原点为图片图层的中心点)<!DOCTYPEhtml><htmllang="en"> <head>......