MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negati

标签：模态 grained Multi Set 模型实体语义 MultiExpan 图像

MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities译文

论文题目： MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities

论文链接： https://arxiv.org/abs/2307.14878

1.摘要

实体集扩展（ESE）任务的目标是用属于同一语义类的新实体来扩充少量的种子实体。传统的ESE方法基于单模态（即文字模态），在处理现实世界中的复杂实体时面临困难，比如：（1）具有细微语义差异的负实体；（2）同义实体；（3）多义实体；（4）长尾实体。这些挑战促使我们提出了新颖的多模态实体集扩展（MESE），在该任务中，模型整合来自多种模态的信息来表示实体。直观来看，多模态信息对ESE的好处有三个方面：（1）不同模态可以提供互补信息；（2）多模态信息通过共同的视觉属性为同一语义类或实体提供统一信号；（3）多模态信息为同义实体提供强大的对齐信号。为了评估模型在MESE中的性能，我们构建了MESED数据集，这是首个具有大规模和精细人工校准的多模态ESE数据集。我们还提出了一个强大的多模态模型MultiExpan，它在四个多模态预训练任务上进行了预训练。在MESED上的广泛实验和分析证明了该数据集的高质量以及我们MultiExpan的有效性，并且为未来的研究指明了方向。基准测试和代码已在https://github.com/THUKElab/MESED公开。

说人话：目前在处理多模态任务时，传统的ESE方法就算基于淡漠台的方法来处理问题，他在面对一些有细微语义差异的实体时，或者有多种意义的实体，以及具有细微语义差异的语言时，并不能准确分辨语义的意识（就算一词多义）。作者通过建立一个新的ESE数据集来解决这个这个问题，比如作者在输入城市名字的时候，我们只输入了一个“伦敦”，这时通过我们的数据集我们可以拓展出华盛顿、芝加哥、洛杉矶等等，让模型更加清晰地知道他处理的是一个城市的名字。然后作者又做出了一个MultiExpan模型，作者证明这个很牛逼。

再通俗一点：

2.引言

2.1介绍

实体集扩展（ESE）任务的目标是基于给定的候选实体词汇表和语料库，用属于同一语义类的新实体来扩充少量的种子实体（张等，2020；李等，2022a）。例如，给定{华盛顿特区、芝加哥、洛杉矶}，ESE会尝试检索目标语义类“美国城市”的其他实体，如纽约、纽约市、波士顿。ESE在知识挖掘中扮演着重要角色，并且对多种下游的自然语言处理（NLP）和信息检索（IR）应用都有益处（陈、卡费拉、贾加迪什，2016；李等，2023b）。传统ESE方法基于单模态（即文字模态），通常受限于信息有限和表示稀疏。以扩充“美国城市”为例，单模态ESE方法在处理现实世界中的复杂实体时面临以下困难：

具有细微语义差异的负实体是指那些与目标类属于同一粗粒度语义类的实体。这些实体在文本上下文中共享语义，因此很难详细区分。例如，在扩展美国城市时，不可避免地会扩展出具有相同父类（即美国地点）的实体，比如佛罗里达和德克萨斯，它们也位于美国。

同义实体指的是实体拥有一系列别名。ESE模型能够轻松理解常见的别名，但却难以理解这些上下文敏感的别名（Henriksson等，2014；Schumacher和Dredze，2019），比如缩写和昵称，因为确定它们的含义需要明确的文本线索。例如，“SEA”只有在特定的上下文中才指代西雅图，这可能会导致在检索时遗漏它。

多义实体代表文本提及可能指代多个实体的歧义性。由于预训练语言模型通过词汇共现来学习语义（Kenton和Toutanova，2019；Lauscher等，2020），由相同词汇组成的实体本质上更为接近。例如，华盛顿特区与华盛顿州的L2距离实际上比到许多其他城市（如奥斯汀）的距离要小（我们测量的是8.89对10.02）。因此，仅具有相同文本词汇的实体可能会被错误地检索到。

长尾实体代表语料库中低频出现的实体，比如一些鲜为人知的地名。由于文本描述不足，这些实体的表示通常过于稀疏，给它们的检索带来了挑战。

上述情况促使了多模态实体集扩展（MESE）的出现，在此过程中，我们整合来自多种模态的信息来表示实体，并将其扩展到目标语义类。

说人话：就是具有细微语义差异的负实体，同义实体，多义实体，长尾实体这些促使我们简历ESE数据集。

MESE可以通过利用多种信息源来克服单模态方法的局限性。MESE的好处包括以下几点：首先，多模态信息可以补充文本所提供的信息（尤其是对于短文本），从而增强模型对实体的全面理解。其次，多模态信息可以作为一种统一的信号，基于共享的视觉属性或特征将语义类联合起来。例如，在处理漫画角色时，图像的背景和风格可以作为漫画角色的统一特征，将它们与难以区分的负语义类电影角色区分开来。第三，多模态信息有助于解决多义实体的问题，并为同义实体的对齐提供线索。此外，我们认为多模态信息对于不常用的同义实体或长尾实体特别有益，因为出现频率较低的实体往往是具有稳定视觉表现的具体概念。

说人话：我们使用MESE，相当于在一定程度上增加了同一种类样本的数量，模型可能并没有见过一个人名，但是他可以通过学习知道那些字符是一个人名。

遗憾的是，尽管存在多种多模态数据类型（Li等，2023a；Yu等，2023a,c；Cheng等，2023a,b,c），目前还没有基于细粒度语义类构建的多模态数据集。为了填补这一空白，我们构建了一个名为MESED的大规模、人工标注的多模态实体集扩展（MESE）数据集，包含来自维基百科的14489个实体和434675个图片-句子对。据我们所知，MESED是第一个具有大规模和精细人工校准的ESE多模态数据集。MESED包含几个元素，以突出ESE的挑战。首先，我们精心设计了一个包含26个粗粒度和70个细粒度类别的语义类架构，相互模糊的细粒度类别（例如，中国演员与美国演员）被设置为彼此的难负类别。此外，还添加了同义和多义实体，以增加实体之间的混淆。另外，为了评估模型对稀疏实体的理解能力，故意包含了一些不常见的语义类。

说人话：这个数据集概括很全。

在实验中，我们评估了传统的基于文本的模型、新兴的GPT-3.5以及各种视觉和多模态基线模型。我们还提出了一个强大的多模态模型MultiExpan，它在我们设计的四个自监督多模态预训练任务上进行训练，包括掩码实体预测、对比学习、聚类学习和动量蒸馏。总结来说，主要贡献如下：

• 我们提出了一个新颖的多模态实体集扩展（MESE）任务，该任务能够在多个模态中扩展实体。

• 我们首次发布了一个名为MESED的大规模人工标注的MESE数据集，该数据集因其细粒度的语义类别和具有歧义的候选实体而具有挑战性。

• 我们提供了强大的多模态基线模型MultiExpan，并探索了多种自监督预训练目标，以用于多模态实体的表示学习。

• 广泛的实验验证了我们MultiExpan的有效性，并为未来的研究指明了方向。

说人话：这里列举了作者这个论文的功绩

2.2 任务定义

定义1 多模态实体集扩展（MESE）。MESE的输入是一个小集合，

其中包含几个描述某一特定语义类的种子实体，以及一个候选实体的词汇表 V 。此外，还给出了一个语料库 D ，其中包含每个实体

的多模态上下文

, 在这里

是一个包含

的句子，而

构成一个图像-句子对。需要注意的是，在给定的上下文中，任意模态都可能是缺失的。

2.3数据集构建

构建多模态实体集扩展（MESE）数据集的目标是创建一个大规模、人工标注的数据集，该数据集包含丰富的多模态上下文信息，能够有效地评估和推动多模态实体集扩展任务的发展。以下是构建MESED数据集的具体步骤：

1.语义类和实体收集

• 选择语义类：从维基百科中选择具有特定原则的语义类。这些语义类被组织成层级结构，我们从中挑选出26个粗粒度和70个细粒度的语义类。例如，粗粒度语义类可以是“演员”，细粒度语义类可以是“中国演员”和“美国演员”。

• 收集实体：对于每个选定的语义类，爬取维基百科中对应的实体。此外，从维基百科页面中随机抽取一些实体作为负实体，这些实体不属于目标语义类。同时，添加多义实体和同义实体，分别作为难负实体和难正实体。

2.实体标注句子收集

• 爬取维基百科文章：爬取包含丰富实体提及的维基百科文章，这些文章中的人工标注超链接可以唯一标识一个实体。

• 关联实体和句子：利用实体的超链接，将实体与相应的句子关联起来，从而将文本信息传递给实体。例如，如果文章中有一个超链接指向“华盛顿特区”，那么包含该超链接的句子就会被关联到“华盛顿特区”这个实体上。

3.相关图片收集

• 使用谷歌图片搜索引擎：通过谷歌图片搜索引擎获取与实体或句子对应的图片。为了提高搜索的准确性，使用KeyBERT提取句子中的关键词，并将这些关键词与实体名称和语义类组合成搜索查询。

• 获取搜索结果：获取搜索结果的前10张图片，这些图片将作为候选图片。

4.图片重排

• 选择最合适的图片：设计一个简单的但有效的图片重排算法，从10张候选图片中选择最能反映句子内容且包含实体的图片。重排算法的评分公式如下：

•

• 选择最高分的图片：选择评分最高的图片作为实体的视觉信息，并将其他图片留作未来研究使用。

2.4人工校准和标注

• 评估图片与句子和实体的相关性：雇佣人工标注者评估图片与句子和实体的相关性，分为三类：同时相关于两者（R/T E&S）、仅相关于句子（R/T S）和两者都不相关（IR）。

• 处理不相关的图片：对于重排后仍与两者都不相关的图片，标注者需要选择一张新的图片。• 标注结果的可靠性：通过Fleiss’s Kappa系数衡量标注者之间的一致性，结果均超过0.8，表明标注结果的可靠性。同时，重排算法显著提高了图片与文本和实体的相关性，相比直接使用搜索引擎返回的Top 1图片，重排算法在保持图片多样性的同时，提高了图片的相关性。

数据集特点

经过上述步骤自动生成的数据集不可避免地会存在噪声。特别是在第3步和第4步中，图像与句子之间可能存在不匹配的情况。为了在验证重排算法有效性的同时提高图像的质量，我们聘请了人工标注者，要求他们评估图像与句子和实体的相关性，并将其分为三个类别：与两者都相关（R/T E&S）、仅与句子相关（R/T S）以及与两者都不相关（IR）。对于重排后仍与两者都不相关的图像，标注者需要选择一张新的图像。

从表1中，我们观察到重排算法显著提高了图像与文本和实体的相关性，与直接使用搜索引擎返回的Top 1图像相比。通过Fleiss的Kappa系数（Fleiss 1971）测量的标注者间一致性均超过了0.8，这表明了标注结果的可靠性。使用Top 1图像的策略具有最高的图像多样性（通过图像嵌入的平均余弦相似度的倒数来衡量），这是由于引入了大量不相关的图像。而重排算法的第一项不仅保证了图像和句子的相关性，还避免了对实体典型图像的单一选择，从而潜在地确保了图像多样性的显著下降不会发生。

2.5MESED的分析

MESED是首个经过精心人工校准的多模态ESE数据集。它包含从维基百科收集的14,489个实体，以及434,675个图像-句子对。MESED中的70个细粒度语义类平均包含82个实体，最少有23个，最多有362个。每个细粒度类包含5个查询，其中3个种子实体的查询有5个，5个种子实体的查询也有5个。虽然MESED可能不是候选实体总数最大的数据集，但我们认为实体的数量并不是衡量数据集质量的关键因素。在以前的数据集中，大多数候选实体是随机选择的负实体，这些实体与目标实体差异显著，并不能增加数据集的挑战性。

我们从多个角度确保了MESED具有挑战性：（1）我们精心设计了语义类的架构，该架构由三个粒度层次组成。属于同一父类的细粒度语义类存在语义重叠，使它们成为彼此的难负语义类。（2）我们将通过基于BM25的维基百科搜索引擎获得的与目标实体共享词汇的实体，作为候选词列表中的难负实体。（3）我们通过Wikidata SPARQL获取实体的同义词，并用编辑距离大于5的同义词替换实体的一部分，以此评估模型扩展同义实体的能力。由于篇幅限制，对MESED更详细的分析和实验被放置在补充材料的附录中，强烈推荐阅读。

说人话：以上说的全是废话。

3.模型

3.1总体框架

我们描述了针对多模态实体集扩展（MESE）提出的MultiExpan方法，该方法利用多模态上下文扩展初始实体集。受先前ProbExpan方法（Li等，2022b）的启发，我们将MultiExpan分为两个阶段：多模态实体表示阶段和实体扩展阶段。在第一阶段，我们设计了一个多模态实体级编码器，其输出是候选实体上掩码跨度的概率分布。实体表示为包含它的所有句子的预测实体分布的平均值。提出了四个多模态自学习预训练任务来优化实体表示。在第二阶段，MultiExpan根据实体的概率表示的相似性获取目标实体。我们指出，MultiExpan的提出旨在提供一个稳健的多模态基线，并探索不同预训练任务的有效性。

说人话：作者把MultiExpan分为两个阶段：多模态实体表示阶段和实体扩展阶段。下面会具体讲，我也没看懂他这个简要。

这个是总体结构。

3.2多模态实体表示

多模态编码器首先分别使用自注意力Transformer处理文本和图像，然后将它们结合起来进行深度跨模态交互。

3.2.1文本处理

文本信息处理方面，首先，我们将句子中的实体提及替换为[MASK]，以构建文本模态的输入。对于包含掩码实体提及的上下文文本

，我们直接使用由BASE初始化的12层Transformer来获取上下文的嵌入。

说人话就是一个基础的bert-base模型，然后他把实体词掩盖了。举个例子

（假设我们有一个句子：“华盛顿特区是美国的首都。”，我们将“华盛顿特区”替换为[MASK]，得到句子：“[MASK]是美国的首都。”。然后，我们将这个句子输入到12层的BERT_BASE模型中，得到每个词的嵌入表示。这些嵌入表示将用于后续的多模态融合和实体表示学习。）

3.2.2图像处理

其次，我们处理图像信息。与图像特征提取领域广泛使用的区域特征和网格特征不同，我们采用的补丁特征既简单又高效。我们将每张图像转换为固定形状，并确定每个补丁的大小，将每张图像划分为36个补丁

并使用Resnet主管网络提取补丁特征。

其中 L2 是补丁的数量，Flat(·)表示将ResNet提取的补丁特征重塑为一维的展平函数。

由于在分割过程中补丁特征会导致位置信息的丢失，我们添加了一个可学习的位置嵌入

以标记每个补丁的位置信息。补丁特征和位置嵌入通过逐对相加进行组合。最后，我们构建了一个3层的Transformer框架作为视觉信息中图像编码器：

说人话先把图像打成patch,然后用resnet分别去学习每个patch，然后把patch提取出来，把他们从高纬特征压缩成一维特征，然后再把一维特征，加上可以学习的位置信息，然后把合成之后的patch交个一个transformer去学习。

3.3.3跨模态融合

在获取两种模态的信息后，通过拼接文本特征和视觉特征

得到隐状态

然后，我们将这些隐状态输入到一个3层的Transformer中，已实现模态之间的融合和交互，从此图像-文本充分对齐。：

其中 L = L1 + L2 ，Transformer的结构与上述视觉编码器相同。在多模态编码器后面附加了一个分类头 f 。在获取掩码位置的隐藏状态后，通过MLP和Softmax函数将嵌入向量转换为掩码实体在可能的候选实体上的概率分布：

提出了四个自监督预训练目标用于训练。多模态编码器迭代优化这四个目标：

说人话：假设我们有一个句子：“[MASK]是美国的首都。”，其中“华盛顿特区”被替换为[MASK]。文本特征 W 和视觉特征V被拼接在一起，输入到3层的Transformer中进行交互和融合。最终，分类头f会输出一个概率分布y ，表示每个候选实体（如“纽约”、“波士顿”、“华盛顿特区”等）被预测为掩码实体的可能性。例如，y 可能显示“华盛顿特区”有最高的概率，

3.3损失函数

3.3.1掩码实体预测损失

对于掩码实体预测任务，模型以图像和掩码句子作为输入，并获得掩码位置的实体概率分布

，如上所述。应用带有标签平滑的交叉熵损失，使模型能够学习实体的潜在语义。

3.3.3.2对比学习损失

对比学习通过拉近同一语义类实体的表示、推远不同语义类实体的表示，提供更清晰的语义类边界（Li等，2022d,c）。我们从上一次迭代中获得的扩展列表中为每个语义类生成正负实体。排名在前

位的实体定义为正实体。排名在

到

被称为负实体，正负实体的样本被配对形成正负样本对。对于大小为 N 的小批量，每个样本

与其他样本形成

对，其中我们将

配对为正样本对，并定义其他

为负样本对。

由于直接在隐藏特征

上进行对比学习可能会导致信息丢失，我们在多模态编码器后面插入了一个两层的MLP

，将隐藏特征映射到一个规范化子空间，通过

，其中

且 D 是子空间的维度。成对相似性通过点积测量：

应用专注于难负实体的对比学习损失。对于给定样本

（假设它与

形成正样本对)，损失定义为：

3.3.3聚类学习损失

与对比学习类似，聚类学习吸引正语义类对并排斥负语义类对。我们使用一个替代的投影头，记作

，将输入样本

映射到语义类子空间，得到

。

的维度

对应于聚类的数量，即目标语义类的数量。特征的每个元素表示它属于特定语义类的概率。我们认为，一个语义类可以通过一批实体对其的概率响应来表征。形式上，设

表示样本

下的概率分布。

表示样本

的概率分布，正聚类对矩阵

和

的相同列所表示的寓意类所构成，因为实体

是来自同一语义类的样本对。为了简介，我们将

第i列记作

将

的第i列记作

用点击量化计算两者之间的相似性。

对于每一个语类

，聚类损失

的计算方式与对比损失（定义在公式(9)-(11)中)相同，它将

与其他

个语义类区除了其正对应物

。最终的聚类损失计算为：

动量蒸馏损失

我们从网络上收集的图像-句子对通常伴有噪声，这导致收集到的图像可能与句子关系较弱，或者属于语义类的扩展实体没有包含在真实标签中。为了缓解上述问题，我们引入了动量蒸馏学习。在训练过程中，模型的动量版本通过指数移动动量因子

缓慢更新：

，动量模型用于生成伪标签作为额外的监督，防止学生模型过拟合噪声。动量蒸馏损失表示为动量模型生成的伪实体概率分布

与当前迭代中多模态编码器预测

之间额KL散度。

3.4实体扩展

实体表示为包含它的所有句子的预测实体分布的平均值。语义类由当前扩展集中实体的加权平均值表示，权重通过窗口搜索算法动态维护。通过这种方式，分布相似的候选实体根据KL散度被放置在当前集中。由于扩展过程不是这项工作的重点，我们使用ProbExpan（Li等，2022b）中的窗口搜索和实体重排算法，并且在这里不再重复它们。

4.实验

4.1实验设置

比较方法我们比较了三类模型，第一类是传统的基于文本的ESE方法，包括SetExpan（Shen等，2017）、CaSE（Yu等，2019）、CG-Expan（Zhang等，2020）、ProbExpan（Li等，2022b）和GPT-3.5。在上述模型中，SetExpan和CaSE是传统的基于统计概率的方法，而CGExpan和ProbExpan是基于预训练语言模型BERT的最新方法。我们还评估了基于视觉的模型：VIT（Dosovitskiy等，2020）、BEIT（Bao等，2021）和CLIP的图像编码器（CLIP-IMG）。对于多模态扩展，我们探索了具有不同结构的多模态模型，包括CLIP（Radford等，2021）和ALBEF（Li等，2021）。上述提到的基于视觉和多模态的模型都通过实体预测任务进行了进一步的预训练，类似于方程（7）中定义的方法。

4.2实验结果：

4.3评估指标

ESE的目标是基于与给定种子实体的相似性，按降序扩展排名实体列表。根据以往的研究（Zhang等，2020；Li等，2022b；Yan等，2020），采用了两种广泛使用的评估指标，MAP@K和P@K。MAP@K指标的计算方法如下：

这里， Q 是每个查询 q 的集合。

表示在位置 K 处，排名列表 Rq 和真实列表 Gq 的平均精度。P@K是前K个实体的精度。在实验中，分别评估了种子实体数量为3和5的查询。详细解析

4.4主要实验

主要实验主要实验的结果如表3所示，从中我们观察到：

（1）多模态方法通常优于单模态方法。值得注意的是，我们的MultiExpan仅通过使用掩码实体预测（MEP）任务就实现了卓越的性能。此外，MultiExpan的完整版本实现了最佳性能。

（2）在多模态模型的结构方面，ALBEF和我们的MultiExpan通过Transformer展示了深度模态交互，与CLIP通过点积相似度计算的浅层模态交互相比，更适合ESE任务。这些结果表明，深度模态交互和融合是未来可以探索的一个方向。

（3）在基于视觉的模型方面，BEIT通过在掩码图像建模上进行预训练，擅长利用更细致的图像语义，如对象和背景信息。与通过在Image Net数据集上分类图像来学习整体图像语义的VIT模型相比，BEIT在实体理解方面表现出更好的结果。同时，CLIP的图像编码器也由于与文本模态的关联，捕获了比VIT模型更丰富的语义。然而，仅依赖图像模态并不足以产生满意的结果，文本模态仍然占据主导地位。

（4）增加种子实体的数量（∥Seed∥）并不一定转化为整体性能的提升。更多的种子实体可以更精确地描述语义类别，并更安全地检索一些“必须正确”的实体，因此当K较小时（=10,20）MAP/P得到提升。然而，更多的种子实体意味着语义类别的搜索空间更大，需要比当前模型允许的更细致的常见实体属性分析。这个问题代表了ESE模型面临的持续挑战——语义漂移，因此当K较大时MAP/P下降。当然，增加∥Seed∥有助于消除属于多个类别的查询实体的歧义。例如，在轻小说这一语义类别中，一些种子实体同时也是漫画，增加∥Seed∥在所有指标上平均提高了17.5%。

（5）GPT-3.5没有取得令人满意的结果，甚至不如无监督的CGExpan。通过对GPT-3.5在特定语义类别上的表现进行仔细检查，我们发现该模型在处理复杂类别（例如，第一次世界大战的108位烈士）时遇到了困难。我们明确指示GPT-3.5首先推理类别名称，然后基于它们进行扩展。这种修改，称为GPT+Name，表现出显著的改进。这种方法与大型语言模型的新兴链式推理思想（Wei等，2022）相一致（Touvron等，2023；Li等，2023c；Yu等，2023b），即逐步思考。我们建议未来的研究探索链式推理与ESE任务的结合。

4.5预训练任务分析

我们比较了不同预训练任务对MultiExpan的影响。掩码实体预测任务使模型能够学习实体的潜在语义，这一能力通过增加三个预训练任务而得到进一步增强。表4中呈现的结果表明，每个预训练任务都对模型产生了有益的影响。值得注意的是，我们发现带有难负实体的对比学习为模型带来了最大的性能提升，它通过提供更清晰的语义边界来实现这一点。尽管聚类学习在MAP/P@K=10和20时与对比学习带来了相当的收益，但在更大的K值时效果较差。这是因为对比学习直接作用于实体，并更直接地将目标实体聚集到紧密的簇中。相比之下，动量蒸馏学习带来的性能提升较小，我们认为这主要归因于其在存在噪声数据时防止过拟合的能力。这一观察结果突出了MESED所提供数据的高质量，特别是句子中实体的准确标注。在附录中展示了关于预训练任务超参数敏感性的广泛实验，证明了MultiExpan对参数的鲁棒性。

4.6模型分析

我们还对每种模态进行分析实验，以回答以下问题。

多种模态是否具有互补性？

我们呈现了一个维恩图，用以展示不同模态对 MESE 的影响，如图 3 所示。T、V 和 T+V 分别代表 ProbExpan、BEIT 和我们的 MultiExpan。每个圆圈的大小对应于属于真实情况的排名前 100 的实体所占的比例，圆圈的交集则表示实体的重叠部分。我们的分析表明，文本模态仍然优于视觉模态。尽管视觉模态作为补充信息被引入，但在 MultiExpan 中，有 15.17% 的目标实体被排在了更高的位置，而原本正确扩展的实体中有 5.17% 被排除，这是由于图像噪声所致。

拥有种子实体和候选实体的多模态上下文会更好吗？

在推理阶段，我们分别从 MultiExpan 中的候选实体或种子实体中移除了文本和视觉信息。结果表现如表 5 的最后 6 行所示，下标表示对种子实体（s）或候选实体（c）执行的操作。我们的结果表明，移除实体任何部分的模态信息都会对整体性能产生不利影响。然而，当从种子实体中移除特定的模态信息时，会导致性能严重下降，而从候选实体中移除模态信息仅会导致轻微的性能损失。这些发现表明，建模种子实体集的语义比建模单个实体更为关键。此外，当我们在预训练阶段移除输入文本或图像时，MultiExpan 的性能也出现了下降，这进一步证明了其有效利用多模态信息的能力。

视觉模态提供了哪些视觉线索？

我们随机抽取了200个实体，并确定图像可以提供一些基本的视觉线索，包括：（1）物体，通过描绘实体本身来补充有限的文本信息；（2）场景，展示实体所处的环境，以区分目标语义类别和难负样本语义类别，例如室内与室外、水上与陆地；（3）属性，展示实体的共同特征，以对齐同一类别的实体，如猫的外观；（4）其他：其他重要的视觉线索。我们对200个实体图像进行了标注，标注了它们对应的视觉线索类型，并评估了MultiExpan利用不同视觉线索的能力。如表6所示，所有类型的视觉线索对MESE都有益处，视觉模态主要通过突出图像中的物体来补充文本信息。相比之下，MultiExpan较少利用场景，因为它们代表了更抽象的概念。案例研究、视觉线索示例以及每个语义类别的详细表现可在附录中找到。

5.结论

在这篇论文中，我们介绍了一个名为多模态实体集扩展（MESE）的新任务，其目标是利用多种模态来表示和扩展实体。MESED 数据集是第一个具有细粒度语义类别和难负样本实体的多模态 ESE 数据集。此外，我们还提出了一个强大的多模态模型 MultiExpan，该模型在四个多模态预训练任务上进行了预训练。与其它单模态或多模态模型相比，MultiExpan 取得了最先进的成果。在未来，我们将研究生成式 PLMs（如 GPT-4）在解决 MESE 任务中的适用性。MESED 也可以作为一个可靠的基准，用于评估大型 PLMs 的多模态实体理解能力。

标签：模态,grained,Multi,Set,模型,实体,语义,MultiExpan,图像
From： https://blog.csdn.net/qq_54991537/article/details/145234694

MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negati