文章目录
- 论文题目:通过在知识库中进行推理来改进实体消歧
- 摘要
- 1 介绍
- 2 相关工作
- 3 拟议的方法
- 4 实验
- 5 结果
- 6 分析
- 7 结论
- A 实体类型选择
- B 训练细节
- C 模型Ablation研究
- D Doc-level RE结果在DOCRED上
- E 数据集详情
- F 额外的关系分析
- G 推理速度和可扩展性
论文题目:通过在知识库中进行推理来改进实体消歧
论文链接:https://arxiv.org/abs/2207.04106
arXiv:2207.04106v1 [cs.CL] 8 Jul 2022
摘要
最近的工作在实体消歧(ED)方面通常忽略了结构化知识库(KB)的事实,而是依赖于KB信息的一个有限子集,例如实体描述或类型。这限制了可以在其中进行实体消歧的上下文范围。为了允许使用所有KB事实以及描述和类型,我们引入了一个ED模型,该模型通过以完全可微的方式对符号知识库进行推理来链接实体。我们的模型在六个成熟的ED数据集上超越了现有的最佳基线模型,平均F1得分提高了1.3。通过允许访问所有KB信息,我们的模型减少了对基于流行度的实体先验的依赖,并在具有挑战性的ShadowLink数据集(强调不常见和模糊的实体)上改善了性能,F1得分提高了12.7。
1 介绍
实体消歧(Entity Disambiguation,简称ED)是将文本中提到的实体与知识库(Knowledge Base,简称KB)中的相应实体进行链接的任务。最近的ED模型通常使用KB信息的小子集(如实体类型或描述)来执行链接。这些模型在标准ED数据集上的性能表现强劲,这些数据集主要由在训练数据中频繁出现的实体组成。
然而,在不太常见的实体上,ED性能会下降,以至于许多最近的模型在关注具有挑战性或罕见实体的数据集上被过时的基于特征工程的ED系统超越(Provatova等人,2021)。这表明模型过于依赖先验概率,这些概率要么是隐式学习的,要么作为特征提供,而不是有效地利用提及上下文。 其中一个原因是,模型使用的KB信息子集不足以在所有上下文中区分相似实体,这意味着模型不得不退而求其次,预测最受欢迎的实体。对于性能下降的另一种解释是,不太常见的实体容易缺失或不一致的知识库信息(例如,它们可能没有描述),这对于依赖于单一信息来源的模型来说是有问题的。为了说明这一点,我们发现,在维基数据中25%最不受欢迎的实体中有21%既没有英文描述也没有任何实体类型,这使得那些仅依赖于这两种信息来源的模型无法对它们进行消歧(除了它们的标签)。超过一半的实体至少有一个知识图谱事实(例如[Cafe Gratitude]、[总部位置]、[旧金山]);因此,通过包含知识图谱事实,除了标签之外没有其他信息的最不受欢迎实体的百分比从21%降至8%。
鉴于此,我们引入了一个ED模型,该模型可以访问实体类型和描述以及所有KB事实。通过使用更多种类的信息,我们的模型对缺失的KB信息更具鲁棒性,并能够在更广泛的情境中解析实体,而无需依赖实体先验知识。图1展示了一个示例句子,其中实体描述和类型中的信息不足以消歧提到的人名——克林顿。需要精细的知识库信息,例如关于候选实体的出生地或教育背景的事实。
图1:一个需要精细的知识库信息来进行实体消歧的句子示例。
为了整合KB事实,我们的模型首先使用描述(Wu等人,2019)和预测的实体类型(Raiman和Raiman,2018)对候选实体进行重新排名。然后,我们利用文档上下文预测文档中每对提及之间的关系。例如,给定图1中的句子,模型可能会预测[出生地]关系存在于Clinton和Hope, Arkansas之间的提及。为此,我们引入了一个新颖的“粗细结合”的文档级关系提取(RE)模块,它相对于标准RE方法提高了准确性和减少了推理时间。给定关系预测,我们查询知识库(在这种情况下是Wikidata)中存在于提及Clinton的候选实体和提及Hope, Arkansas的候选实体之间的事实。在这种情况下,我们会找到维基数据事实[比尔·克林顿]、[出生地]、[希望],并相应地提高[比尔·克林顿]和[希望]实体的得分。我们通过将知识库存储在一个独热编码的稀疏张量中来实现这种机制,这使得整个架构可以端到端地进行差异化。
我们的模型在公认的ED数据集上超越了最先进的(SOTA)基线,平均提高了1.3的F1分数,并在具有挑战性的ShadowLink数据集上显著提高了12.7的F1分数。此外,该模型的预测是可解释的,即模型用于做出预测的事实是可以访问的。
我们的贡献总结如下:
- 我们实证表明,在实体检测中使用知识库事实可以提高性能,超越通常依赖于单一知识库信息的SOTA方法。
- 我们提出了一种可扩展的方法,将符号信息整合到神经网络ED模型中。据我们所知,这是首次将端到端可微分的符号知识库用于ED。
- 我们介绍了一种新颖的文档级关系提取(RE)架构,它使用粗到细的预测来获得具有竞争力的准确性和高效率。
2 相关工作
关于ED的近期研究主要关注基于特征的方法,这种方法通过优化神经网络,使得正确知识库实体的表示与提及表述最为相似,且每个提及都是独立解析的。KB实体的表示方式在不同工作中有所不同。早期的工作(Ganea和Hofmann,2017)直接从训练样本中学习实体嵌入,这种方法对于在训练过程中见过的实体表现良好,但无法解决未见过的实体。更近期的工作通过使用实体描述(如实体的子集信息)来提高常见数据集的性能,这些描述在训练期间是不可见的。例如,实体描述(Logeswaran等人,2019年;Wu等人,2020年)或实体类型(Raiman和Raiman,2018年;Onoe和Durrett,2020年)。
2.1 带有知识库上下文的勃起功能障碍(ED)问题
Mulang’等人(2020年)和Cetoli等人(2019年)通过将知识库(KB)事实转化为词汇形式并将其附加到上下文句子中,然后使用交叉编码模型来预测这些事实是否与句子一致的方法,将KB事实引入到情感分析模型中。我们的模型与这种方法不同,因为我们是在文档中共同解决实体,而不是独立地解决实体;这使得可以在实体预测之间捕获成对的依赖关系。另一个可能的限制是交叉编码方法的高计算成本,即对每个附加到文档上下文中的事实进行长序列长度的编码。通过从稀疏张量中获取KB事实,我们能够避免这个瓶颈,并将规模扩大到更多的事实(Cohen等人,2020)。
2.2 基于知识图谱嵌入的ED
图神经网络(GNN)已被用于表示KB事实以提供ED预测(Sevgili等人,2019;Ma等人,2021)。这些方法可以潜在地访问所有KB事实中的信息,但依赖于图形嵌入的质量,这可能难以表示许多基本语义(Jain等人,2021),特别是对于不受欢迎实体(Mohamed等人,2020)。
2.3 全局ED(实体解析)
在文献中有一系列的论文旨在优化整个文档中实体选择的全局一致性(Hoffart等人,2011;Cheng和Roth,2013;Moro等人,2014;Pershina等人,2015)。我们的模型与以前的方法不同,因为它根据文档文本预测提到之间的关系,并通过这些预测对一致性分数进行加权,而不是独立于文档上下文考虑一致性。我们还限制模型只在提到之间进行成对的一致性,以提高计算效率,而不是全局一致性。
2.4 多模块的实体识别
与我们工作最相似的是Orr等人(2021)的工作,他们在尾部实体上取得了很好的结果。他们引入了一个实体识别(ED)模型,该模型使用实体嵌入、关系嵌入、类型嵌入和一个知识图谱模块来连接实体。我们的模型与现有模型的一个关键区别在于使用KB事实进行消歧的方式。在他们的工作中,KB事实是独立于候选实体共现的文档上下文进行编码的,而我们的模型能够利用相关KB事实来考虑文档上下文。
3 拟议的方法
3.1 任务表述
给定一个包含提及的文档X,其中M = {m1, m2, …, m|M|},一个知识库(KB)包含一组事实G = {(s, r, o) ⊂ E × R × E},这些事实表达了实体集E中主题s与对象实体o之间的关系r ∈ R,以及每个KB实体ek的描述dk,ED的目标是为每个提及m ∈ M分配正确的对应KB实体e ∈ E。
3.2 概述
图2展示了我们模型的高级概述。我们使用一个转换器模型在单次传递中为文档中的所有提及生成编码。我们使用这些提及嵌入向量来为每个提及生成初始候选实体分数,同时使用KB实体的实体类型和描述。我们还使用这些提及嵌入向量来预测文档中每对提及之间的关系。我们为文档中的每对提及以及每个候选实体组合检索KB事实。我们将检索到的KB事实通过乘以主题实体的初始候选实体分数、关系的预测分数和对象实体的初始候选实体分数来加权。然后我们通过累加每个候选实体的加权事实来生成KB得分。用于排名实体的最终分数是初始分数和KB分数的加权和。
图2:我们的模型架构展示了一个包含两个提及的文档,英格兰和1966年世界杯。该模型在一次传递中解决了所有实体提及的歧义;利用知识库中的事实连接每个提及的候选者。
3.3 提及表示
我们使用基于转换器的模型对文档X中的标记进行编码,得到上下文标记嵌入H={h1, h2, …, hN}。 我们通过平均池化从最后一层转换器中获得每个提及mi的上下文标记嵌入,从而得到提及mi的提及嵌入mi。这使得文档X中所有提及M的内容可以在一次前向传递中被编码。
3.4 初始实体得分ψa
最初,我们使用实体类型和描述得分来评价候选实体。我们将两者结合成一个学习到的加权和ψa:
其中cik是提及实体对(mi,ek),ψt基于候选实体类型的一个评分函数,而ψd基于候选实体描述的评分函数。
3.4.1 实体类型得分 ψt
我们通过从知识图谱G中获取关系-对象对(r,o),构建一个固定的类型集合T={(r,o)⊂R×E};例如(instance of, 歌曲)。我们通过对文档中的每个提及应用线性层FF1来预测每个类型t∈T的独立未归一化分数,从而为每个提及的嵌入mi计算得分。为了计算实体分数ψt,我们使用预测类型,我们计算预测类型和候选实体类型二进制向量tk之间的点积。此外,我们添加了一个P(e|m)(PEM得分),它表示给定提及文本的实体概率,该概率通过超链接计数统计获得,就像之前的工作(Raiman和Raiman,2018)中一样:
3.4.2 实体描述得分 ψd
我们使用类似于(Wu 等人,2019)的双编码器架构,但将其修改为在单个向前传递中对序列中的所有提及进行编码,而不是需要一个向前传递每个提及。我们将知识库实体表示为:
[CLS] 标签 [SEP] 描述 [SEP]
其中“标签”和“描述”是知识库中实体标签和实体描述的标记。我们将其称为dk。要使用实体描述来计算实体分数ψd,我们使用一个独立的转换器模型TR1来编码dk,获取[CLS]的最终层嵌入,并在由线性层FF2投影的上下文提及嵌入mi之间计算点积:
3.5 关系提取
我们的关系提取层为文档中的每个提及对mi和mj输出一个关系得分向量r~ij~∈R|R|,其中R是从知识库中选择的关系子集。要计算rij,我们首先将mi和mj通过一个线性层B传递,其输出维度为1,以预测提及mi和mj之间存在关系的概率r~ij~coarse^。
请注意,r~ij~coarse^ 是一个标量,表示提及mi和mj之间存在任何关系的可能性。
然后,我们采用类似于Lee等人(2018)提出的粗到细的方法,选取r~ij~coarse值最高的前k个提及对,如图3中K=2所示。这些是对模型预测具有最高关联可能性的提及对。对于存活的提及对,我们分别通过一个线性层FF~3~将两个提及嵌入单独减少一半的维度。这样可以确保当我们再次将这两个表示连接在一起时,得到的提及对m~ij~*^的表示与上下文标记嵌入H具有相同的维度。
图3:文档级关系提取的模型组件。表示在i和j之间存在某种关系的概率。R表示我们包含在模型中的关系数量-仅为说明目的,在图中设置为2。
然后,我们将得到的嵌入向量mij*通过一系列名为TR2的转换器层,这些层可以关注原始输入标记的上下文嵌入,H = {h1, h2, …, hN}。来自最后一层转换器的提及对嵌入向量通过一个线性层FF4,其输出维度为|R|,给出每个关系在提及对之间存在的估计值r~ij~fine^。
最后,为了得到ˆrij,我们将粗层得分r~ij~coarse与细层得分rijfine相乘,确保在训练过程中通过粗层传播梯度,尽管只有top-k提及对传递给细层。
对于所有在top-k对之外的提及对,我们将ˆrij设置为一个全零向量。
关系提取层仅使用实体歧义损失的信号进行端到端训练,并且没有使用任何任务特定的关系提取数据进行预训练。为了验证该架构的有效性,我们在附录D中包括了在DOCRED RE数据集上单独训练RE模块的结果。
3.6 KB得分ψb
我们为文档中的每个提及实体对检索KB事实7,并将其表示为一个5维张量r,其中rij,kn是一个二进制向量,指示KB中两个实体(ek和en)之间的关系,用于提及实体对cik和cjn。 我们根据初始实体分数ψa和关系预测ˆr来加权KB事实r,以提高其与文档的相关性。为了计算一个提及实体对的KB分数ψb,我们将实体(来自提及实体对)作为主题实体的KB事实相加,得到分数ψs;然后将实体作为目标实体的KB事实相加,得到分数ψo:
其中,˙ψa是初始实体评分函数,接着是对给定提及的候选实体应用softmax函数后的ψa。然后我们通过加权求和给出ψb:
注意,为了计算效率,这种评分机制只考虑实体预测在成对提及之间的连贯性,与考虑全局连贯性的方法形成对比(Hoffart等人,2011)。
3.7 优化和推断
为了获得最终的实体得分ψf,我们将初始实体得分ψa和KB得分ψb相加。
我们在带有实体链接的文档上训练我们的模型,使用交叉熵损失。我们的模型是完全可区分的端到端,训练信号通过所有模块传播,包括关系提取模块。在ED推断过程中,我们为每个提及选择具有最高最终实体得分的候选实体。
4 实验
4.1 标准实体检测
我们对我们的模型在以下公认的标准化实体检测数据集上进行评估:AIDA-CoNLL(Hoffart等人,2011年),MSNBC(Cucerzan,2007年),AQUAINT(Milne和Witten,2008年),ACE2004(Ratinov等人,2011年),CWEB(Gabrilovich等人,2013年)和WIKI(Guo和Barbosa,2018年)。我们使用维基百科的超链接来训练我们的模型,并报告InKB微F1得分(只考虑具有非NIL实体标签的实体)。为了确保与基准方法的公平比较,我们采用了与之前研究相同的方法生成候选实体(Cao等,2021;Le和Titov,2018)。具体来说,我们使用基于实体先验(PEM)的前30个实体,这些统计信息是通过混合维基百科超链接、大型网络语料库和YAGO的超链接计数统计数据获得的。
4.2 长尾和模糊实体识别
我们使用ShadowLink实体识别数据集(Provatorova等,2021)来评估我们的模型在长尾和模糊示例上的表现。该数据集包括3个子集。SHADOW子集中的正确实体被一个更受欢迎的实体掩盖;TOP子集中的正确实体是最受欢迎的实体;而TAIL子集中的正确实体是一个长尾实体。所有SHADOW和TOP的例子都是模糊的,而TAIL则有一些明确的例子,因为它是一个长尾实体的代表性样本。原始数据集由网页上的短文本片段组成,这些片段通常只包含一个或两个实体提及。这限制了我们的模型使用其文档级RE模块的能力,并在实体之间进行推理。因此,我们还在SHADOW和TOP子集的全文版本上进行评估,结果表格中分别称为SHADOW-DOC和TOP-DOC。该数据集包含每个文档中的一个注释实体,所以我们使用spaCy(“en_core_web_lg”模型)(Honnibal和Montani,2017)来识别其他提及,以便我们的模型和基线可以利用其他提及来消除标注实体提及的歧义。
4.3 模型细节
我们使用维基数据(2021年7月)作为我们的知识库,限制为具有相应英文维基百科页面的实体。这产生了620万个实体。我们使用这些数据生成实体类型、实体描述和知识图谱事实的查找。我们选择一个固定的1400个关系-对象对,根据其在消歧中的有用性,作为我们的实体类型(附录A)。对于KB事实,我们将顶部的128个关系表示为单独的类,并将剩余的关系合并为一个我们称之为OTHER的单个类。此外,我们在每个实体和自身之间添加了一个特殊的关系。我们称这个关系为SAME AS关系,其背后的想法是使模型能够隐式地学习核心指代解析。
4.4 训练详情
我们使用维基百科的超链接(截至2021年7月)以及额外的弱标签作为我们的训练数据集,其中包含大约1亿个标注过的实体提及。我们将候选实体生成限制为根据维基百科超链接统计数据得出的前30个实体。我们的模型在文档级别上运行,并通过多个提及同时进行训练。我们从RoBERTa(Liu等人,2019)模型中初始化提及嵌入式Transformer模型权重,并使用批量大小为64和最大序列长度为512个标记训练我们的模型100万个步骤。这需要大约4天的时间,使用8个V100 GPU。有关更多详细信息,请参阅附录B。
5 结果
5.1 标准紧急部门
表1中的结果显示,我们的模型(KBED)在各个数据集上取得了最高的平均性能,F1得分比其他方法高1.3分,错误减少了11.5%。消融实验结果表明,大部分数据集上的改进归因于我们新颖的KB模块。我们在WIKI数据集上观察到最大的3.0 F1改进,这可能是由于文档具有高事实密度,使我们的模型能够利用更多的KB事实(请参阅第6.1节进行关系分析)。尽管我们的模型仅在维基百科上进行训练,但我们在诸如MSNBC新闻文章等外域数据集上获得了有竞争力的结果,这意味着从维基百科学到的模式可以应用于其他领域。此外,结果表明我们的三个模块(实体类型、实体描述和知识库事实)是互补的;当任何一个模块单独使用时,性能会降低,这证明了面向实体解析的多方面方法的好处。令人惊讶的是,当我们单独使用知识库模块时,它的表现与TagMe基线相当,这表明知识库事实与从文档中预测的事实之间存在合理的重叠。请注意,表1中的AIDA结果包含在这个数据集上微调的模型(用**表示)和仅在维基百科上训练的模型(如我们的案例),因此这些数字不能直接比较。
表1:实体消歧InKB微F1分数在测试集上的表现。最好的值(不包括模型去除)以粗体显示,第二好的值以下划线表示。*我们使用作者发布的代码生成了结果。**表示该模型是在AIDA和维基百科超链接上进行训练的。
5.2 长尾和模糊实体识别
我们的模型在原始的ShadowLink数据集上取得了平均F1分数为70.1的成绩(表2),这一成绩大大超过了基于嵌入式模型(如GENRE,REL)的性能(+16.5 F1),并适度超过了(+4.0 F1)优化尾部性能并使用实体类型和知识库事实的Bootleg模型(Orr等人,2021)。在原始数据集上,我们的KB模块的影响微乎其微,因为有限的文档上下文减少了与知识库相关实体的共现几率;因此,强大的性能主要归功于实体类型和描述的组合。然而,我们在数据集的文档级版本上看到了显著的平均提升,KB模块在被遮蔽实体子集中贡献了6.7个F1得分,尤其是在被遮蔽实体子集上产生了相当大的影响,整个平均提升了12.7个F1得分。在使用文档级上下文的情况下,我们的模型与Bootleg之间的性能差距更大,这可能是因为Bootleg专为短上下文设计,并且对用于消歧的KB事实的控制有限,因为所有事实都被均匀地加权。我们在附录C中包括了一个更详细的模型裁剪研究。
表2:实体消歧InKB微F1分数在ShadowLink测试集上的表现。SHADOW-DOC和TOP-DOC指的是该数据集的扩展版本,其中包括文档的全文,用作额外上下文。最好的数值已加粗显示。 ∗我们使用作者发布的代码生成了结果。
5.3 关系提取模块
为了分析第3.5节中介绍的文档级RE架构的影响,我们在表1和表2中展示了使用标准双线性RE层(Xu等,2021)的性能结果。我们的RE架构在标准ED数据集上平均提高了0.9个F1分数,在标准ShadowLink分片上平均提高了1.3个F1分数,在ShadowLink文档级分片上平均提高了1.5个F1分数。 此外,通过避免二次复杂度的双线性层,我们在AIDA文档上的推断速度提高了约2倍。我们将在附录D中包含我们的架构在DOCRED(Yao等,2019)数据集上的文档级关系抽取结果。
5.4 错误分析
在表3中,我们展示了注释50个示例的结果,其中模型对AIDA测试集和ShadowLink SHADOW-DOC集都做出了错误的预测。黄金不在候选实体中,指的是那些黄金实体没有在PEM表的前30个候选实体中的情况;缺失知识库事实是指模型正确预测了两个提及之间的关系,但相应的事实并未在知识库KB中的情况。主导PEM是指一个候选人的初始PEM得分较高(>0.8),模型无法覆盖这个得分;错误的RE预测是模型在两个提及之间做出错误的RE预测,并导致选择了错误实体的情况;模糊注释指的是黄金注释要么是错误的,要么是模糊的。
表3:在AIDA-CoNLL和ShadowLink-Shadow数据集上,50个注释的每个错误类别的计数。
表3中的结果显示,最大的错误来源是黄金实体没有出现在前30个候选人中。这在ShadowLink SHADOW-DOC分割中尤其正确,因为这个分割包含了大量的尾部实体,这些实体在维基百科上被提及的可能性较小。对于AIDA数据集,还存在很多在某种程度上具有歧义的案例。总共有8个案例,模型预测的关系是它期望在知识库中找到的,但实际上并不存在。这主要出现在ShadowLink split中,其中尾部实体在Wikidata中的表示可能较少。该模型通常擅长不依赖实体先验知识;尽管Shadowlink SHADOW-DOC分割中的每一个金标准候选实体都被PEM表中更受欢迎的实体“掩盖”,但只有一个例子是模型无法覆盖这一点的。尽管该模型经常“过度预测”提及之间的关系,但它很少因此受到惩罚,因为一般来说,它预测的额外事实并未在知识库中出现,这意味着错误的关系预测数量较低。
为了进一步探讨缺失候选者的作用,表4显示了我们在传递给模型的前30个候选者中黄金实体所占的百分比,这代表了我们的模型所能达到的硬性上限。结果从MSNBC数据集的高覆盖率(99.5)不等,该数据集主要包含头部实体,到ShadowLink SHADOW(75.3)和TOP(83.6)分段的较低覆盖率。表4还显示了如果我们把所有PEM候选者通过模型的情况下的覆盖率。对于一些数据集,例如WIKI,这显著提高了覆盖率。然而,在ShadowLink的SHADOW分割中,覆盖率仍然低于80%,表明更好的候选生成策略是未来研究的一个有趣的方向。
表4:各个数据集中的前n个候选实体中黄金实体的百分比。在本文中,我们设置n=30。
6 分析
6.1 关系预测
为了理解模型利用的关系来进行预测,表5显示了在WIKI数据集上,黄金标注提及之间的知识库(维基数据)事实数量(Gold),我们的模型在得分高于0.5的情况下预测提及之间的事实数量(Predicted),以及我们的模型也预测的黄金事实的百分比(Recall)。
表5:对于WIKI数据集的实体关系预测分析,阈值为0.5。包含320篇文档和6772个实体提及。
“SAME AS”关系被模型广泛使用,表明利用同一篇文章中其他(可能更容易消除歧义)的实体提及作为增强是ED的一个强大补充。我们把对模型在核心词指代特定任务上的评估留待未来的工作。其他关系也很常见,表明维基数据中的长尾关系仍然包含有用的信息。广泛使用的其他关系通常是地理或体育相关的,考虑到维基数据中大量体育实体,这是可以预见的。
召回数量似乎较低,尽管这是预期行为,因为一条黄金事实的存在并不一定意味着文档中的文本推断出这个事实。例如,文本“唐纳德·特朗普访问了纽约”将包含黄金事实[唐纳德·特朗普][出生地][纽约],但是对所有这种形式的句子进行这种预测可能会损害性能。
7 结论
我们提出了一种新颖的ED模型,它在公认的ED数据集上取得了SOTA性能,平均F1得分提高了1.3,而在极具挑战性的ShadowLink数据集上的F1得分提高了12.7。这些成果是通过引入一种方法实现的,该方法可以将大量的符号型KB数据以完全可微分和可扩展的方式融入到ED模型中。我们的分析表明,如果要在模糊和尾部实体上提高结果,更好的候选生成策略是未来研究的一个有趣途径。将ED模型识别的事实动态扩展到知识库也是一种潜在的有前途的方向。
A 实体类型选择
我们的实体类型是由维基数据的直接关系-对象对和从维基数据子类层次结构推断的关系-对象对形成的;例如,(实例,地理区域)可以从(实例,城市)推断出来。 我们只考虑具有以下关系的类型:实例、职业、国家和运动。我们通过迭代添加能够将黄金实体(假设有一个神谕类型分类器)与我们的维基百科训练数据集中最多例子的负样本分开的类型来选择类型。
B 训练细节
我们使用Hugging Face的RoBERTa实现(Wolf等人,2019),并使用Adam(Kingma和Ba,2015)优化我们的模型,采用线性学习率计划。我们忽略了那些黄金实体不在候选集中的提及的损失。我们的模型大约有197亿个可训练参数。我们将在表6中展示我们的主要超参数。由于训练模型的计算成本很高,我们没有进行广泛的超参数搜索。为了在训练过程中将GPU内存使用量控制在16GB以下,我们将每个上下文窗口中的引用数目抽样至30个,并将每个引用的候选者数目抽样至5个(推理过程不需要抽样)。
表6:我们的模型超参数。
C 模型Ablation研究
在这部分,我们测量模型关键方面的贡献。对于每个模型裁剪,我们在AIDA-CoNLL训练集上从头开始训练我们的模型,并在开发集上进行评估,保持超参数不变。令人惊讶的是,在有限数据的情况下,我们的模型表现出了强大的性能,这意味着当有少量标注的领域内数据时,我们的模型并不依赖于大量的训练样本。请注意,在“不包括128个标准关系”的情况下,我们将所有标准关系合并到OTHER特殊关系中;在“不包括RE变压器”的情况下,我们用一个单层的双线性层替换了RE变压器。我们的结果(表7)表明,我们测量的所有模型方面都对性能产生了积极影响。有趣的是,KB模块(+2.2 F1)的影响比实体描述(+0.48 F1)和实体类型(+0.9 F1)模块更大,尽管它在单独使用时的性能较弱(表1)。这意味着KB模块表现良好的示例与其他模块表现良好的示例之间重叠较少。我们观察到,SAME AS关系提高了0.72 F1的性能,这表明使用代词有助于提高ED。最后,我们发现当KB模块对如何加权KB事实(基于上下文)有更多的控制时,会得到更好的结果。例如,如果我们把所有标准关系都合并为一个关系,我们的性能就会下降0.7 F1。
表7:在AIDA-CoNLL开发集上对从头训练的模型消融进行ED F1得分评估。使用标准CoNLL候选者(Hoffart等人,2011年)。当性能下降超过0.7时,结果会用红色标出。
D Doc-level RE结果在DOCRED上
为了验证我们在第3.5节中介绍的文档级关系抽取(RE)结构的性能,我们展示了在DOCRED数据集(Yao等,2019)上训练和评估的模型结果。我们的基线实现使用roberta-base作为编码器和一个双线性输出层。我们在表8中展示了两种变体,一种是输入维度为128的双线性层,另一种是输入维度为256的双线性层,它们分别获得了57.8和58.4的F1分数。相比之下,(Xu et al., 2021)中实现的一个等效基线得分为59.5。这种差异可以通过我们的基线不提供模型访问黄金核心关系信息来解释,这在DOCRED任务中是允许的,但我们将其排除在外,因为对于我们的实体链接任务来说,这些信息将不可用。
表8:在DOCRED开发数据集上的文档级关系提取F1分数。
我们的粗到细方法,包含4个“精细”的转换器层,使开发级F1得分提高了2.8 F1,达到61.2。这使其略高于当前最先进的模型SSAN(徐等人,2021)的roberta-base版本,该模型得分为60.9,并且在模型的嵌入层中还可以访问黄金核心指代标签。这段话的中文意思是:这证明了我们的文档级关系抽取架构能够产生准确的关系预测,正如我们在主结果表(表1)中看到的那样,这也转化为更强的实体检测性能。
通过避免使用双线性层,我们的实现也更快地训练,实现在单个Tesla V100 GPU上的DOCRED数据集每epoch 106.2秒,与具有128维双线性层的基线模型相比为155.7秒,而具有256维双线性层的更准确基线模型则需要343.2秒。
E 数据集详情
E.1 斜体样式数据集统计
我们展示了用于评估的每个数据集的主题、文件数量和提及次数(表9)。所使用的数据集涵盖了各种来源,包括维基百科文本、新闻文章、网络文本和推文。请注意,模型在这些领域之外的性能可能会有显著差异。
表9:实体消歧义数据集统计
E.2 影子链接全文本版本
作者们很友好地提供了Provatorova等人(2021)的完整文档,这些文档是ShadowLink数据集中较短文本片段(通常只有一到两个句子)的来源。我们能够将SHADOW分组中的596个示例与相应的文档匹配,并且在TOP分组中的904个示例中,有530个可以与其对应的文档匹配。由于某些完整的文章非常长,我们限制文档长度为10000个字符,集中在单个注释实体上。为了验证我们能够匹配到完整文档的示例子集是否代表原始数据集分块,我们在这些子集的句子级版本上运行我们的模型,取得了在SHADOW分割上的47.7(与表2中的47.6相当)和在TOP分割上的63.9(与表2中的64.2相当)。
F 额外的关系分析
为了进一步扩展第6.1节的分析,我们还考虑了AIDA数据集中文档中黄金关系和预测关系的数量(表10)。第一个明显的区别是,AIDA数据集中的黄金SAME AS事实数量要高得多。这可能是因为维基百科上的页面通常只在首次提到实体时才有超链接。
表10:对于阈值为0.5的AIDA数据集的关系预测分析。
值得注意的是,AIDA数据集的召回率相对于WIKI(表5)较低,这表明RE模块在某种程度上可能已经“过拟合”于维基百科风格的文章,因此在处理AIDA风格的新闻文章时可能效果较差。
G 推理速度和可扩展性
我们测量在AIDA-CoNLL测试数据集上运行推理所需的时间,并将其与SOTA基线进行比较。表11显示了结果以及平均ED性能在6个标准ED数据集(用于表1)上的表现。我们的模型比基线快一个数量级,同时具有可比的ED性能。
表11:在AIDA-CoNLL测试数据集上进行实体链接推断所需的时间(以秒为单位)。
我们的模型中最计算密集的部分(约占推理和训练时间的80%)是计算KB分数,这是由于文档中存在的大量成对交互所导致的。超参数可以降低以粗到细的关系提取来权衡计算成本和ED性能,方法是减少成对交互的数量。另外,由于初始实体得分ψa相对于知识库得分ψb的计算较为便宜,因此可以通过剪枝来进一步提高训练和/或推理速度,从而剔除初始实体得分较低的候选实体。这些方法还允许在初始候选实体数量上进行扩展,使其超过本文中用于推断的30个,如果使用场景需要的话。
标签:KB,Knowledge,over,实体,Reasoning,文档,提及,我们,模型 From: https://blog.csdn.net/weixin_56242678/article/details/137069839