标签：关系 Loss Based Sequence 模型实体文档 SagDRE 本文

代码

原文地址

关键参考文献：

Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling

摘要

关系抽取（RE）是许多自然语言处理应用的重要任务，它的目标是从文档中抽取出实体之间的关系。文档级RE任务面临着许多挑战，因为它不仅需要跨句子进行推理，还要处理同一文档中存在的多种关系。为了更好地捕捉文档中的长距离相关性，现有的最先进的文档级RE模型都采用了图结构。本文提出了一种新的文档级RE模型，名为SagDRE，它能够有效地利用文本中的原始顺序信息。该模型通过学习句子级别的有向边来表示文档中的信息流，同时利用词级别的顺序信息来编码实体对之间的最短路径。此外，本文还设计了一种自适应边距损失函数，来解决文档级RE任务中的长尾多标签问题，即一个实体对可能在一个文档中涉及到多种关系，而且有些关系比较常见。该损失函数能够有效地增加正负类之间的间隔。本文在多个领域的数据集上进行了实验，结果表明本文的方法具有很好的效果。

1 INTRODUCTION

关系抽取（RE）：从文本中识别并提取实体之间的语义关系。句子级RE：只关注单个句子内的实体关系。文档级RE（DocRE）：需要从多个句子中抽取实体关系。 DocRE面临的挑战1：

在一个文档中，同一个实体可能有多次提及，但并非所有的提及都与目标关系有关，这就要求RE模型能够筛选出文档中最相关的信息。
文档中的实体提及可能分布在不同的句子中，这就要求RE模型能够有效地捕捉长距离的语义信息。

目前应对挑战1的方法：

采用基于图的模型来表示文档，这些方法使用了双向边的规则图结构来传递特征，而忽视了原始文本中的序列特征。由于图结构的置换不变性，这些方法无法编码序列信息，这可能限制了文档级RE任务的性能。

DocRE面临的挑战2：

同一实体对在文档中可能涉及多个不同的关系，导致多标签的问题。

目前应对挑战2的方法：

将多标签问题拆分为多个二分类问题，根据预测概率是否超过一个全局阈值来确定是否赋予相应的标签。但是，这个全局阈值往往是基于经验或在验证集上调节的，可能并不适用于所有的情况。另外，多标签问题还存在一个常见的现象，就是标签的长尾分布。有些关系的训练样本很少，而有些关系的训练样本很多。基于常规概率分布的损失函数容易使模型对热门的关系过拟合，而对冷门的关系欠拟合。

本文提出了一种序列感知图文档级关系抽取模型（SagDRE），它能够利用原始文本的序列信息来进行文档级关系抽取。对于一个给定的文档，首先构建了一个带有有向边的序列感知图，用于表示文档中句子之间的序列关系。本文在图中添加了从前向后的有向边，连接每一句的根节点，并用注意力机制来学习边的权重。基于这样的图结构，本文使用图卷积神经网络和多头自注意力来编码文档的局部和全局特征。为了利用词级的序列信息，SagDRE在图上寻找从头实体到尾实体的条最短路径，并用原始的词序和一些辅助词来重建路径。然后，用LSTM来对路径进行编码，并用多头注意力层来对路径进行加权，从而突出重要的路径。最后，将路径编码和其他特征拼接起来，作为预测的输入。为了解决文档级关系抽取中的长尾多标签问题，本文提出了一种基于Hinge Loss的自适应边界损失函数。它的思想是为每一对实体之间的正类和负类学习一个分隔类。当一个样本被错误地分类或者分类在分隔类的边界附近时，就会触发自适应边界损失函数。通过这个损失函数的优化，可以通过分隔类来增加正类和负类之间的间隔。在实验部分，本文在三个来自不同领域的文档级关系抽取数据集上对SagDRE进行了评估。实验结果表明，SagDRE模型在所有数据集上都显著优于现有的最先进的模型。通过消融实验，发现自适应边界损失函数和序列组件是提高模型性能的关键因素。

2 RELATED WORK

基于BERT的方法：

Tang等人构建了一个分层推理网络，利用BERT的输出来从实体、句子和文档三个层面进行推理。
Ye等人在BERT的基础上引入了共指信息，以提升其共指推理的能力。
Zhou等人设计了一种自适应阈值损失函数，它能够动态地调整正负样本的划分阈值。

基于图的方法：

Sahu等人首次在文档级关系抽取任务中引入了图结构，它通过语言工具构建了包括共指边在内的各种边，从而捕获句间和句内的依赖关系，并使用图卷积神经网络进行特征学习。
Guo等人利用注意力机制来自动构建图中的边，并关注图中与关系推理相关的子结构。
Zeng等人提出了一种双图模型，分别构建提及级和实体级的图，来预测文档中的关系，而不是简单地使用词级的图。
Christopoulou等人构建了一个包含不同类型节点和边的图，并采用了一种面向边的图神经网络来进行文档级关系抽取。
Nan等人则应用了一种迭代细化策略来聚合多跳信息进行推理。
Zhou等人提出了一种全局上下文增强的图卷积网络，能够考虑全局上下文信息进行关系推理。

3 PRELIMINARY

3.1 Graph Convolutional Networks

给定一个图

，其中

和

分别表示图中的节点集和边集。每个节点

有一个特征向量

。邻接矩阵

用于表示图中的连接。图神经网络 (GNNs) 从图结构和节点特征中学习节点和图的特征表示。大多数现有的图神经网络遵循一种邻域聚合学习策略，即每个节点迭代地从其邻域聚合特征并更新其特征。特别地，对于图卷积网络 (GCN)，第

层的 GCN 定义为：

其中

是邻接矩阵，

是度矩阵，

是第

层的输入特征矩阵，

是可训练的参数矩阵，

表示一个激活函数。

3.2 Relation Extraction Task Formulation

文档级关系抽取的任务是这样定义的：给定一个包含

个句子

的文档

，以及文档中的一对实体

，其中

是头实体，

是尾实体，目标是预测这对实体在文档中的关系。这里预先定义了一组关系标签

，其中

是第

种关系。一个关系抽取模型应该根据文档的内容，为每对实体输出一个空集或者一个关系标签的子集。如果两个实体的任意一对提及之间存在某种关系，那么这两个实体就具有这种关系。在测试阶段，需要对文档中的所有实体对进行关系抽取。（详细见原文）

4 SAGDRE

4.1 Sequence-Aware Graph Construction

为了更好地捕捉DocRE任务中的长距离信息，现有的DocRE方法通常采用基于依赖解析器[4, 31]构建的无向图结构来表示文档图，从而增加了头尾实体对之间的连通性。然而，这种构建图的方式无法显式地反映语言序列信息，而且双向图的排列不变性特性使得捕捉文本中表达的序列信息更具挑战性。将文本中的原始序列信息进行编码是至关重要的，因为改变词的顺序或句子的顺序可能会导致一对实体之间的关系语义发生变化。如果忽略了文本中的序列信息，可能会对基于图的关系抽取模型的性能产生负面影响。 为了保持头尾实体对之间的高连通性，并有效地编码原始序列信息，本文提出了一种能够捕捉句子级序列信息的序列感知文档图。具体来说，给定一个文档，首先用一个编码器对文档中的每个词进行上下文特征编码：

其中

是文档中第

个句子的第

个词的词嵌入，

是同一个词的编码特征表示。这个编码器可以是预训练的 BERT 模型或 LSTM 模型。接下来，构建一个文档图，它由两类节点组成：词节点和实体节点。文档中的每个词都对应一个词节点，它的编码特征作为节点特征。文档中的每个实体都对应一个实体节点，它的节点特征由它的提及中的词的特征的平均值得到。图中有两类边：双向边和有向边。双向边来自三个来源：依赖句法树、相邻句子的根节点和实体-词关系。把文档中的每个句子输入到一个依赖解析器中，得到一个依赖句法树。在句法树中，每对相连的词之间都有一条双向边。然后，在相邻句子的依赖句法树的根节点之间也加上双向边，因为相邻句子之间有紧密的上下文关系。最后，在每个实体和它的提及中的词之间也加上双向边。在这个图中，双向边的权重都是1，表示节点之间有强连接。有向边用来捕获文档中的句子级序列信息。具体来说，在前面的句子根节点和后面的句子根节点之间加上前向边，因为文档中的信息通常是从前面的句子向后面的句子传播的。但是，并不是所有的句子都和前面的句子密切相关，所以使用一个注意力机制来自动学习给定任务下每对句子之间的紧密程度，并把得到的相似度分数作为这些有向边的权重。具体地，对于两个句子根节点

和

，根据它们的特征向量计算从节点

到节点

的有向边的权重

：

其中

和

是词

和

的编码。利用这些学习到的边的权重，关系抽取模型可以自动识别文档中从前面的句子到后面的句子的重要逻辑流。注意，如果

和

是相邻句子的根节点，那么

和

都是1，因为它们之间已经有一条双向边了。

4.2 Local and Global Feature Encoding

本文根据特征矩阵

和邻接矩阵

构建了文档图，然后从局部和全局两个层面提取图形特征。使用图卷积网络层 (GCN) 来对特征进行聚合和编码。GCN 层只能从相邻节点聚合信息，所以它得到的特征是局部特征编码，反映了局部上下文的信息。本文还在 GCN 编码得到的上下文嵌入上使用多头自注意力层。多头自注意力层能够对输入图中的所有节点进行注意力计算，所以它得到的特征是全局特征编码，反映了整个文档图的信息。将局部和全局的特征嵌入相加，得到图中每个节点的更新后的特征。将第