首页 > 其他分享 >《SagDRE: Sequence-Aware Graph-Based Document-Level Relation Extraction with Adaptive Margin Loss》论文阅

《SagDRE: Sequence-Aware Graph-Based Document-Level Relation Extraction with Adaptive Margin Loss》论文阅

时间:2024-02-15 21:22:24浏览次数:39  
标签:关系 Loss Based Sequence 模型 实体 文档 SagDRE 本文

代码

原文地址

关键参考文献:

  1. Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling

摘要

关系抽取(RE)是许多自然语言处理应用的重要任务,它的目标是从文档中抽取出实体之间的关系。文档级RE任务面临着许多挑战,因为它不仅需要跨句子进行推理,还要处理同一文档中存在的多种关系。为了更好地捕捉文档中的长距离相关性,现有的最先进的文档级RE模型都采用了图结构。本文提出了一种新的文档级RE模型,名为SagDRE,它能够有效地利用文本中的原始顺序信息。该模型通过学习句子级别的有向边来表示文档中的信息流,同时利用词级别的顺序信息来编码实体对之间的最短路径。此外,本文还设计了一种自适应边距损失函数,来解决文档级RE任务中的长尾多标签问题,即一个实体对可能在一个文档中涉及到多种关系,而且有些关系比较常见。该损失函数能够有效地增加正负类之间的间隔。本文在多个领域的数据集上进行了实验,结果表明本文的方法具有很好的效果。

1 INTRODUCTION

关系抽取(RE):从文本中识别并提取实体之间的语义关系。 句子级RE:只关注单个句子内的实体关系。 文档级RE(DocRE):需要从多个句子中抽取实体关系。   DocRE面临的挑战1:
  • 在一个文档中,同一个实体可能有多次提及,但并非所有的提及都与目标关系有关,这就要求RE模型能够筛选出文档中最相关的信息。
  • 文档中的实体提及可能分布在不同的句子中,这就要求RE模型能够有效地捕捉长距离的语义信息。
  目前应对挑战1的方法:
  1. 采用基于图的模型来表示文档,这些方法使用了双向边的规则图结构来传递特征,而忽视了原始文本中的序列特征。由于图结构的置换不变性,这些方法无法编码序列信息,这可能限制了文档级RE任务的性能。
  DocRE面临的挑战2:
  • 同一实体对在文档中可能涉及多个不同的关系,导致多标签的问题。
  目前应对挑战2的方法:
  1. 将多标签问题拆分为多个二分类问题,根据预测概率是否超过一个全局阈值来确定是否赋予相应的标签。但是,这个全局阈值往往是基于经验或在验证集上调节的,可能并不适用于所有的情况。另外,多标签问题还存在一个常见的现象,就是标签的长尾分布。有些关系的训练样本很少,而有些关系的训练样本很多。基于常规概率分布的损失函数容易使模型对热门的关系过拟合,而对冷门的关系欠拟合。
  本文提出了一种序列感知图文档级关系抽取模型(SagDRE),它能够利用原始文本的序列信息来进行文档级关系抽取。对于一个给定的文档,首先构建了一个带有有向边的序列感知图,用于表示文档中句子之间的序列关系。本文在图中添加了从前向后的有向边,连接每一句的根节点,并用注意力机制来学习边的权重。基于这样的图结构,本文使用图卷积神经网络和多头自注意力来编码文档的局部和全局特征。为了利用词级的序列信息,SagDRE在图上寻找从头实体到尾实体的条最短路径,并用原始的词序和一些辅助词来重建路径。然后,用LSTM来对路径进行编码,并用多头注意力层来对路径进行加权,从而突出重要的路径。最后,将路径编码和其他特征拼接起来,作为预测的输入。为了解决文档级关系抽取中的长尾多标签问题,本文提出了一种基于Hinge Loss的自适应边界损失函数。它的思想是为每一对实体之间的正类和负类学习一个分隔类。当一个样本被错误地分类或者分类在分隔类的边界附近时,就会触发自适应边界损失函数。通过这个损失函数的优化,可以通过分隔类来增加正类和负类之间的间隔。   在实验部分,本文在三个来自不同领域的文档级关系抽取数据集上对SagDRE进行了评估。实验结果表明,SagDRE模型在所有数据集上都显著优于现有的最先进的模型。通过消融实验,发现自适应边界损失函数和序列组件是提高模型性能的关键因素。

2 RELATED WORK

基于BERT的方法:
  1. Tang等人构建了一个分层推理网络,利用BERT的输出来从实体、句子和文档三个层面进行推理。
  2. Ye等人在BERT的基础上引入了共指信息,以提升其共指推理的能力。
  3. Zhou等人设计了一种自适应阈值损失函数,它能够动态地调整正负样本的划分阈值。
  基于图的方法:
  1. Sahu等人首次在文档级关系抽取任务中引入了图结构,它通过语言工具构建了包括共指边在内的各种边,从而捕获句间和句内的依赖关系,并使用图卷积神经网络进行特征学习。
  2. Guo等人利用注意力机制来自动构建图中的边,并关注图中与关系推理相关的子结构。
  3. Zeng等人提出了一种双图模型,分别构建提及级和实体级的图,来预测文档中的关系,而不是简单地使用词级的图。
  4. Christopoulou等人构建了一个包含不同类型节点和边的图,并采用了一种面向边的图神经网络来进行文档级关系抽取。
  5. Nan等人则应用了一种迭代细化策略来聚合多跳信息进行推理。
  6. Zhou等人提出了一种全局上下文增强的图卷积网络,能够考虑全局上下文信息进行关系推理。

3 PRELIMINARY

3.1 Graph Convolutional Networks

给定一个图,其中分别表示图中的节点集和边集。每个节点有一个特征向量。邻接矩阵用于表示图中的连接。图神经网络 (GNNs) 从图结构和节点特征中学习节点和图的特征表示。大多数现有的图神经网络遵循一种邻域聚合学习策略,即每个节点迭代地从其邻域聚合特征并更新其特征。特别地,对于图卷积网络 (GCN),第层的 GCN 定义为: 其中是邻接矩阵,是度矩阵,是第层的输入特征矩阵,是可训练的参数矩阵,表示一个激活函数。

3.2 Relation Extraction Task Formulation

文档级关系抽取的任务是这样定义的:给定一个包含个句子的文档,以及文档中的一对实体,其中是头实体,是尾实体,目标是预测这对实体在文档中的关系。这里预先定义了一组关系标签,其中是第种关系。一个关系抽取模型应该根据文档的内容,为每对实体输出一个空集或者一个关系标签的子集。如果两个实体的任意一对提及之间存在某种关系,那么这两个实体就具有这种关系。在测试阶段,需要对文档中的所有实体对进行关系抽取。(详细见原文)

4 SAGDRE

4.1 Sequence-Aware Graph Construction

为了更好地捕捉DocRE任务中的长距离信息,现有的DocRE方法通常采用基于依赖解析器[4, 31]构建的无向图结构来表示文档图,从而增加了头尾实体对之间的连通性。然而,这种构建图的方式无法显式地反映语言序列信息,而且双向图的排列不变性特性使得捕捉文本中表达的序列信息更具挑战性。   将文本中的原始序列信息进行编码是至关重要的,因为改变词的顺序或句子的顺序可能会导致一对实体之间的关系语义发生变化。如果忽略了文本中的序列信息,可能会对基于图的关系抽取模型的性能产生负面影响。   为了保持头尾实体对之间的高连通性,并有效地编码原始序列信息,本文提出了一种能够捕捉句子级序列信息的序列感知文档图。具体来说,给定一个文档,首先用一个编码器对文档中的每个词进行上下文特征编码: 其中是文档中第个句子的第个词的词嵌入,是同一个词的编码特征表示。这个编码器可以是预训练的 BERT 模型或 LSTM 模型。   接下来,构建一个文档图,它由两类节点组成:词节点和实体节点。文档中的每个词都对应一个词节点,它的编码特征作为节点特征。文档中的每个实体都对应一个实体节点,它的节点特征由它的提及中的词的特征的平均值得到。   图中有两类边:双向边和有向边。双向边来自三个来源:依赖句法树、相邻句子的根节点和实体-词关系。把文档中的每个句子输入到一个依赖解析器中,得到一个依赖句法树。在句法树中,每对相连的词之间都有一条双向边。然后,在相邻句子的依赖句法树的根节点之间也加上双向边,因为相邻句子之间有紧密的上下文关系。最后,在每个实体和它的提及中的词之间也加上双向边。在这个图中,双向边的权重都是1,表示节点之间有强连接。   有向边用来捕获文档中的句子级序列信息。具体来说,在前面的句子根节点和后面的句子根节点之间加上前向边,因为文档中的信息通常是从前面的句子向后面的句子传播的。但是,并不是所有的句子都和前面的句子密切相关,所以使用一个注意力机制来自动学习给定任务下每对句子之间的紧密程度,并把得到的相似度分数作为这些有向边的权重。 具体地,对于两个句子根节点 ,根据它们的特征向量计算从节点 到节点 的有向边的权重 其中 是词的编码。利用这些学习到的边的权重,关系抽取模型可以自动识别文档中从前面的句子到后面的句子的重要逻辑流。注意,如果是相邻句子的根节点,那么 都是1,因为它们之间已经有一条双向边了。

4.2 Local and Global Feature Encoding

本文根据特征矩阵 和邻接矩阵构建了文档图,然后从局部和全局两个层面提取图形特征。使用图卷积网络层 (GCN)  来对特征进行聚合和编码。GCN 层只能从相邻节点聚合信息,所以它得到的特征是局部特征编码,反映了局部上下文的信息。本文还在 GCN 编码得到的上下文嵌入上使用多头自注意力层 。多头自注意力层能够对输入图中的所有节点进行注意力计算,所以它得到的特征是全局特征编码,反映了整个文档图的信息。将局部和全局的特征嵌入相加,得到图中每个节点的更新后的特征。将第层的局部和全局特征提取过程公式化为:   其中 是第层的输入特征矩阵,是可训练的权重。分别表示一个 GCN 层和一个注意力层。

4.3 Sequence-Aware Path Encoding

为了解决文档图中实体之间距离过长和信息不相关的问题,本文提出了一种基于顺序感知路径的编码方法,能够有效地捕捉实体关系的推理信息。给定一个图和一对实体,首先从的图中选择前条最短路径作为候选路径,定义第条最短路径为,其中,表示第条最短路径上的第个节点。然后,在每条候选路径上为每个节点添加附加词节点,以丰富路径的信息量,得到扩充后的路径。接着,按照文本中的原始顺序对每条扩充后的路径上的节点进行排序,得到顺序感知路径。为了编码顺序感知路径的特征,本文应用一个方向 LSTM 层,并用一个最大池化层来获得每条路径的特征表示: 其中,表示中第个节点的LSTM的隐藏层表示。 由于并非所有路径都包含用于关系推理的相关信息,因此本文在

标签:关系,Loss,Based,Sequence,模型,实体,文档,SagDRE,本文
From: https://www.cnblogs.com/best-doraemon/p/18016621

相关文章

  • CF1928E Modular Sequence
    原题链接设\(p=x\bmody\)。思考发现本质是\(x,x+y,x+2y,\cdots,x+k_1y,p,p+y,p+2y,\cdots,p+k_2y,p,p+y,p+2y,\cdots,p+k_3y\cdots\),即每次二操作会使\(y\)的系数变为\(0\)。枚举第\(i\)次操作是第一次二操作,记\(s_1=s-(i\timesx+y\times\dfrac{i(i-1)}{2}+(n-i)\time......
  • AT_abc270_g [ABC270G] Sequence in mod P 题解
    题目传送门前置知识大步小步算法解法递推式为\(x_{n}=(ax_{n-1}+b)\bmodp\),发现可以统一消去\(\bmodp\),只在最后参与计算。以下过程省去模运算。当\(x_{0}=t\)时,则\(n=0\)即为所求。当\(a=0,x_{0}\net\)时,递推式转化为\(x_{n}=b\bmodp\)。若\(b=t\),则......
  • 读论文-基于会话的推荐系统综述(A survey on session-based recommender systems)
    前言今天读的论文是一篇于2021年发表于"ACMComputingSurveys(CSUR)"的论文,文章写到,推荐系统在信息过载时代和数字化经济中非常重要。基于会话的推荐系统(SBRSs)是新的推荐系统范式,不同于其他模型化长期静态用户偏好的推荐系统,SBRSs专注于捕捉短期动态用户偏好。尽管SBRSs已被深......
  • CF1922E Increasing Subsequences 题解
    解题思路因为可以有空集,那么我们首先构造第一段最长的连续上升的序列,那么这段序列中共有\(2^{\mids\mid}\)个上升子序列。接下来我们考虑补全剩余的,我们不妨将剩余的部分全部设为连续不增序列,那么设当前位置在第一段中有\(k\)个小于它的,那么添加这个数后可以增加\(2^{k-1}......
  • ABC240Ex Sequence of Substrings
    题意简述有长度为\(n\)的01串,你现在要选出\(k\)个两两无交子串,使得将\(k\)个子串按照出现位置排序后,后者的字典序严格比前者大。最大化\(k\)。\(\bm{n\le2\times10^4}\)。分析首先的首先观察数据范围可知此题应该是个线性根号对数的时间复杂度首先有个显然的\(O(n......
  • Bounds checking strategy - mprotect()-based protection - why does not saturate t
    Boundscheckingstrategy-mprotect()-basedprotection-DoesnotsaturatetheCPUlikeothermechanismsSourceSzewczyk,R.,Stonehouse,K.,Barbalace,A.,&Spink,T.(2022).Leapsandbounds:AnalyzingWebAssembly’sperformancewithafocusonboun......
  • [AGC024E] Sequence Growing Hard 题解
    题目链接点击打开链接题目解法考虑如何添加数,使得\(\{a_1,...,a_i\}\)到\(\{a_1,...,x,a_j,...,a_i\}\)是合法的需要手玩一会才能发现合法条件很简单:\(x>a_j\)考虑对这个进行计数一个一个添元素是难维护的,现在假设有最终的序列,每个位置有\((v,dfn)\),分别为值和添加的次......
  • 传统Item-Based协同过滤推荐算法改进
    前言今天要读的论文为一篇于2009年10月15日发表在《计算机研究与发展》的一篇会议论文,论文针对只根据相似性无法找到准确可靠的最近邻这个问题,提出了结合项目近部等级与相似性求取最近邻的新方法;此外针对系统中新加入的项目,因为其上评分信息的匾乏,求得的最近邻往往是不准确的,为此......
  • CF1924D Balanced Subsequences
    题意简述有\(n\)个左括号和\(m\)个右括号,求最长合法括号子序列长度为\(2k\)的括号序列的数量,对\(10^9+7\)取模。多组数据。\(T\le3\times10^3,n,m,k\le2\times10^3\)分析可能需要的前置知识:如何求一个字符串的最长合法括号子序列?维护一个括号栈,若遇到左括号则直接......
  • 详解Smooth_L1_Loss函数的计算方式
    详解SmoothL1Loss函数的计算方式在深度学习中,SmoothL1Loss函数是一种用于回归任务的损失函数。它在一定程度上克服了均方误差(MSE)损失函数的局限性,特别适用于处理离群值。简介SmoothL1Loss函数是HuberLoss的一种近似形式。它通过引入平滑因子,使损失函数在离群值附近呈现鲁棒......