祝振赫,武虹,高洁,等.融合外部知识的生成式实体关系联合抽取方法[J].计算机技术与发展,2023,33(08):124-130.
引言
- 基于传统的机器学习的关系抽取方法主要通过领域专家制定实体关系范式,通过统计和规则等方式进行抽取。
- 许多经典的关系抽取方法都是使用监督学习来获得较好的性能表现,因为监督学习能够更有效地让模型抽取到特征,从而提高准确率和召回率。
- 但在特定领域,由于难以获取大规模标注数据,而通常使用基于启发式规则的无监督方法和远程监督等半监督方法。
相关工作
- 关系抽取任务从领域上可分为限定域关系抽取(事先确定关系类别)和开放域关系抽取(直接从原文中抽取关系),其区别在于是否对关系类别进行制定。
- 基于深度学习的关系抽取方法主要分为流水线式抽取方法和联合式抽取方法两种。
- 流水线式方法一般是先对文本进行命名实体识别,找出文本中所有的命名实体,然后再将这些命名实体两两配对进行关系分类。(适用于限定域;其关系预测阶段是个多分类任务;可能存在传播误差)
- 联合抽取方法是同时完成实体和实体间关系的抽取任务,通过利用实体和关系的关联信息来提高模型性能。
关系抽取方法的整体架构
- 该文所面对的从网页文本中抽取所有可能实体关系这一任务的整体架构如图1所示。
多源关系抽取模型结构
- 基础模型选用经典的seq2seq模型transformer。
- 在transformer原有的编码器上增加一个知识编码器,同样使用自注意力机制对引入的知识进行编码,从而获得文本中的局部知识信息。
- 将文本编码和知识编码一同送入解码器中。在解码器增加一个解码知识的注意力层,用于解码出更类似引入知识的三元组,从而达到对知识的学习。
- 知识提取器:通过使用规则从文本中抽取实体关系元组以及根据表格信息匹配对应句子等方法获取和该句子有关的局部知识,作为输入模型的额外知识信息。
- 文本编码器:输入为句子X,通过词嵌入和位置编码操作后得到句子嵌入Ex,再输入文本编码器后得到输入句子的上下文向量Hx。
- 知识编码器:对知识提取器得到的和句子相关的知识进行特殊标记处理拼接后形成知识序列K,通过词嵌入和位置编码操作得到知识嵌入Ek。输入知识编码器后得到知识的上下文向量Hk。
- 解码器:在解码阶段首先将目标三元组序列T作为解码器的输入,同样经过词嵌入和位置编码后得到目标元组序列嵌入ET。在注意力层将ET经过自注意力机制得到的目标序列隐层状态HT,先后与Hx和Hk计算交叉注意力,得到融合知识后的解码器输出的隐藏层状态Ho。将Ho经过线形层和softmax计算得到输出单词的概率P。
训练方式
- 首先使用纯文本和所有抽取出的实体关系三元组作为编码器和解码器的输入单独训练一个Transformer模型,并在训练好之后将各层参数固定。再用纯文本和部分抽取实体作为模型编码器输入,所有实体关系三元组作为解码器输入进行训练,训练过程中仅更新知识编码器以及目标三元组和知识交叉注意力模块的参数。
目标函数
- 根据给定输入句子X、外部知识K以及用标注数据训练得到的Transformer参数θX来生成目标序列Y,采用最大似然估计,提升真实样本Y的似然概率。
实验部分
- 数据集:
- 通用百科领域的数据集SpanSAOKE,该数据集是中文开放域信息抽取的大规模句子级数据集,其中每个句子都是人工标记的,并采用统一的知识表示格式来表达句子中所包含的事实。
- 另一个是采招网上的标书网页文本共获取了20951篇。 根据需求及对标书格式的认知制定一系列规则对标书内容进行抽取,实体类别包括招标方名称、供应商名称、招标代理机构名称、预算金额、产品名称等24种类别。
- 评价指标:
- 实验使用F1值作为评价指标,并采用涂飞明等人在实验中所用的两种计算方式。
- 完全匹配:
(精确匹配度)
对于抽取出的关系三元组,只有当预测的头实体、尾实体及实体间关系完全和标准答案相同时才算是一个正确的抽取结果。 - 最长公共子串:
(模糊匹配度)
首先得到预测结果与标准答案的最长公共子串(LCS),根据LCS的长度和标准答案的长度计算召回率(R),根据LCS的长度和预测结果的长度计算精确率(P),再由R和P计算F1,如公式,然后同样取全部数据均值。