【略读论文|时序知识图谱补全】DREAM: Adaptive Reinforcement Learning based on Attention Mechanism for Temporal Know

标签：right based 补全 Temporal 语义奖励 mathcal 推理 left

会议：SIGIR，时间：2023，学校：苏州大学计算机科学与技术学院，澳大利亚昆士兰布里斯班大学信息技术与电气工程学院，Griffith大学金海岸信息通信技术学院

摘要：

原因：现在的时序知识图谱推理方法无法生成显式推理路径，缺乏可解释性。
方法迁移：由于强化学习 (RL) 用于传统知识图谱上的多跳推理开始在最近的进展中显示出卓越的可解释性和性能，它为探索 TKG 推理上的 RL 技术开辟了机会
性能限制：
1.缺乏联合捕获时间演化和语义依赖的能力
2.过度依赖手动设计的奖励
本文方法：一种基于意图机制 (DREAM) 的自适应强化模型
模型组件：
1.一个多方面的注意力表示学习方法，共同捕获语义依赖和时间演化
2.自适应 RL 框架，通过自适应地学习奖励函数来进行多跳推理

介绍：

推理侧重：外推，下面是外推的一个实例：通过利用历史和语义信息，可以推断出 (COVID-19, Occur, City Hall, 2022-12-6)。

方法迁移原因：RL的多跳推理在传统知识图谱上表现出来很强的性能，启发了可以在TKGR上运用此方法。典型地，TPath[2]、TAgent[48]、TITer[47]和CluSTeR[35]通过利用关系的符号组合和传输来学习多跳可解释路径。例如，通过连接 (COVID-19, Infect, Tom, 2022-12-3)、(Tom,Talk_to, Jack, 2022-12-4) 和 (Jack, Visit, City Hall, 2022-12-5)，基于 RL 的模型可以推理四元组 (COVID-19, Occur, City Hall, 2022-12-6)。
RL方法面临的挑战：
1.如何同时捕捉时间演化和语义依赖还没有被探索：
1）一些基于rl的TKGR方法[2,47,48]无法捕捉时间演化(即历史事件的动态影响)。CluSTeR：利用rnn捕捉有限历史信息，但是可伸缩性差并且需要大量训练数据。
2）现有的基于rl的TKGR方法在很大程度上忽略了语义依赖性。关注与查询关系高度相关的关系有利于减少推理过程中的语义噪声。
3）实体与其相邻实体之间的语义相关性往往与它们之间的距离呈负相关。有必要同时利用时间进化和语义依赖来提高推理性能。
2.上述基于强化学习的方法严重依赖于人工设计的奖励，这容易导致奖励困境稀疏，设计过程费力，性能波动大。
1）稀疏奖励困境。只考虑终端奖励导致的稀疏奖励导致学习缓慢甚至失败
2）设计过程繁琐。经验丰富的专家不断参与设计一些可能提高推理性能的候选辅助奖励，然后仔细选择最优奖励函数。这样的方法泛化性很低
3）性能波动。人工设计的功能难以平衡探索和开发，这必然会导致RL推理性能的波动和决策偏差。
本文的模型：
DREAM（一种基于注意力机制的自适应强化模型）
优势：
1.注意力机制，它比循环方法 [52] 更能将不同的历史信息整合到语义表示中
2.生成式对抗性模仿学习，它从专家演示中自适应地学习策略
本文的模型不仅优雅地捕获了时间演化和语义依赖性，而且还通过具有自适应奖励函数的新型自适应强化学习框架进行多跳推理。
组件1：一种多方面注意表示(MFAR)方法来保留tkg的语义和时间属性。它的关系感知衰减图注意模块从多跳实体和关系中挖掘TKGs的语义依赖性。时间自注意力模块通过灵活加权历史上下文来捕获多个时间步长的演化。
组件2：一个基于生成对抗性模仿学习的自适应强化学习框架（ARLF）。ARLF 的目标是通过在语义规则级别和时间规则级别学习自适应奖励来预测缺失的元素。

相关工作：

外推的方法：
一些研究[19,20,50,51]采用时间点过程或连续时间动态嵌入来估计连续时间的条件概率。然而，这些方法不能充分利用结构信息[36]。通过整合卷积网络和课程学习，CEN解决了结构可变性演化模式[33]的挑战。此外，RE-NET [24] 和 RE-GCN [36] 利用 RNN 来学习不同时间戳下的历史属性。类似地，TiRGN [32] 和 HiSMatch [34] 分别采用 RNN 和结构编码器来学习历史模式。尽管如此，由于 RNN [28] 的限制，这些 TKGR 方法不仅未能联合捕获时间演化和语义依赖性，而且规模也很差。
另一类基于 RL 的 TKGR 方法与我们的工作最相关，它在缺乏多方面表示的情况下输出可解释的预测结果。形式上，基于 RL 的 TKGR 方法将 TKGR 视为马尔可夫决策过程，旨在学习推断 TKG 中缺失元素的最优策略。具体来说，TAgent[48]只采用二进制终端奖励进行TKGR，使其无法获得足够的奖励[49]。为了进一步提高奖励函数的质量，TPath [2] 和 TITer [47] 分别添加了路径多样性奖励和时间形状奖励。CluSTeR 使用 RNN 来学习结构信息并将信息集成到波束级奖励函数 [35] 中。然而，这些模型的性能依赖于手动设计的奖励，因此由于奖励困境稀疏、设计过程费力和性能波动而受到限制。尽管基于图的 xERTE [18] 和基于规则的 TLogic [39] 也进行了可解释的推理，但它们的推理性能通常低于基于 RL 的 SOTA 推理模型。
RL算法：
RL算法利用agent从环境中获取奖励，并通过马尔可夫决策过程(Markov decision process, MDP)优化策略。其中一个重要步骤是设计奖励函数，但是由人设计的奖励函数泛化性太低，所以为了解决上述问题，逆强化学习(IRL)试图自适应地从专家示例中学习奖励函数。
要解决的问题：
和之前类似，都是解决预测实体的问题，TKG的四元组的表达方式为（es,rq,ed,tq）

模型方法：

模型简介：

基于rl的推理器在向其提供表示后输出推理路径。然后，采样器通过双向采样获得演示路径。然后，鉴别器为推理器产生自适应奖励。最后，该推理器更新推理策略并与TKG交互以完成预测

多方面注意力表征：

现有方法无法同时捕获时间演变和语义依赖，这限制了时间数据的利用。为了解决上述问题，本文引入了一种多面注意力表示方法MFAR。MFAR联合学习多跳邻居的实体特征和关系特征，并通过灵活加权历史事件来捕捉潜在的时间演化。
值得注意的是，在TKGR领域，与现有的表征学习方法的技术差异在于以下两点：
1.本文通过计算多跳邻域内的实体和关系来扩展图注意网络(GAT)，GAT只关注一跳邻域内的实体特征。此外，与传统KG基于关系感知图网络的嵌入方法比较，本文方法不仅引入了一种衰减机制来模拟多跳实体的贡献下降，而且计算代价更低。原理为MFAR通过对关系路径的嵌入求和来直接关联多跳邻居，而不是增加网络层的数量或引入代数空间。
2.本文通过学习注意权值而不是使用不可扩展的循环方法[52]，从更大范围的先前时间戳中捕获推理线索。原理是MFAR将图注意和时间注意解耦为独立的模块，即关系感知衰减图注意力(RAGA)和时间自注意网络(TSAN)。两个模块协同工作，在获得所有实体和关系的静态表示后，RAGA 通过每个时间戳中的衰减机制提取多跳邻域信息。然后，TSAN 捕获远程时间演化并取决于每个实体的历史信息。这种设计模式提高了并行性。

关系感知的衰减图注意力（RAGA）：

原方法：无法利用事件三元组的不同语义。更糟糕的是，现有的方法由于忽略了语义衰减，在推理过程中引入了噪声。
我们的解决方法，提出RAGA。RAGA的输入是\({\mathcal{G}_t(t<t_q)}\)，其包含一组实体表示\({\left\{ e_i\in \mathbb{R} ^D,\forall e_i\in \mathcal{E} \right\}}\)和关系表示\({\left\{ r_i\in \mathbb{R} ^{F\prime},\forall r_i\in \mathcal{R} \right\}}\)。输出是一组新的实体表示\({\left\{ e_{i}^{s}\in \mathbb{R} ^{D^\prime_e},\forall e_i\in \mathcal{E} \right\}}\)维度为\({D^\prime_e}\)，它完全捕获了G

标签：right,based,补全,Temporal,语义,奖励,mathcal,推理,left
From： https://www.cnblogs.com/csqh/p/17846378.html