前言
时间知识图谱问答(TKGQA)是KBQA中一个关注时间问题的重要子任务。时间问题包含时间约束、需要时间标记的答案,反映了现实世界事件的动态和演变性质。
一、TKGQA
1.1 概述
-
时间知识图谱(TKG):
- 通常表示为 G = (E, R, T, F),其中 E、R、T 和 F 分别代表实体(entities)、关系(relations)、时间戳(timestamps)和事实(facts)。
- 一个时态事实 f ∈ F 由一个或多个实体、关系和相关的时间戳组成。
- 时态事实可以以多种形式表示,包括复合值类型(Compound Value Types,简称 CVTs)、三元组、n-元组、五元组和四元组。
-
时态问题(Temporal Question):
- 时态问题至少包含一个时态约束或需要时间戳作为答案。
- 时态约束涉及时态表达式和时态词的组合,为答案必须满足的特定时间点或时间间隔设置条件(例如,“在1996年”)。
- 时态表达式指的是具有不同粒度级别的自然语言中的时间点或时间间隔(例如,“2024年5月11日”)。
- 时态词表示时态表达式之间的时态关系,并作为触发词对答案施加约束(例如,“在”,“之后”或“期间”)。
-
时间知识图谱问答(TKGQA)任务:
给定时态知识图谱 G 和自然语言中的时态问题 q,TKGQA 任务的目标是使用 G 中的一组实体{ e | e ∈ E }或时间戳 {τ | τ ∈ T}来回答 q。
1.2 相关数据集
二、时间问题分类
作者们根据问题内容、答案类型和复杂性三个维度对时态问题进行了分类:
-
问题内容(Question Content):
-
时态粒度(Temporal Granularity):问题可以根据其时态表达式的粒度进行分类,常见的粒度包括“年”、“月”、“日”,其中“年”是最常见的。
-
时态表达式(Temporal Expression):
问题可以基于其时态表达式的性质被分类为显式的或隐式的。显式的时态表达式可以在不需要额外上下文的情况下标准化(例如,“2023年9月”可以标准化为2023-09)。而隐式的时态表达式,如事件名称或具有时态范围的短语(例如,“2024年巴黎奥运会”),需要上下文信息才能被标准化为特定的时间间隔。
-
时态约束(Temporal Constraints):
时态约束的类型反映了时态表达式之间的时态关系。作者简化了 Allen 的内部代数用于时态推理,将其归纳为六种关系类型:Before/After(之前/之后)、Equal(相等)、Overlap(重叠)、During/Include(期间/包含)、Start/End(开始/结束)、Ordinal(序数)。
-
时态约束组合(Temporal Constraints Composition):
当一个问题中存在多个时态约束时,就会发生时态约束的组合。例如,“谁是2005年第一个要求与多哥会面的?”这个问题结合了 Equal 类型的约束“在2005年”和 Ordinal 类型的约束“第一个”,答案必须同时满足这两个约束。
-
-
答案类型(Answer Type):
时态问题可能需要的答案类型可以是实体的集合或时间戳的集合,时间戳的粒度会根据具体问题而变化。答案类型由问题词引导,例如“谁”用于实体,“哪一年”用于时间戳。
-
复杂性(Complexity):
KBQA 任务中定义复杂问题为需要从多个事实中检索答案的问题。受这些工作启发,作者也根据复杂性对时态问题进行了分类,将时态问题分为简单和复杂两类。
- 简单问题(Simple questions):简单问题依赖于单一事实进行解答。例如,“2012年德国使用的货币是什么?”只需要检索一个事实 <德国, 货币, 欧元, 2012>。
- 复杂问题(Complex questions):复杂问题需要整合多个事实。例如,“奥巴马之前的美国总统是谁?”首先根据事实 <奥巴马, 美国总统, 2009, 2017> 建立时间约束“2009年之前”,然后系统识别出立即之前的个人,通过事实 <乔治·W·布什, 美国总统, 2001, 2009> 确认为乔治·W·布什,这种多步骤推理过程展示了这类问题的复杂性。
相关数据集覆盖情况
三、TKGQA方法
3.1 基于语义解析的方法(SP-based)
通常有四个步骤:
-
问题理解(Question Understanding):将自然语言问题转换为编码表示,以便于后续解析。例如,使用抽象意义表示(AMR)来捕捉时态词汇和隐式的时态约束。
-
逻辑解析(Logical Parsing):将编码的问题转换为未实例化的逻辑形式。这可能涉及到使用预定义的规则或模板来解析问题。
-
TKG 定位(TKG Grounding):通过TKG中的元素(实体、关系、时间戳)来定位未绑定的逻辑形式中的元素。
-
查询执行(Query Execution):执行定位后的逻辑形式,以从TKG中检索最终答案。一些方法在这一阶段进行时态推理。
3.2 基于时态知识图谱嵌入的方法(TKGE-based)
通常有三个步骤:
-
TKG 嵌入(TKG Embedding):生成TKG元素(实体和时间戳)的嵌入表示,并创建候选答案池。
-
问题嵌入(Question Embedding):分析时态问题的语义,并整合与时间相关的信息,以嵌入问题。
-
答案排序(Answer Ranking):基于问题和候选答案的嵌入表示,对候选答案进行排序。
3.3 方法对比
下表探讨了不同方法在处理简单和复杂问题时的表现,以及它们在处理显式和隐式时态表达、不同粒度的时态粒度、不同类型时态约束和组合时的能力。
四、Leaderboard
结论
该文章建立了一个关于时间问题分类体系,基于问题内容、答案类型和复杂性对问题进行分类。并现有方法分为两类:基于语义解析的方法和基于时间知识图谱嵌入的方法。
参考文献
- Temporal Knowledge Graph Question Answering: A Survey,https://arxiv.org/pdf/2406.14191