~2011
1. Cross-Language Entity Linking
文章核心观点:
本文介绍了一种新的跨语言实体链接任务,旨在将不同语言的文档中的命名实体与英文知识库中的实体描述进行匹配。作者提出了一种利用统计音译和跨语言信息检索的方法来解决这一任务,并在21种语言上进行了实验验证。实验结果显示,该方法平均性能可以达到英文单语言基线的94%,在个别语言上性能介于86%到99%之间。此外,文章还探讨了训练数据量对分类器性能的影响,以及利用相关语言进行训练的可行性。总体来说,本文为跨语言实体链接任务提供了有效的解决思路和实验验证。
方法:
- 候选识别:使用快速的名称匹配技术从知识库中识别出可能对应输入实体的知识库节点。具体技术包括:查询名称与候选名称的精确匹配、已知别名或昵称查找、查询与候选之间的字符4-gram数量、以及查询与候选之间IDF加权词的数量。
- 候选排名:使用监督机器学习对每个候选进行打分,并选择得分最高的一个作为输出。特征函数基于查询的内在属性、知识库候选的内在属性以及查询与候选之间的比较。
- 跨语言候选识别:先将查询名称翻译成英文,然后应用单语言的英文启发式方法。
- 上下文匹配:将跨语言上下文匹配视为跨语言信息检索问题,使用概率结构化查询方法。对维基百科文章进行索引,学习平行文本中的单词翻译概率,并实现概率结构化查询。
- 关系特征:将知识库中的事实作为“文档”,与查询文档计算文档相似度。
- 命名实体特征:对查询文档进行命名实体识别,并从输出中创建特征。
- 实体类型特征:检查知识库实体的类型是否与查询一致。
- 无匹配特征:一些特征可以指示是否存在匹配的知识库条目。
使用支持向量机进行排名学习。
方法补充:我们使用平行文档集合和众包来生成其他语言中的地面真实情况。我们工作所基于的一个基本见解是,如果我们使用平行文本集合的英文部分构建一个实体链接测试集,我们可以利用为英文特别开发现成的注释者和工具,然后将英文结果投影到其他语言上。因此,我们应用英文NER在文本中找到人名(Ratinov和Roth,2009),我们的英文实体链接系统识别候选实体ID,以及亚马逊Mechanical Turk上的英文注释者选择每个名称的正确kbid。最后,我们使用在伯克利词对齐器(Haghighi等人,2009)中实现的标准统计词对齐技术,将英文名称提及映射到非英文文档中的相应名称。
转移范例:标签
转移资源:翻译,词对齐
评估语言:en +(见下图)
评估数据集:TAC-KBP 2010,self-generated
2012~2018
X. SemEval-2015 Task 13: Multilingual All-Words Sense Disambiguation and Entity Linking
在这篇论文中,我们描述了在SemEval 2015任务13:多语言词义消歧中的组织和所获得的结果。我们对结果的分析揭示了WSD(词义消歧)和EL(实体链接)任务整合中的有趣方面,例如语义签名、PPR(个性化页面排名)和用于名词和命名实体消歧的相似性度量的效用,以及用于动词、形容词和副词消歧的Lesk基础度量。另一个从这项任务中出现的有趣结果是,监督方法很难在多语言环境中泛化。实际上,参加这项任务的监督系统只考虑了英语。此外,这项任务再次确认了WordNet首感启发式方法是一个难以击败的硬基线。不幸的是,没有特定领域的消歧系统参加这项任务。然而,在生物医学领域,参与系统的表演质量比在其他考虑的领域中更高。
作为未来的研究方向,我们希望继续探究这一新联合任务的性质,并集中研究命名实体消歧和词义消歧之间的区别,特别关注非欧洲语言。
2. Cross-lingual wikification using multilingual embeddings
核心观点:
方法:
- 单语言嵌入学习:利用Skip-Gram模型为每种语言学习词和标题的嵌入。
- 多语言嵌入学习:利用CCA方法将不同语言的嵌入投影到同一空间,其中使用维基百科标题的跨语言链接作为词典。
- 候选生成:基于外语维基百科的锚文本和英语标题链接构建索引,为提及生成候选标题。
4.3 候选排名:使用多语言嵌入计算提及和候选标题之间的相似度特征,训练一个排名模型输出最终分数。
选择最佳候选:选择具有最高相关分数的候选标题作为答案,如果无适当候选,则输出NIL。 - 实验验证:在12种语言的维基百科数据集和TAC KBP2015实体链接数据集上验证该方法的有效性。
转移范例:参数
转移资源:multilingual word embeddings,Wikipedia
评估语言:
评估数据集:TAC KBP2015,self-generated
不足:难以处理目标语言的实体提及有相应英文页面但没有本页面的情况。
相关工作:略
待补充:CCA方法。