首页 > 其他分享 >【论文笔记-44~】多语言实体链接

【论文笔记-44~】多语言实体链接

时间:2024-05-14 22:30:15浏览次数:31  
标签:候选 语言 44 实体 笔记 消歧 英文 链接

~2011

1. Cross-Language Entity Linking

文章核心观点:
本文介绍了一种新的跨语言实体链接任务,旨在将不同语言的文档中的命名实体与英文知识库中的实体描述进行匹配。作者提出了一种利用统计音译和跨语言信息检索的方法来解决这一任务,并在21种语言上进行了实验验证。实验结果显示,该方法平均性能可以达到英文单语言基线的94%,在个别语言上性能介于86%到99%之间。此外,文章还探讨了训练数据量对分类器性能的影响,以及利用相关语言进行训练的可行性。总体来说,本文为跨语言实体链接任务提供了有效的解决思路和实验验证。

方法:

  1. 候选识别:使用快速的名称匹配技术从知识库中识别出可能对应输入实体的知识库节点。具体技术包括:查询名称与候选名称的精确匹配、已知别名或昵称查找、查询与候选之间的字符4-gram数量、以及查询与候选之间IDF加权词的数量。
  2. 候选排名:使用监督机器学习对每个候选进行打分,并选择得分最高的一个作为输出。特征函数基于查询的内在属性、知识库候选的内在属性以及查询与候选之间的比较。
  3. 跨语言候选识别:先将查询名称翻译成英文,然后应用单语言的英文启发式方法。
  4. 上下文匹配:将跨语言上下文匹配视为跨语言信息检索问题,使用概率结构化查询方法。对维基百科文章进行索引,学习平行文本中的单词翻译概率,并实现概率结构化查询。
  5. 关系特征:将知识库中的事实作为“文档”,与查询文档计算文档相似度。
  6. 命名实体特征:对查询文档进行命名实体识别,并从输出中创建特征。
  7. 实体类型特征:检查知识库实体的类型是否与查询一致。
  8. 无匹配特征:一些特征可以指示是否存在匹配的知识库条目。
    使用支持向量机进行排名学习。

方法补充:我们使用平行文档集合和众包来生成其他语言中的地面真实情况。我们工作所基于的一个基本见解是,如果我们使用平行文本集合的英文部分构建一个实体链接测试集,我们可以利用为英文特别开发现成的注释者和工具,然后将英文结果投影到其他语言上。因此,我们应用英文NER在文本中找到人名(Ratinov和Roth,2009),我们的英文实体链接系统识别候选实体ID,以及亚马逊Mechanical Turk上的英文注释者选择每个名称的正确kbid。最后,我们使用在伯克利词对齐器(Haghighi等人,2009)中实现的标准统计词对齐技术,将英文名称提及映射到非英文文档中的相应名称。

转移范例:标签
转移资源:翻译,词对齐
评估语言:en +(见下图)

评估数据集:TAC-KBP 2010,self-generated

2012~2018

X. SemEval-2015 Task 13: Multilingual All-Words Sense Disambiguation and Entity Linking

在这篇论文中,我们描述了在SemEval 2015任务13:多语言词义消歧中的组织和所获得的结果。我们对结果的分析揭示了WSD(词义消歧)和EL(实体链接)任务整合中的有趣方面,例如语义签名、PPR(个性化页面排名)和用于名词和命名实体消歧的相似性度量的效用,以及用于动词、形容词和副词消歧的Lesk基础度量。另一个从这项任务中出现的有趣结果是,监督方法很难在多语言环境中泛化。实际上,参加这项任务的监督系统只考虑了英语。此外,这项任务再次确认了WordNet首感启发式方法是一个难以击败的硬基线。不幸的是,没有特定领域的消歧系统参加这项任务。然而,在生物医学领域,参与系统的表演质量比在其他考虑的领域中更高。
作为未来的研究方向,我们希望继续探究这一新联合任务的性质,并集中研究命名实体消歧和词义消歧之间的区别,特别关注非欧洲语言。

2. Cross-lingual wikification using multilingual embeddings

核心观点:
方法:

  1. 单语言嵌入学习:利用Skip-Gram模型为每种语言学习词和标题的嵌入。
  2. 多语言嵌入学习:利用CCA方法将不同语言的嵌入投影到同一空间,其中使用维基百科标题的跨语言链接作为词典。
  3. 候选生成:基于外语维基百科的锚文本和英语标题链接构建索引,为提及生成候选标题。
    4.3 候选排名:使用多语言嵌入计算提及和候选标题之间的相似度特征,训练一个排名模型输出最终分数。
    选择最佳候选:选择具有最高相关分数的候选标题作为答案,如果无适当候选,则输出NIL。
  4. 实验验证:在12种语言的维基百科数据集和TAC KBP2015实体链接数据集上验证该方法的有效性。

转移范例:参数
转移资源:multilingual word embeddings,Wikipedia
评估语言:
评估数据集:TAC KBP2015,self-generated

不足:难以处理目标语言的实体提及有相应英文页面但没有本页面的情况。
相关工作:略

待补充:CCA方法。

MAG: A multilingual, knowledge-base agnostic and deterministic entity linking approach

标签:候选,语言,44,实体,笔记,消歧,英文,链接
From: https://www.cnblogs.com/Chen0495/p/18189011

相关文章

  • r3 mini 折腾笔记
     刷机相关  先切换到nand开机下恢复原厂固件echo0>/sys/block/mmcblk0boot0/force_roddif=bl2_emmc-r3mini.imgof=/dev/mmcblk0boot0ddif=mtk-bpi-r3mini-EMMC-20230719.imgof=/dev/mmcblk0成功后刷入im固件ddif=gpt.binof=/dev/mmcblk0bs=512seek=0count=34......
  • 《Linux内核完全注释》学习笔记:2.1 Linux内核模式和体系结构
    2.1Linux内核模式和体系结构操作系统主要由4部分组成:硬件、操作系统内核、操作系统服务用户应用程序图2-1操作系统组成部分用户应用程序:指那些字处理程序、互联网浏览器程序或用户自行编制的各种应用程序;操作系统服务程序:指向用户提供的服务,被看作是操作系统部分功能......
  • 《Linux内核完全注释》学习笔记:2.2 Linux中断机制
    在使用80x86组成的PC中,采用了两片8259A可编程中断控制芯片。每片可以管理8个中断源。通过多片的级联方式,能构成最多管理64个中断向量的系统。在PC/AT系列兼容机中,使用了两片8259A芯片,共可管理15级中断向量。其级联示意图见图2-5。其中从芯片的INT引脚连接到主芯片的IR2引......
  • 打开symlink类型的文件报错:无法遵循符号链接,因为其类型已禁用
     参考:https://blog.csdn.net/KEVERSO/article/details/84780368在英文系统中对应的是“Thesymboliclinkcannotbefollowedbecauseitstypeisdisabled.”简单的解决方案是,运行以下命令:FSUtilBehaviorSetSymlinkEvaluationL2L:1R2R:1L2R:1R2L:1Windows把文件......
  • 软件评测师笔记09--性能测试相关
    并发性能测试过程是一个负载测试和压力测试的过程,逐渐增加并发负载,直到系统的瓶颈或不能接收到的性能点,通过性能指标、资源监控指标来确定系统并发性能的过程 性能测试类型疲劳强度测试:采用稳定运行情况下能够支持的最大并发用户数,持续执行一段时间业务,保证达到系统疲劳强度......
  • Laravel实战笔记
    Laravel中默认时间格式为:"updated_at":"2024-05-14T03:16:43.000000Z"Date要修改Laravel模型中updated_at字段的输出格式,可以通过以下两种方式实现:使用toDateString()方法:$user=User::find(1);$updatedAt=$user->updated_at->toDateString();//输出:"2024......
  • 项目管理之八大绩效域-------笔记(一)
    绪论一、核心术语1.预期目标给干系人绩效域一个KPI(预期目标)来对其衡量其做的好不好,这个KPI就叫做预期目标.2.指标及检查方法要对目标是否做好进行评价,这个评价就是指标及检查方法3.绩效要点为了完成预期目标的三个KPI,应该做什么工作或者应该关注哪几个方面的活动......
  • java基础 韩顺平老师的 枚举和注解 自己记的部分笔记
    424,枚举类引出 packagecom.hspedu.enum_;publicclassEnumeration{publicstaticvoidmain(String[]args){//使用Seasonspring=newSeason("春天","温暖");Seasonsummer=newSeason("夏天","炎热&quo......
  • 树链剖分 学习笔记
    树链剖分学习笔记时更。还没开始学,放个板子先。板子#include<bits/stdc++.h>#definefo(x,y,z)for(int(x)=(y);(x)<=(z);(x)++)#definefu(x,y,z)for(int(x)=(y);(x)>=(z);(x)--)typedeflonglongll;inlineintqr(){ charch=getchar();intx=0,f=1; for(;ch......
  • PC4461
    1.初始化1voidsfcs::OnSetPCI4461_AITask()2{3longerror=0;4charerrBuff[2048]={'\0'};5if(mKZYHandle_AI!=0){6DAQmxStopTask(mKZYHandle_AI);7DAQmxClearTask(mKZYHandle_AI);8......