首页 > 其他分享 >【论文笔记-50~】多语言关系抽取

【论文笔记-50~】多语言关系抽取

时间:2024-04-30 11:44:41浏览次数:28  
标签:关系 抽取 提取 语言 50 笔记 注释 文本 英语

~2011

1. A cross-lingual annotation projection approach for relation detection

摘要:尽管在过去十年中对关系提取进行了广泛的研究,基于监督学习的统计系统仍然受限,因为它们需要大量的训练数据才能达到高性能。在本文中,我们开发了一种跨语言注释投影方法,该方法利用平行语料库来启动一个关系检测器,而不需要为资源匮乏的语言进行大量的注释工作。为了使我们的方法更加可靠,我们引入了三种简单的投影噪声减少方法。我们的方法的优点通过一个新的韩语关系检测任务得到了证明。

方法:爬虫得到平行语料库,对英语进行实体标注(斯坦福解析器),在ACE2003上训练和测试一个英语关系识别模型(基于树核的支持向量机),通过对齐将英语投影到韩语形成数据集(手动+投影),同样训练并测试韩语的一个基于树核的支持向量机模型

转移范例:标签
转移资源:平行语料库,词对齐(giza++),字典(作为补充)
评估语言:英语->韩语
评估数据集:ACE2003,self-generated

2. Bootstrapping Multilingual Relation Discovery Using English Wikipedia and Wikimedia-Induced Entity Extraction

摘要:关系提取在过去十年里一直是研究的重要课题。大多数关系提取器的开发都是通过结合在大量注释上训练复杂的计算系统以及语言专家广泛的规则编写来实现的。此外,许多关系提取器依赖于其他非平凡的自然语言处理(NLP)技术,这些技术本身也是通过大量的人力努力开发的,例如实体标注、解析等。由于创建和组装所需资源的成本高昂,关系提取器通常只为资源丰富的语言开发。在本文中,我们描述了一种几乎零成本的方法,使用免费的维基百科和其他网络文档以及一些英语知识,为明显不同的非英语语言构建关系提取器。我们将我们的方法应用于构建希腊语、西班牙语、俄语和中文中的母校、出生地、父亲、职业和配偶关系提取器。我们在文件级别对诱导出的关系进行了评估——这是我们在文献中看到的最精细的评估。

2012~2018

3. Multilingual open relation extraction using cross-lingual projection

摘要:开放域关系提取系统能够在不依赖任何底层模式的情况下识别句子中的关系和参数短语。然而,由于它们严重依赖于语言工具,如词性标注器和依存关系解析器,目前最先进的关系提取系统仅限于英语。我们提出了一种跨语言注释投影方法,用于语言无关的关系提取。我们在手动注释的测试集上评估了我们的方法,并在三种类型不同的语言上展示了结果。我们发布了从维基百科中提取的这十种语言的手动注释和提取出的关系。© 2015 计算语言学协会。

4. Multilingual relation extraction using compositional universal schema

摘要:通用模式通过联合嵌入来自输入知识库的所有关系类型以及在原始文本中观察到的文本模式,构建实体和关系的知识点(KB)。在以前的大多数通用模式应用中,每个文本模式都被表示为单一嵌入,这阻止了对未见模式的泛化。最近的工作采用神经网络捕捉模式的组合语义,为所有可能的输入文本提供泛化。作为回应,本文引入了对通用模式关系提取的覆盖范围和灵活性的重大改进:对训练中未见实体的预测以及对没有注释的领域的多语言迁移学习。我们通过在英语和西班牙语TAC KBP基准上进行广泛的实验来评估我们的模型,使用没有手工编写模式或额外注释的方法,超越了TAC 2013插槽填充的顶级系统。我们还考虑了一个多语言设置,其中英语训练数据实体与种子KB重叠,但西班牙语文本不重叠。尽管没有西班牙语数据的注释,我们训练了一个准确的预测器,并通过在语言之间绑定词嵌入获得了额外的改进。此外,我们发现多语言训练提高了英语关系提取的准确性。因此,我们的方法适用于在多种语言和领域中构建广泛覆盖的自动化知识库。©2016 计算语言学协会。

5. Neural Relation Extraction with Multi-lingual Attention

摘要:关系提取已被广泛用于从普通文本中发现未知的关系事实。大多数现有方法专注于利用单语言数据进行关系提取,忽略了来自各种语言文本的大量信息。为了解决这个问题,我们引入了一个多语言神经关系提取框架,该框架采用单语言注意力机制来利用单语言文本中的信息,并进一步提出跨语言注意力机制来考虑跨语言文本之间的信息一致性和互补性。在真实世界数据集上的实验结果表明,我们的模型可以利用多语言文本,并与基线相比在关系提取上持续取得显著的改进。本文的源代码可以从 https://github.com/thunlp/MNRE 获得。© 2017 计算语言学协会。

2019~2020

2021~2022

2023~2024

标签:关系,抽取,提取,语言,50,笔记,注释,文本,英语
From: https://www.cnblogs.com/Chen0495/p/18134517

相关文章

  • Python 学习笔记
    1、Python简介设计哲学:强调代码的可读性和简洁的语法(尤其是用空格缩进来定义代码块,而不是使用大括号或关键词)。应用领域:Web开发、数据科学、人工智能、科学计算、自动化脚本等。参考文档:Python简介2.基本语法解释器:Python代码可以通过Python解释器直接运行,也可以作为脚本......
  • Living-Dream 系列笔记 第55期
    状压dp空间优化技巧:滚动数组提前预处理出有效状态T1典题限时返场。上次讲的时候的代码用到了滚动数组,这次讲第二种优化。其实很简单,就是在dp前将所有状态枚举一遍,将同行冲突的判掉,合法的用\(st_i\)存储即可。方法很bf,但经试验可以发现一千多状态中仅有几十个......
  • ABC351E 补题笔记
    批:赛时很快想到切比雪夫后就跳进主席树里出不来了。一个很妙的题。首先分\(x+y\)的奇偶性黑白染色后黑色和白色不可达。然后对于同一个颜色的点易得\(dis=\max(|x1-x2|,|y1-y2|)\),即切比雪夫距离。这个时候就可以直接上主席树了,但太复杂不是正解。最简单的解法是:我们充分......
  • C++ 学习笔记
    ​1、基础概念C++是一种高性能的编程语言,由BjarneStroustrup在1980年代初设计,旨在为C语言添加面向对象的功能。自那时起,C++已发展成为一种支持过程性、面向对象和泛型编程的多范式语言,广泛应用于系统软件、游戏开发、驱动程序、嵌入式固件等领域。要开始使用C++,首先需要......
  • AtCoder-abc350_g 题解
    原题链接题意简述有一个无向图,初始时没有边。接下来有一些操作:将\(u,v\)连边。询问\(u,v\)的距离是否为\(2\),如果是,则输出中间的那个点的编号,否则输出0。每次询问后,更新\(lastans\)为询问的答案,初始时为\(0\)。每次操作的\(opt,u,v\)使用\(lastans\)解码,......
  • [论文笔记] A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT
    Introduction:一个好的prompt可以提高LLM的表现;prompt可以像软件开发一样被工程化;这篇论文的主要贡献在于提出了promptpatterns用于promptengineeringComparingsoftwarepatternswithpromptpatterns:这篇论文提出的用于构建prompt的framework可以帮助用户......
  • SQL SERVER 从入门到精通 第5版 第三篇 高级应用 第11章 触发器 读书笔记
     第11章触发器>.概述触发器是一种特殊类型的存储过程.当指定表中的数据发生变化时触发器自动生效.它与表紧密相连,可以看作表定义的一部分.触发器不能通过名称被直接调用,更不允许设置参数.在SQLSERVER中,一张表可以有多个触发器.用户可以使用INS......
  • Asp-Net-Core开发笔记:使用AOP实现动态审计日志功能
    前言#最近一直在写Go和Python,好久没写C#,重新回来写C#代码时竟有一种亲切感~说回正题。在当今这个数字化迅速发展的时代,每一个操作都可能对业务产生深远的影响,无论是对数据的简单查询,还是对系统配置的修改。在这样的背景下,审计日志不仅仅是一种遵循最佳实践的手段,更是......
  • AtCoder-abc350_f 题解
    原题链接题意简述给定一个字符串\(S\),对于每个匹配的括号,将括号内的字符左右翻转并大小写反转,然后删除括号。输出最后的序列。思路本题为文艺平衡树的模板题。扫一遍字符串进行括号匹配,每次把最内层的括号进行操作。最后遍历一遍平衡树,将不为括号字符的字符输出。FHQ_Treap......
  • 统一场理论公式推导和笔记——part4
    三十二,核力场的定义方程所有的场都可以通过引力场变化而得到。核力场和电磁场一样也可以用引力场的变化来表示。==》这个就非常关键了,万有引力场【简称引力场】,回忆下定义:o点在空间点p处产生的引力场A【数量为a】:a=常数乘以Δn/Δs,A=-gkΔn(R/r)/Ωr² =-gkΔnR/Ω......