首页 > 其他分享 >【论文笔记-5】多语言命名实体识别

【论文笔记-5】多语言命名实体识别

时间:2024-04-12 13:56:58浏览次数:21  
标签:论文 语言 语料库 实体 笔记 命名 识别 转移

~2011年

Weakly Supervised Named Entity Transliteration and Discovery from Multilingual Comparable Corpora

动机:命名实体识别中许多语言缺乏有监督的数据
方法:提出一种(几乎)无监督的学习算法,通过预先给定的与资源丰富的语言弱时间对齐的双语语料库。

相关工作:

  1. 已经有其他工作在最小监督的情况下自动发现命名实体,然而,他们关注的是已经分割出的实体的分类阶段,并利用了上下文和形态学的线索,这些线索需要超出我们希望假设的目标语言水平的知识。
  2. 使用时间分布的相似性进行信息提取,特别是NE提取,并不是新概念。
  3. 在语言转写模型方面已经有很多先前的工作。大多数是生成性的,并考虑为给定单词产生适当转写的任务,因此需要相当多的语言知识。虽然生成性模型通常很健壮,但它们倾向于做出在数据中不成立的独立性假设。

不足:~

语言:英语,俄语
数据集:comparable English-Russian news corpus(本论文)

任务:多语言命名实体识别

转移资源:Parallel corpora、Universal features(时间分布特征);Word alignments(音译特征,自己生成)Bilingual dictionary(用于音译结果增强)

转移参数:标签转移

细节:具体来说,有一个平行语言库,可以根据实体的时间分布特征和音译特征对这些实体进行对齐,对齐后的实体被合并。

A multilingual Named Entity Recognition system using boosting and C4.5 decision tree learning algorithms

动机:无。(在众多自然语言处理应用中,对普通文本中的专有名词进行识别和分类具有至关重要的意义)
方法:手工注释匈牙利语料库,AdaBoostMl和C4.5决策树学习算法
相关工作:机器学习方法(最大熵模型、隐马尔可夫模型(CoNLL-2003)和支持向量机(JNLPBA2004,[10]))
不足:~

语言:匈牙利语,英语
数据集:CONLL-2003、Szeged Treebank

任务:多语言命名实体识别

转移资源:Parallel corpora,Language features,Universal features

转移参数:标签转移,特征转移

细节:具体来说,人工注释一个匈牙利平行语料库,这个数据集和英语数据集主题相同,从两个数据集中抽取出语言特征和通用特征库,根据特征判断结果

Mining wiki resources for multilingual named entity recognition

动机:大多数研究都局限于少数几种语言,几乎所有方法都需要相当的语言专业知识,无论是创建特定于一种语言的基于规则的技术,还是手动注释一批文本作为统计引擎或机器学习的训练集。
方法:描述了一个系统,该系统能够利用维基百科的多语言特性,为大量文本语料库添加命名实体识别(NER)标签,这一过程几乎不需要人为干预,也不需要语言专业知识。
相关工作:维基百科研究、语言链接 -> 依赖WordNet或其他语言特性
不足:未在非英语环境下消歧,粗粒度分类

语言:法语、乌克兰语、西班牙语、波兰语、俄语、葡萄牙语
数据集:ACE 2007、wikipedia

任务:多语言命名实体识别

转移资源:Parallel corpora(wikipedia)

转移参数:标签转移

细节:根据wikipedia内容对英语条目进行分类,非英语条目通过语言链接找到相应英语条目的分类,没有对应的则根据文章内容中的Category元素进行判断。

Building a multilingual named entity-annotated corpus using annotation projection

动机:
方法:
相关工作:
不足:

语言:
数据集:

任务:

转移资源:

转移参数:

细节:

标签:论文,语言,语料库,实体,笔记,命名,识别,转移
From: https://www.cnblogs.com/Chen0495/p/18130103

相关文章

  • 个人博客项目笔记_08
    bug修正文章归档:selectFROM_UNIXTIME(create_date/1000,'%Y')asyear,FROM_UNIXTIME(create_date/1000,'%m')asmonth,count(*)ascountfromms_articlegroupbyyear,month1.文章图片上传1.1接口说明接口url:/upload请求方式:POST请求参数:参数名称参数类型......
  • onJava8学习笔记
    onJava8:ThinkingInJavasequel第一章:对象的概念※,复用组合(UML实心三角形)和聚合(UML空心三角形)都属于关联关系的一种,只是额外具有整体-部分的意义。至于是聚合还是组合,需要根据实际的业务需求来判断。可能相同超类和子类,在不同的业务场景,关联关系会发生变化。只看代码是无法......
  • 狂神说Java Web学习笔记_Session
    原理图服务器会给每一个用户(浏览器)创建一个session对象一个session独占一个浏览器,主要浏览器没有关,这个session就存在登录之后,整个网站都可以访问常用场景保存一个用户的登录信息在整个网站中经常会使用到的数据常用的session方法//得到SessionHttpSessionsession=re......
  • 狂神说Java Web学习笔记_Cookie
    会话用户打开一个浏览器,点击了很多链接,访问了很多web资源,关闭浏览器之后,这个过程可以称之为一次会话。有状态会话一个同学来过教室,大家看到了,下次再来教室的时候,我们会知道这个同学曾经来过,这个被称为有状态会话。一个网站如何证明你访问过?服务端给客户端一个信件,客户端下次......
  • 1st Universal Cup 做题笔记
    Stage1:Shenyanghttps://qoj.ac/contest/1096A只需要考虑每个pair的贡献即可,而相交的pair数量是线性的,因此可以暴力搞,剩下的不相交的pair拿前缀和做就行了,复杂度\(\mathcalO(n\logn)\)。cornercase是当一方的区间全部退化的时候,需要重新计算一下出现的概率。BC......
  • [学习笔记] LCA - 图论
    [NOIP2013提高组]货车运输最大生成树+LCA+倍增好家伙,这道题我写了一个晚上,调了两个晚上,对于这道题我颇有感触。但这道题确实好,实实在在的蓝题,让我发现了许多关于LCA的问题。首先,这个题给的是一个无向图,并不是个树,为了减少运算量,我们可以把它变成一个树。运用Kruskal算法生......
  • 【论文随笔】会话推荐系统综述(A Survey on Conversational Recommender Systems)
    前言今天读的论文为一篇于2021年5月发表在《ACM计算机调查》(ACMComputingSurveys)的论文,文章提供了对话式推荐系统(CRS)的全面综述,探讨了CRS的定义、概念架构、交互方式、知识元素、计算任务以及评估方法。文章还讨论了CRS在不同应用环境中的实现,如智能家居助手和聊天机器人,并指......
  • 读论文-电子商务产品推荐的序列推荐系统综述与分类(A Survey and Taxonomy of Sequent
    前言今天读的这篇文章是于2023年发表在"SNComputerScience"上的一篇论文,这篇文章主要对序列推荐系统进行了全面的调查和分类,特别是在电子商务领域的应用。文章首先定义了用户和产品集合,以及用户与产品的交互序列。然后,它解释了序列推荐系统的目标,即生成一个个性化的Top-K排名的......
  • 【论文随笔】多行为序列Transformer推荐(Multi-Behavior Sequential Transformer Reco
    前言今天读的论文为一篇于2022年7月发表在第45届国际计算机学会信息检索会议(SIGIR'22)的论文,文章主要为推荐系统领域提供了一个新的视角,特别是在处理用户多行为序列数据方面,提出了一种有效的Transformer模型框架。要引用这篇论文,请使用以下格式:[1]Yuan,Enming,etal."Multi......
  • 【论文随笔】基于会话的推荐系统构建方法调查(Survey On Methods For Building Sessio
    前言今天读的论文为一篇于2023年发表在国际开放信息技术杂志(InternationalJournalofOpenInformationTechnologies)的论文,文章是关于构建基于会话的推荐系统(Session-basedRecommenderSystems,SBRS)的方法的综述。文章首先介绍了推荐系统在处理大量信息领域(如在线商店、电......