~2011年
Weakly Supervised Named Entity Transliteration and Discovery from Multilingual Comparable Corpora
动机:命名实体识别中许多语言缺乏有监督的数据
方法:提出一种(几乎)无监督的学习算法,通过预先给定的与资源丰富的语言弱时间对齐的双语语料库。
相关工作:
- 已经有其他工作在最小监督的情况下自动发现命名实体,然而,他们关注的是已经分割出的实体的分类阶段,并利用了上下文和形态学的线索,这些线索需要超出我们希望假设的目标语言水平的知识。
- 使用时间分布的相似性进行信息提取,特别是NE提取,并不是新概念。
- 在语言转写模型方面已经有很多先前的工作。大多数是生成性的,并考虑为给定单词产生适当转写的任务,因此需要相当多的语言知识。虽然生成性模型通常很健壮,但它们倾向于做出在数据中不成立的独立性假设。
不足:~
语言:英语,俄语
数据集:comparable English-Russian news corpus(本论文)
任务:多语言命名实体识别
转移资源:Parallel corpora、Universal features(时间分布特征);Word alignments(音译特征,自己生成)Bilingual dictionary(用于音译结果增强)
转移参数:标签转移
细节:具体来说,有一个平行语言库,可以根据实体的时间分布特征和音译特征对这些实体进行对齐,对齐后的实体被合并。
A multilingual Named Entity Recognition system using boosting and C4.5 decision tree learning algorithms
动机:无。(在众多自然语言处理应用中,对普通文本中的专有名词进行识别和分类具有至关重要的意义)
方法:手工注释匈牙利语料库,AdaBoostMl和C4.5决策树学习算法
相关工作:机器学习方法(最大熵模型、隐马尔可夫模型(CoNLL-2003)和支持向量机(JNLPBA2004,[10]))
不足:~
语言:匈牙利语,英语
数据集:CONLL-2003、Szeged Treebank
任务:多语言命名实体识别
转移资源:Parallel corpora,Language features,Universal features
转移参数:标签转移,特征转移
细节:具体来说,人工注释一个匈牙利平行语料库,这个数据集和英语数据集主题相同,从两个数据集中抽取出语言特征和通用特征库,根据特征判断结果
Mining wiki resources for multilingual named entity recognition
动机:大多数研究都局限于少数几种语言,几乎所有方法都需要相当的语言专业知识,无论是创建特定于一种语言的基于规则的技术,还是手动注释一批文本作为统计引擎或机器学习的训练集。
方法:描述了一个系统,该系统能够利用维基百科的多语言特性,为大量文本语料库添加命名实体识别(NER)标签,这一过程几乎不需要人为干预,也不需要语言专业知识。
相关工作:维基百科研究、语言链接 -> 依赖WordNet或其他语言特性
不足:未在非英语环境下消歧,粗粒度分类
语言:法语、乌克兰语、西班牙语、波兰语、俄语、葡萄牙语
数据集:ACE 2007、wikipedia
任务:多语言命名实体识别
转移资源:Parallel corpora(wikipedia)
转移参数:标签转移
细节:根据wikipedia内容对英语条目进行分类,非英语条目通过语言链接找到相应英语条目的分类,没有对应的则根据文章内容中的Category元素进行判断。
Building a multilingual named entity-annotated corpus using annotation projection
动机:
方法:
相关工作:
不足:
语言:
数据集:
任务:
转移资源:
转移参数:
细节:
标签:论文,语言,语料库,实体,笔记,命名,识别,转移 From: https://www.cnblogs.com/Chen0495/p/18130103