跨语言知识迁移学习分类:
-
转移资源:“什么”正在帮助转移
- multilingual word embeddings:即来自多种语言的词汇共享一个语义向量空间。已经提出了许多用于训练多语言词嵌入(MWE)的模型(Mikolov, Le, & Sutskever, 2013; Ammar et al., 2016; Gouws & Søgaard, 2015)。Ruder (2017) 提供了这些方法的综述。在训练MWE过程中,通常需要额外的跨语言资源,例如双语词典或平行语料库。在这个意义上,它们是二级跨语言资源,即从其他资源派生出的资源。然而,最近也提出了只需要单语文本语料库的无监督MWE(Artetxe et al., 2018; Chen & Cardie, 2018)。
- Parallel corpora:平行语料库是最基本的语言资源之一,提供了两种及以上语言之间句子级的对齐。
- Word alignments:在某些情况下,平行语料库中的句子对齐可能不够,我们需要进行词级别的对齐,即平行句子中相对应的词汇是什么。
- Machine translation:机器翻译(MT)可以用来代替平行语料库生成平行句子,也被称为伪平行语料库。
- Bilingual dictionary:双语词典是我们列表中最可用的跨语言资源。它们存在于许多语言对之间,并提供了一种非常简便自然的方式来连接不同语言中的词汇。然而,它们通常是不完整的,并且对上下文不敏感,也就是说,在特定上下文中可能很难选择正确的翻译。在一些研究中,只使用少数几个词汇(所谓的“枢纽词”)来建立不同语言之间的联系(Gouws & Søgaard, 2015; Abdalla & Hirst, 2017)。
- Pre-trained multilingual language models:预训练语言模型是自然语言处理(NLP)领域中最先进的技术。大量的文本数据被用来训练一个高容量(数亿参数)的语言模型。然后,我们可以使用这个语言模型中的参数来初始化进一步针对不同NLP任务的训练。除此之外,MLMs的训练本身也可以被视为一种跨语言学习任务。
- Language features:语言的语言学知识可以用来改进训练过程。这一类别中最常见的资源是《世界语言结构图集》(Dryer & Haspelmath, 2013)。WALS包含了许多语言的192个音系、句法和形态特征(例如主谓顺序、性别数量等)。这些特征可以用来确定哪些语言更为相似,因此更适合进行迁移学习。它们还可以在训练过程中作为特征使用。
- Universal features:所谓的通用特征,是指在某种程度上本质上与语言无关的特征,例如表情符号或标点符号。去词汇化的文本中,词汇被通用特征所替代。例如,句法注释,如词性标注(POS tags)。这种方法最近已经不流行了,转而支持MWE,主要是因为MWE保留了词汇信息。
-
转移参数:“什么”正在被转移
- 标签转移:标签或注释在相应的源语言(LS)和目标语言(LT)样本之间转移。
- 特征转移:与标签转移类似,但是转移的是样本特征,而不是标签。
- 参数转移:参数值在参数化模型之间转移。这有效地转移了模型的行为。
- 表示转移:在模型之间转移隐藏表示的期望值。目标模型被教会创建所需的表示。
对于标签和特征转移,正在转移的是关于个别样本的知识。在这种情况下,知识通常是某种手动或自动创建的注释,然后在其他语言中被重用。另一方面,通过参数转移,我们将模型的行为转移到其他语言。表示转移与特征转移类似,在于我们转移关于样本特征的知识。然而,它不仅仅是简单地转移特征,而是教会目标语言模型创建这些特征。在这个意义上,它也可以被视为行为的转移。
标签:语言,模型,特征,text,语料库,processing,Cross,MWE,转移 From: https://www.cnblogs.com/Chen0495/p/18123529