【论文笔记-4】Cross-lingual learning for text processing: A survey

时间：2024-04-09 11:37:58浏览次数：26

标签：语言模型特征 text 语料库 processing Cross MWE 转移

跨语言知识迁移学习分类：

转移资源：“什么”正在帮助转移
- multilingual word embeddings：即来自多种语言的词汇共享一个语义向量空间。已经提出了许多用于训练多语言词嵌入（MWE）的模型（Mikolov, Le, & Sutskever, 2013; Ammar et al., 2016; Gouws & Søgaard, 2015）。Ruder (2017) 提供了这些方法的综述。在训练MWE过程中，通常需要额外的跨语言资源，例如双语词典或平行语料库。在这个意义上，它们是二级跨语言资源，即从其他资源派生出的资源。然而，最近也提出了只需要单语文本语料库的无监督MWE（Artetxe et al., 2018; Chen & Cardie, 2018）。
- Parallel corpora：平行语料库是最基本的语言资源之一，提供了两种及以上语言之间句子级的对齐。
- Word alignments：在某些情况下，平行语料库中的句子对齐可能不够，我们需要进行词级别的对齐，即平行句子中相对应的词汇是什么。
- Machine translation：机器翻译（MT）可以用来代替平行语料库生成平行句子，也被称为伪平行语料库。
- Bilingual dictionary：双语词典是我们列表中最可用的跨语言资源。它们存在于许多语言对之间，并提供了一种非常简便自然的方式来连接不同语言中的词汇。然而，它们通常是不完整的，并且对上下文不敏感，也就是说，在特定上下文中可能很难选择正确的翻译。在一些研究中，只使用少数几个词汇（所谓的“枢纽词”）来建立不同语言之间的联系（Gouws & Søgaard, 2015; Abdalla & Hirst, 2017）。
- Pre-trained multilingual language models：预训练语言模型是自然语言处理（NLP）领域中最先进的技术。大量的文本数据被用来训练一个高容量（数亿参数）的语言模型。然后，我们可以使用这个语言模型中的参数来初始化进一步针对不同NLP任务的训练。除此之外，MLMs的训练本身也可以被视为一种跨语言学习任务。
- Language features：语言的语言学知识可以用来改进训练过程。这一类别中最常见的资源是《世界语言结构图集》（Dryer & Haspelmath, 2013）。WALS包含了许多语言的192个音系、句法和形态特征（例如主谓顺序、性别数量等）。这些特征可以用来确定哪些语言更为相似，因此更适合进行迁移学习。它们还可以在训练过程中作为特征使用。
- Universal features：所谓的通用特征，是指在某种程度上本质上与语言无关的特征，例如表情符号或标点符号。去词汇化的文本中，词汇被通用特征所替代。例如，句法注释，如词性标注（POS tags）。这种方法最近已经不流行了，转而支持MWE，主要是因为MWE保留了词汇信息。
转移参数：“什么”正在被转移
- 标签转移：标签或注释在相应的源语言（LS）和目标语言（LT）样本之间转移。
- 特征转移：与标签转移类似，但是转移的是样本特征，而不是标签。
- 参数转移：参数值在参数化模型之间转移。这有效地转移了模型的行为。
- 表示转移：在模型之间转移隐藏表示的期望值。目标模型被教会创建所需的表示。

对于标签和特征转移，正在转移的是关于个别样本的知识。在这种情况下，知识通常是某种手动或自动创建的注释，然后在其他语言中被重用。另一方面，通过参数转移，我们将模型的行为转移到其他语言。表示转移与特征转移类似，在于我们转移关于样本特征的知识。然而，它不仅仅是简单地转移特征，而是教会目标语言模型创建这些特征。在这个意义上，它也可以被视为行为的转移。

标签：语言,模型,特征,text,语料库,processing,Cross,MWE,转移
From： https://www.cnblogs.com/Chen0495/p/18123529

react ref和context
ref获取domcontext类似provider和injected,用于嵌套很深的爷孙组件传值子组件使用父组件创建的context对象,不能自己创建context创建在函数组件和class组件都是一样的exportletContext1=React.createContext('')<Context1.Providervalue='Contextvalue函数组件'>......
交叉注意力融合时域、频域特征的FFT + CNN -Transformer-CrossAttention电能质量扰动
往期精彩内容：电能质量扰动信号数据介绍与分类-Python实现-CSDN博客Python电能质量扰动信号分类(一)基于LSTM模型的一维信号分类-CSDN博客Python电能质量扰动信号分类(二)基于CNN模型的一维信号分类-CSDN博客Python电能质量扰动信号分类(三)基于Transformer的一维信号分......
已解决：youdao翻译 status code:200，text:{“code“:50}
终于终于解决了，话不多说，上图：当然，返回的448字节的字符（text），通过解密解析后，从中挑出翻译结果，然后print即可。ifres.status_code==200:result=get_text(res.text)#解析返回加密字符result_1=json.loads(result)print("翻译的结果是：",result_1['translate......
250 Stylized Mountain Cave Textures - Cliff Rock Crystal Gravel More
250多种风格化的水晶、岩石、悬崖、砾石、矿石、熔岩和其他岩石纹理的集合，用于山地和洞穴风格化/幻想/rpg风格的游戏环境。在这个系列中，你会在风格化/幻想/rpg风格的游戏中找到大量适合山区和洞穴环境的纹理——水晶、洞穴地板/墙壁、岩石、悬崖、砾石、熔岩、岩石土、岩石地......
鸿蒙HarmonyOS实战-ArkUI组件（TextInput/TextArea）
......
vs2019托管调试助手 "ContextSwitchDeadlock"错误
错误描述托管调试助手"ContextSwitchDeadlock":“CLR无法从COM上下文0xd183e0转换为COM上下文0xd18328，这种状态已持续60秒。拥有目标上下文/单元的线程很有可能执行的是非泵式等待或者在不发送Windows消息的情况下处理一个运行时间非常长的操作。这种情况通常会......
class path resource [applicationContext.xml] cannot be opened because it does no
测试运行报错：无法打开applicationContext.xml解决方法：打开File->ProjectStructure...找到Moudles->path->OutPutPath中写入resources路径......
js context.fillText 征对不同长度右边对齐的解决办法
在HTML5Canvas中，要实现文本右对齐并且与不同长度文本互不重叠，可以通过测量文本宽度，并基于文本宽度设置x坐标来实现。以下是一个简单的JavaScript函数，用于在Canvas中右对齐并且不重叠地绘制文本：functiondrawRightAlignedText(context,text,x,y){//测量文本宽度......
【论文笔记-1】Multi-lingual Knowledge Graph Embeddings for Cross-lingual Knowled
论文结构摘要:为了实现跨语言的知识对齐，提出了MTransE，一个基于翻译的多语言知识图谱嵌入模型。通过在分离的嵌入空间中编码每种语言的实体和关系，MTransE为每个嵌入向量提供了过渡到其他空间中跨语言对应物的功能，同时保留了单语种嵌入的功能。动机(待解决的问题)：嵌入能够帮助提......
Golang context （上下文）是什么
Golangcontext（上下文）是什么？原创几颗酥几颗酥 2024-03-1111:24 广西 1人听过介绍Context 是golang中十分重要的接口，用于定义 goroutine 中的上下文信息，context 常用于以下几种情况：数据传递：在多个 goroutine 中传递数据超时管理：通过配置超时时间，可以......

【论文笔记-4】Cross-lingual learning for text processing: A survey

相关文章

赞助商

阅读排行