首页 > 编程语言 >【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法

时间:2023-12-08 19:00:56浏览次数:45  
标签:语言 EMNLP 模型 算法 源语言 2023 目标语言 MRC

近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议EMNLP2023上发表基于机器翻译增加的跨语言机器阅读理解算法X-STA。通过利用一个注意力机制的教师来将源语言的答案转移到目标语言的答案输出空间,从而进行深度级别的辅助以增强跨语言传输能力。同时,提出了一种改进的交叉注意力块,称为梯度解缠知识共享技术。此外,通过多个层次学习语义对齐,并利用教师指导来校准模型输出,增强跨语言传输性能。实验结果显示,我们的方法在三个多语言MRC数据集上表现出色,优于现有的最先进方法。

论文:

Tingfeng Cao, Chengyu Wang, Chuanqi Tan, Jun Huang, Jinhui Zhu. Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension. EMNLP 2023 (Findings)

背景

大规模预训练语言模型的广泛应用,促进了NLP各个下游任务准确度大幅提升,然而,传统的自然语言理解任务通常需要大量的标注数据来微调预训练语言模型。但低资源语言缺乏标注数据集,难以获取。大部分现有的MRC数据集都是英文的,这对于其他语言来说是一个困难。其次,不同语言之间存在语言和文化的差异,表现为不同的句子结构、词序和形态特征。例如,日语、中文、印地语和阿拉伯语等语言具有不同的文字系统和更复杂的语法系统,这使得MRC模型难以理解这些语言的文本。

为了解决这些挑战,现有文献中通常采用基于机器翻译的数据增强方法,将源语言的数据集翻译成目标语言进行模型训练。然而,在MRC任务中,由于翻译导致的答案跨度偏移,无法直接使用源语言的输出分布来教导目标语言。

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_源语言

因此,本文提出了一种名为X-STA的跨语言MRC方法,遵循三个原则:共享、教导和对齐。共享方面,提出了梯度分解的知识共享技术,通过使用平行语言对作为模型输入,从源语言中提取知识,增强对目标语言的理解,同时避免源语言表示的退化。教导方面,本方法利用注意机制,在目标语言的上下文中寻找与源语言输出答案语义相似的答案跨度,用于校准输出答案。对齐方面,多层次的对齐被利用来进一步增强MRC模型的跨语言传递能力。通过知识共享、教导和多层次对齐,本方法可以增强模型对不同语言的语言理解能力。

算法概述

X-STA模型框架图如下所示:

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_源语言_02

给定上下文C和问题Q, MRC任务是从上下文C提取子序列作为问题Q的正确答案。将输入序列表示为

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_跨语言_03其中N是序列长度。我们使用$\textbf{p}\text{start} \in \mathbb{R}^{N} 【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_目标语言_04 \textbf{p}\text{end} \in \mathbb{R}^{N} 【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_目标语言_05 \textbf{p} \in \mathbb{R}^{N\times 2} 【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_跨语言_06 \mathbf{y} \in \mathbb{R}^{N\times 2} $表示一个序列的one-hot标签。

具体流程如下:

  1. 先将源语言的目标数据翻译到各个目标语言,目标语言的测试数据也翻译回源语言。
  2. 每项数据包含问题Q和上下文段落C。
  3. 构建并行语言对={源语言训练数据,目标语言训练数据}送入模型并使用反向传播进行模型训练。
  4. 将并行语言对={源语言测试数据,目标语言测试数据}送入模型获取答案的预测。

算法精度评测

为了验证X-STA算法的有效性,我们在三个跨语言MRC数据集上进行了测试,效果证明X-STA对精度提升明显:

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_目标语言_07

我们也对算法的模块进行了详细有效性分析,我们可以发现各模块均对模型有一定贡献。

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法_跨语言_08

为了更好地服务开源社区,这一算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎NLP从业人员和研究者使用。

EasyNLP开源框架:https://github.com/alibaba/EasyNLP

参考文献

  • Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
  • Rajpurkar, Pranav, et al. "SQuAD: 100,000+ Questions for Machine Comprehension of Text." Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.

论文信息

论文标题:Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension

论文作者:曹庭锋、汪诚愚、谭传奇、黄俊、朱金辉

论文pdf链接:<https://arxiv.org/abs/2311.06758>

标签:语言,EMNLP,模型,算法,源语言,2023,目标语言,MRC
From: https://blog.51cto.com/u_15316473/8741329

相关文章

  • React diff 算法详解
    代码参照React16.13.1什么是Diff在render阶段的beginWork函数中,会将上次更新产生的Fiber节点与本次更新的JSX对象(对应ClassComponent的this.render方法返回值,或者FunctionComponent执行的返回值)进行比较。根据比较的结果生成workInProgressFiber,即本次更新的Fiber节......
  • Vue2 的 diff 算法详解
    所谓diff算法,就是通过比对新旧两个虚拟节点不一样的地方,针对那些不一样的地方进行新增或更新或删除操作。接下来详细介绍节点更新的过程。首先进行静态节点处理,判断新旧两个虚拟节点是否是静态节点,如果是,就不需要进行更新操作,可以直接跳过更新比对的过程。再更新处理新老节点......
  • Vue3 diff算法详解
    Diff更新算法由于目前Vue3对于性能的优化做了很多的处理,所以其在更新时并不会对所有的节点都进行diff更新。目前会进行diff更新的有以下两种情况:v-for容器节点自写的render()函数还有一种特殊情况会进行无diff的按序更新,这种更新是全替换模式,非常耗时:无key值的v-for语句,......
  • Daiwa Securities Co. Ltd. Programming Contest 2023(AtCoder Beginner Contest 331)
    DaiwaSecuritiesCo.Ltd.ProgrammingContest2023(AtCoderBeginnerContest331)A-Tomorrow解题思路:模拟。代码:#include<bits/stdc++.h>usingnamespacestd;usingll=longlong;typedefpair<int,int>pii;#definefifirst#definesesecondcons......
  • 2023年最新!Windows server 2019安装
    2023年最新!Windowsserver2019安装导航目录2023年最新!Windowsserver2019安装导航一、下载所需工具二、配置WindowsServer三、进入虚拟机并初始配置四、激活服务器五、遇到的问题一、下载所需工具下载VMwareVMware官网下载:https://www.vmware.com/products/workstation-......
  • HydroOJ 从入门到入土(6)Caddy设置自动SSL证书, 开启高压缩比算法(brotli)节约网络带宽
    Caddy既出,何需Nginx?目录1.Caddy是啥2.Caddy配置简介3.使用gzip/br节省带宽3.1先把静态文件全部压缩3.2caddyfile中开启precompressed选项3.3查看是否成功1.Caddy是啥Caddy是用来替代Nginx的新一代反代工具,配置简单很多.有了Caddy,就不要再装N......
  • 我的2023技术总结
    做的项目使用.NET6的那个服务断断续续写了一年时间使用WPF、Winform、CefSharp开发的可切换谷歌IE内核的浏览器,断断续续写了大半年时间大数据服务维护使用Leaflet开发电子地图的功能,今年做了正经的前后端分离的项目(以前是按自己的方式搞的一套),前端是Vue年末做了一个ThreeJ......
  • 2023-12-8
    <template><el-containerstyle="height:100%;"><el-asidewidth="200px"style="background-color:rgb(238,241,246);height:100%;"><el-menu:default-openeds="['1','3'......
  • ISCTF2023
    ISCTF2023Misc签到题公众号发送:小蓝鲨,我想打ctfISCTF{W3lcom3_7O_2023ISCTF&BlueShark}你说爱我?尊嘟假嘟你说爱我替换.,真嘟替换!假嘟替换?,Ook!在线解码base64解码ISCTF{9832h-s92hw-23u7w-2j8s0}杰伦可是流量明星直接strings搜flag,替换为ISCTF{}ISCTF{wddhr836459_83......
  • 2023-2024-1 20232314 《网络空间安全导论》第五周学习
    教材学习内容总结 教材学习中的问题和解决过程问题1:信息内容获取的工具有哪些?解决方案:询问chatgpt。爬虫工具:如Scrapy、BeautifulSoup等,用于自动化抓取和分析网页信息。数据挖掘工具:如RapidMiner、Weka等,用于从大量数据中挖掘潜在的模式和关系。采集软件:如WebHarvy、Con......