论文解读：Multimodal Machine Translation with Embedding Prediction

标签：模态 Machine 预测训练模型 Prediction 机器翻译 Multimodal 向量

论文解读：Multimodal Machine Translation with Embedding Prediction

机器翻译中有一个非常重要的问题即是对未知词（unknown word）和罕见词（rare word）的预测。有许多工作着重解决对于未知词和罕见词的翻译问题。对于未知词，其表示在翻译过程中在原始句子（source sentence）中发现一个在预训练词向量中不存在的词，一般做法是直接将其拷贝到翻译的目标句子中。对于罕见词，其指在所有句子中出现的次数非常少，但仍存在于已预训练的词库中。
本文工作提出一种多模态神经机器翻译模型，充分利用预训练词向量提高罕见词翻译效果。这里做一个简单的解释：多模态（Multimodal）机器翻译主要是指除了使用传统意义的语言模型进行表征，还可以对与之有关的图像、图谱等外部信息进行辅助增强表征。接下来详细介绍本文主要工作。

一、简要信息

序号	属性	值
1	模型名称
2	所属领域	自然语言处理
3	研究内容	多模态神经机器翻译
4	核心内容	multimodal NYT;pretrained word embedding; embedding search
5	GitHub源码
6	论文PDF	https://arxiv.org/pdf/1904.00639v1.pdf

二、摘要与引言

多模态机器翻译是一个受欢迎的神经机器翻译应用，它可以让计算机深层次理解语言的可视目标及其之间的关系。然而多模态机器翻译受到训练数据的约束，导致在翻译罕见词时候表现不好。在神经机器翻译中，预训练的持续了可以提升NMT资源缺乏部分，另外基于搜索的方法被提出解决罕见词的翻译问题。本文我们有效的在神经机器翻译上下文中结合这两种方法（pretrained word embeddings 和 search-based），探索如何充分利用预训练词向量来预测罕见词汇。作者在实验中返现我们提高了1.24METEOR和2.49BLEU指数，提升7.67F值。

三、相关工作与主要贡献

多模态机器翻译是指目标句子是由原始句子及与语言无关的信息（例如视觉信息）翻译而来。先前的多模态机器翻译工作主要分为两个方面：
（1）视觉特征捕获与数据扩增。multtask learning和feature integration architecture被提出用于提升神经机器翻译模型；
（2）数据扩增。旨在解决可获得多模态数据集的数量太小。为了解决这个问题，不包含视觉资源的平行语料库和通过反向翻译得到的伪平行语料库被用于额外的训练资源。Qi et al. (2018)【1】等人认为在解码层使用初始化的预训练词嵌入表征可以在少量资源语言对（ low-resource language pairs.）提升翻译效果。 Kumar andTsvetkov (2019) 【2】提出一种神经机器翻译模型，预测输出词的词嵌入表征搜索词而不是使用softmax来求概率，这个模型在罕见词的翻译上提升精度。
在本研究中，我们介绍了一种具有嵌入预测的多模态机器翻译的NMT模型，该模型充分利用了预先训练的嵌入来提高罕见词的翻译准确性。主要贡献如下：
（1）我们提出一个新的多模态机器翻译模型，其包含嵌入搜索，通过探索不同的参数设置来充分发挥预训练词向量的作用；
（2）我们发现预训练词向量可以提升模型的表现，特别是在预测罕见词上。

四、算法模型详解

作者结合嵌入预测框架和多模态机器翻译模型，并且充分利用预训练词向量，为了强调预训练词向量和嵌入预测结构的有效性，我们引入IMAGINATION【3】作为多模态的基线模型。
IMAGINATION结合机器翻译和视觉潜在空间的训练。它是基于传统的NMT模型进行翻译，在视觉潜在空间学习，原始句子及对应的图像被紧密映射到隐层空间中。我们利用latent space learning model来训练。损失函数如下：

$论文解读：Multimodal Machine Translation with Embedding Prediction_词向量$

其中 $论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_02$ 是待训练的参数， $论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_03$

4.1 Multimodal Machine Translation with Embedding Prediction

$论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_04$ ， $论文解读：Multimodal Machine Translation with Embedding Prediction_模态_05$ 表示翻译模型的解码器部分的隐状态向量， $论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_06$

$论文解读：Multimodal Machine Translation with Embedding Prediction_多模态机器翻译_07$

$论文解读：Multimodal Machine Translation with Embedding Prediction_多模态机器翻译_08$

很清晰的看出，首先将隐状态喂入前馈网络得到所谓的预测的词向量，然后分别与词库中所有词进行相似度计算，将相似度距离最近的词作为该时刻的预测词。作者使用margin-based ranking loss计算该部分的损失：

$论文解读：Multimodal Machine Translation with Embedding Prediction_模态_09$

其中 $论文解读：Multimodal Machine Translation with Embedding Prediction_多模态机器翻译_10$ ， $论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_11$ 表示负样本， $论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_12$ 表示目标句子的长度， $论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_13$ 表示距离（margin）。由这个损失函数可知：
（1） $论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_14$ 表示当前预测词向量与实际目标句子对应该时刻词的距离，可知这个距离是确定的。而 $论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_15$ 是当前预测词向量与词库中每个词的距离，后者与前者的差的最大值即为寻找一个预测词与实际词相似度距离最远的词，即为负样本。
（2）再看上面的式子， $论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_16$ 则表示当前预测词向量与这个负样本的相似度距离， $论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_17$ 则表示负样本与实际词之间的距离。最小化这个距离即可使得最不可能的词也与预测的结果很相近。

4.2 Visual Latent Space Learning

这一部分可具体参考IMAGINATION论文。作者直接使用该成果的模型，并该句子对应的图像其映射到latent space中：

$论文解读：Multimodal Machine Translation with Embedding Prediction_多模态机器翻译_18$

即将解码器所有隐状态进行平均求和后喂入前馈网络中，即得到该句子在latent space中的表征。损失函数：

$论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_19$

其中 $论文解读：Multimodal Machine Translation with Embedding Prediction_多模态机器翻译_20$ 表示原始句子的对应的图像， $论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_21$ 则表示其他图像， $论文解读：Multimodal Machine Translation with Embedding Prediction_词向量_22$ 调整每个向量在latent space稀疏性参数。可看出该损失函数依然是margin-based ranking loss，求出与实际图像向量最远的距离，然后最小化这个距离以获得较好的效果。

五、实验及分析

作者在Multo30K数据集【5】（法语——英语）上进行了实验，实验结果如下图：

论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_23

进行调参实验对比效果：

论文解读：Multimodal Machine Translation with Embedding Prediction_模态_24

其中FIXED表示解码器部分参与搜索的词向量是否参与训练，若FIXED=Yes则表示固定不训练，可知不参与训练是可以达到更好的效果。

5.1 罕见词预测

文章一直强调通过直接预测词向量和相似度搜索是可以对罕见词进行预测的，作者给出实验结果比对：

论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_25

5.2 词嵌入

作者发现解码器部分embedding必须固定才能提升预测准确度。如果设置可微调，会发现效果会低于基线模型。也就是说可微调的表征的NMT和表征预测可以让模型很好的搜索常见词，而不是罕见词。更有趣的是，使用预训练的FastText在解码器而不是编码器部分可以提升效果。相比初始化一个随机值，在解码器部分初始化词嵌入可以提升1.8BLEU值，而如果在编码器部分则仅提升0.11BLEU。这是由多任务学习模型造成的，该模型用图像训练编码器，并将其从想要根据句子进行训练的嵌入预测模型中去除。（即编码器部分的预训练在解码器部分已经被移除，所以对词嵌入预测效果影响不明显；而在解码器部分则可以充分影响）

5.3 视觉特征

作者还研究了图像及其预处理在NMT中的嵌入预测(表3)。有趣的结果是，使用原始图像的多任务学习对预测模型没有帮助。在多任务学习场景中，去偏图像是一种具有嵌入预测功能的NMT预处理方法。

论文解读：Multimodal Machine Translation with Embedding Prediction_机器翻译_26

5.4 翻译实例

作者给出具体的实例。可知在预测过程中，作者提出的模型是可以很好的预测罕见词。

论文解读：Multimodal Machine Translation with Embedding Prediction_模态_27

六、论文总结与评价

对于这篇文章，其实19年新出的，在机器翻译中并不像其他模型一样通过设计构造表征方式提高翻译效果，而是通过将视觉与原始句子结合起来的多模态方法进行翻译训练，同时作者认为机器翻译中的主要问题便是对罕见词以及未知词的预测。该文章仅讨论如何更有效的预测罕见词，而在Conclusion中也提出改进模型来预测未知词。因此文章的出发点是比较好的，但作者未提供源程序，且直接运用IMAGINATION模型，因此实际效果还不得而知。
总体来说本工作还是有创新之处，也可以作为机器翻译研究的方向。在机器翻译领域中，罕见词和未知词是决定翻译效果的关键之处，同时多模态机器翻译也可以充分利用外部信息增强翻译效果。

参考文献

【1】Ye Qi, Devendra Sachan, Matthieu Felix, Sarguna Padmanabhan, and Graham Neubig. 2018. When and why are pre-trained word embeddings useful for neural machine translation? In NAACL, pages 529–535.
【2】Sachin Kumar and Yulia Tsvetkov. 2019. Von Mises Fisher loss for training sequence to sequence models with continuous outputs. In ICLR.
【3】Desmond Elliott and Akos K ` ad´ ar. 2017. Imagination ´improves multimodal translation. In IJCNLP, volume 1, pages 130–141.
【4】Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In ICLR.
【5】Desmond Elliott, Stella Frank, Khalil Sima’an, and Lucia Specia. 2016. Multi30k: Multilingual EnglishGerman image descriptions. In Proceedings of the 5th Workshop on Vision and Language, pages 70–74.

博客记录着学习的脚步，分享着最新的技术，非常感谢您的阅读，本博客将不断进行更新，希望能够给您在技术上带来帮助。

标签：模态,Machine,预测,训练,模型,Prediction,机器翻译,Multimodal,向量
From： https://blog.51cto.com/u_15919249/5959902

论文解读：Multimodal Machine Translation with Embedding Prediction