论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）

标签：EMNLP19 MG 短语 Transformer encoder gram SA 赏析

论文地址

Multi-Granularity Self-Attention for Neural Machine Translation[1]

介绍

现在主流的机器翻译模型基本都是采用多头注意力机制来对句子进行编码解码，但是有一些研究表明，这么多 head 其实并不是都有用的，有些 head 的信息是冗余的，所以本文就想充分利用一下这些冗余的 head 。

此外，统计机器翻译的研究也表明了，对短语的翻译效果可能要好于对单个单词的翻译，所以本文将一些 head 用来建模短语（比如 2-gram 或者 3-gram）。

最后本文在两个翻译任务（WMT14 英译德和 NIST 中译英）上做了实验，效果都要好于普通的 Transformer ，但是运行速度上慢了许多。

多粒度自注意力机制（MG-SA）

整体框架

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_句法树

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_损失函数_02

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_损失函数_03

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_机器翻译_04

绿色框是第一层，有 2 个短语，粒度比较大。红色框是第二层，有 4 个短语，粒度小一点。

短语组合

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_机器翻译_05

最后如下图所示，通过短语划分、短语组合、短语交互，模型得到了不同粒度的各个短语表示：

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_句法树_06

损失函数

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_机器翻译_07

实验

模型是在 Transformer 基础上修改的，把四分之一的 head 还用来做单词级别的 self-attention 。对于 n-gram 划分来说，四分之三的 head 分别用来做 2-gram、3-gram 和 4-gram 短语的 self-attention 。对于句法树短语划分来说，四分之三的 head 正好对应了最高的三层短语的 self-attention 。

实验主要得出了三点结论，如果不想看细节的，可以只看结论了：

融入了 MG-SA 的 Transformer 的确提高了机器翻译的 BLUE 得分。
MG-SA 确实可以促进目标短语的生成。
MG-SA 确实可以捕捉到不同粒度的短语信息。

不同短语组合策略

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_机器翻译_08

可以看出三种策略效果都比普通的 Transformer 好，SAN 的效果最好，所以后面实验都用 SAN 。

不同 encoder 层

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_句法树_09

MG-SA 用的层数越低效果越好，只用在最低层上效果最好（可能是因为直接和单词表示接触，对短语建模更有利），所以后面实验都只用到最低层上。

短语划分、标签监督和短语交互策略影响

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_句法树_10

这个也不用过多解释，说明了句法树划分短语比 n-gram 划分短语效果好，短语标签预测辅助任务确实有用，用 ON-LSTM 融合短语确实要更好。

输出 n-gram 性能提升

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_句法树_11

通过对翻译结果的 n-gram 的 BLEU 得分进行分析，可以看出几种 MG-SA 的变体效果都是好于普通的 Transformer 的，说明了确实可以促进目标短语的生成。

主要结果

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_句法树_12

无论是 Transformer 的 base 还是 large 版本，加上 MG-SA 之后效果都有较大提升，base 版本加上去之后效果甚至逼近了 large 版本，同时参数量并没有多太多。

attention 可视化

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_句法树_13

可以看出，普通的 Transformer（左边）每个词主要聚焦于前后一个词和句子结束标记，而 MG-SA 则大多聚焦于句子的关键词“三峡工程”和“首要任务”。

多粒度标签预测任务

论文赏析【EMNLP19】多粒度自注意力机制（MG-SA）_损失函数_14

做了 5 个探测任务：Voice（主动被动）、Tense（时态）、TSS（根结点下层标签序列预测）、SPC（单词的最小包含短语标签）和 POS（词性标注）。

模型就是在 MG-SA 的 encoder 上面接了一个 MLP ，然后做分类。encoder 分为两种，一种是固定参数，用 NMT 训练好的 encoder ，一种是重新训练 encoder 。

主要得到以下几点结论：

重新训练 encoder 结果比直接用 NMT 的 encoder 效果提升大（除了 SPC 和 POS）。
用句法树划分短语效果比 n-gram 划分短语效果好。
用 NMT 的 encoder 时，只有 SPC 和 POS 效果提升大（主要这两个任务粒度小，都是单词级别的，任务很简单）。
重新训练 encoder 时前三个任务有提升（因为粒度比较大，而后两个仅靠 MLP 就能学的很好了）。

结论

本文提出了一种多粒度的自注意力机制，将其加入到了 Transformer 的 encoder 中。不仅仅是机器翻译任务，其他许多任务例如阅读理解、语言推理、情感分类等都可以用上这种方法，更好的融入短语结构信息。

其实这篇和 Tree Transformer: Integrating Tree Structures into Self-Attention[3]

参考资料

[1]

Multi-Granularity Self-Attention for Neural Machine Translation: http://arxiv.org/abs/1909.02222

[2]

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks: http://arxiv.org/abs/1810.09536

[3]

Tree Transformer: Integrating Tree Structures into Self-Attention: http://arxiv.org/abs/1909.06639

标签：EMNLP19,MG,短语,Transformer,encoder,gram,SA,赏析
From： https://blog.51cto.com/godweiyang/5894334