[NAACL19]基于DIORA的无监督隐式句法树归纳

标签：NAACL19 短语 inside outside PTB DIORA 句法树模型

论文地址：

Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencoders

代码地址：

iesl/diora

今天要分享的这篇论文来自NAACL2019，主要利用inside-outside算法推理出给定句子的句法树，不需要任何的监督，也不需要下游任务作为目标函数，只需要masked语言模型就行了。

介绍

无监督句法分析是现在比较热门，也有很多东西可做的方向。有监督的已经做得非常好了，感觉做不下去了，所以做一做无监督的试试。

这篇论文主要用inside-outside算法算出每个span的表示和分数，然后最大化每个叶子结点的分数，类似于bert的masked语言模型。不用像之前的工作那样，需要最后得到句子和短语的表示，然后用来做下游任务。

本文模型简称叫DIORA，也就是Deep Inside-Outside Recursive Autoencoders。inside步骤其实类似chart parser的前向过程，outside步骤用来重构每个单词。

DIORA在好几个数据集上都取得了非常大的提升。

为了理解这篇论文，推荐先去看一下inside-outside算法：

Inside-outside Algorithm in PCFG

DIORA

[NAACL19]基于DIORA的无监督隐式句法树归纳_数据集

[NAACL19]基于DIORA的无监督隐式句法树归纳_结点_02

Outside过程

outside其实计算方法和inside很类似，只是不是通过短语 [NAACL19]基于DIORA的无监督隐式句法树归纳_结点_03 的两个儿子来计算了，而是通过它的父亲结点和兄弟结点计算。

首先看一下下面这张模型图：

[NAACL19]基于DIORA的无监督隐式句法树归纳_ide_04

左边是inside过程，右边是outside过程

[NAACL19]基于DIORA的无监督隐式句法树归纳_数据集_05

目标函数

[NAACL19]基于DIORA的无监督隐式句法树归纳_ide_06

[NAACL19]基于DIORA的无监督隐式句法树归纳_ide_07

CKY解码算法

实验

无监督成分句法分析

首先是在二叉化后的PTB和MultiNLI数据集上的结果：

[NAACL19]基于DIORA的无监督隐式句法树归纳_ide_08

PTB测试集结果

[NAACL19]基于DIORA的无监督隐式句法树归纳_结点_09

MultiNLI结果

+PP表示做了后处理，也就是预测的时候去掉标点，最后直接把标点连接到根结点，这样效果会好很多。

从PTB数据集结果可以看出，DIORA+PP的提升是最大的（ON-LSTM由于论文发表时没有出代码，所以没有实现），而其他几个模型提升很小甚至还有下降（PRPN-LM）。

并且DIORA产生出的句法树的平均深度是最深的，这也是由于这个模型和前两个模型（PRPN、ON-LSTM）的区别导致的，前两个模型并没有显式地对句法结构进行建模，没有办法得到没有短语结构的表示，而DIORA是按照常规的句法分析的框架来做的，可以显式地得到每个短语的表示与得分。

MultiNLI结果类似，但是有个区别就是，这个数据集的句法树不是标准的，而是通过斯坦福的parser生成的，所以不一定对。所以这个数据集其实考量的是模型对另一个已知模型的拟合能力。

然后是WSJ-10和WSJ-40上面的结果，也就是PTB中长度不超过10和40的句子组成的数据集：

[NAACL19]基于DIORA的无监督隐式句法树归纳_结点_10

WSJ-10和WSJ-40结果

这里为了和之前的论文统一，没有进行二叉化，所以预测出来的句法树F1值有个上限，就是上表中的UB值。可以看出WSJ-40效果还是不错的，但是在WSJ-10上面没有一个神经网络方法能超过之前的传统方法（CCM和PRLG），说明句子长度过短，神经网络的学习能力还有待提高。

无监督短语分割

这个任务就是看模型识别出了句子中有多少个短语，其实包含在刚刚的句法树结构中了。数据集还是用的PTB，结果如下：

[NAACL19]基于DIORA的无监督隐式句法树归纳_数据集_11

PTB短语分割召回率

可以看出除了两个短语类型，其他短语类型识别出的召回率还是很高的。

短语相似度

短语相似度任务是这样的，首先用DIORA算出每个短语的表示，然后两两短语之间算cos相似度，对于一个短语，如果与它最相似的K个短语的label和它一样，那么这个短语就预测对了。下表是在CoNLL2000和CoNLL2012数据集上的准确率：

[NAACL19]基于DIORA的无监督隐式句法树归纳_结点_12

短语相似度结果

其中ELMo分为三种设置，CI表示只输入短语的每个单词然后取平均得到短语表示，SI表示输入一整个短语，最后一个就是输入整个句子了。DIORA的话用短语的inside和outside表示拼接得到。

结果表明，CoNLL2000中DIORA效果最好，但是CoNLL2012的话ELMo效果最好，这也说明了DIORA在细粒度的语料上还有提升空间。还有一点奇怪的就是，在CoNLL2012上，ELMo-CI的效果竟然比ELMo-SI还要好，这也是没法解释的。

最后就是一些模型设置，比如TreeLSTM和MLP对效果的影响，这些部分就去看论文吧。

总结

未来工作主要放在：

提升细粒度语料准确度。
训练更大语料，增加额外的目标函数
跨领域、跨语言。

标签：NAACL19,短语,inside,outside,PTB,DIORA,句法树,模型
From： https://blog.51cto.com/godweiyang/5894600

[NAACL19]基于DIORA的无监督隐式句法树归纳

介绍

DIORA

Outside过程

目标函数

实验

总结

相关文章

赞助商

阅读排行