本周看了一篇论文,论文的题目为:Towards Better Non-Tree Argument Mining: Proposition-Level Biaffifine Parsing with Task-Specifific Parameterization,即走向更好的非树论点挖掘:具有任务特定参数化的命题级双仿射解析。(论文来源:2020-ACL)
目前,大部分的研究都致力于树结构的论点挖掘,然而这些技术缺乏处理更灵活的论点的能力,比如原因边,一个命题(观点)可以有几个父点。该篇论文着重于使用神经模型进行非树论点挖掘,预测命题类型和命题之间的边缘。提出的模型包含了任务特定参数化(TSP),它有效地编码了一系列命题(观点、主张);命题级双仿射注意(PLBA),它可以预测由边组成的非树论点。实验结果表明,与baseline相比,TSP和PLBA都提高了边的预测性能。
用到的两个模型如下:
Task-Specifific Parameterization (TSP)
TSP用两个不同的attention-to-encoder层去保持任务特定的表示。一个用于命题类型,另一个用于边和标签。
Proposition-Level Biaffifine Attention (PLBA)
将双仿射的注意力扩展到预测命题对命题的依赖关系。
该篇论文用到的数据集为CDCP,即Cornell eRulemaking Corpus,康奈尔大学规则制定语料库,它会有更多的灵活边。
任务格式化:
输入:先进行序列标注,先分词(标记为1-N),然后标记每个命题(有M个命题,i)的开始位置和结束位置,记为一对标签。
输出:对于每个给定的跨度i,我们预测它的命题类型、出边和边标签,其中图不一定形成树。
具体方法:
使用wt来表示第t个单词特征集合的连接,每个集合包括一个曲面、一个词性标签、一个GloVe向量和一个可选的ELMo向量。span i的输入词被输入到一个双向的LSTM中:
hSTART(i):END(i) = BILSTM wSTART(i):END(i) .
然后再用双反射注意力技术,最后计算正确分类的得分。
心得:
在我们的模型训练中,我们也可以用到非树结构的论证语料库,因此,我们也可以尝试着使用该篇论文用到的模型,这样可以扩宽语料库以及论点挖掘的类型。
标签:标签,语料库,论文,29,笔记,命题,论点,2022.10,TSP From: https://www.cnblogs.com/qiqi-yi/p/16840097.html