[论文阅读] Template-Based Headline Generator for Multiple Documents

标签：Documents Based Generator 模型摘要生成文档标题句子

pre

title: Template-Based Headline Generator for Multiple Documents
accepted: IEEE Access
paper: https://ieeexplore.ieee.org/document/9729734/
code: https://github.com/klks0304/mud2h
pandoc: pandoc "[论文阅读] Template-Based Headline Generator for Multiple Documents.md" -o "[论文阅读] Template-Based Headline Generator for Multiple Documents.docx" --reference-doc=custom-reference.docx

关键词：多文档摘要，图神经网络，标题生成，二阶段架构, soft template

摘要模型

ref: https://zhuanlan.zhihu.com/p/135468859

摘要模型（Summarization model），也称为文本压缩模型（Compression model），用于将长文本（source）压缩为短文本（summaries），同时不丢失source的主要信息，使得人们可以浏览较短的summaries获悉source的主要内容。

根据摘要不同的生成方式，可以将摘要模型分成两类：抽取式摘要模型（Extractive Summarization model）和生成式摘要模型（Abstractive Summarization model）。

抽取式摘要模型

抽取式摘要模型指，从source中选择合适的句子作为summaries的模型，要求被选择的句子同时满足两个要求：

包含source中全部的重要信息，并与其在逻辑上保持一致，这实际上是在强调summaries的information recall
具备最低的冗余性，即包含类似信息的句子不应同时出现在summaries中，包含非重要信息的句子不应出现在summaries中，这实际上是在强调summaries的information precision。

抽取式摘要生成任务通常被视为sequence labeling task，decoder沿着待压缩文档逐句进行二分类，每一步解码时，综合当前的句子语义信息、上一步的解码状态和待压缩文档的全局语义信息，判断当前的句子是否应被选择为摘要。

因此抽取式摘要能以较高标准满足上述两个要求，但是摘要的内容直接从原文抽取，文本连贯性很差，如果涉及实体的指代（如：he、it、this等）还需要进行指代消解（coreference resolution）。为此，生成式摘要模型被提出来用于生成更加连贯的summaries。

生成式摘要模型

生成式摘要模型指，根据source的重要信息，由decoder自发地生成summaries。与抽取式摘要一样，生成式摘要仍需满足上述的两个要求，即信息性和冗余性；同时，与抽取式摘要相比，生成式摘要具备更高的抽象性（abstraction）和连贯性（coherence/fluency），在信息的表达方式上具备更高的自由度。

生成式摘要模型通常采用seq2seq框架，encoder编码待压缩文档的语义信息，decoder通过attention机制自适应地选择有效的上下文信息，逐字生成连贯的、信息一致的摘要。

decoder具备更高的自由度，摘要更连贯，如果经过LM objective预训练则更为明显，更难满足那俩要求，容易出现以下几个错误:

生成与source重要信息无关的内容，甚至生成与source重要信息在逻辑上相悖的内容，当source中涉及大量的实体（entity）和关系（relation）时，这种情况尤其明显
decoder在生成较长的摘要时，忘记之前已经对某个重要信息进行压缩，因而不断地对该重要信息进行重复压缩，生成重复的摘要，提高了冗余性。

生成式摘要会遇到OOV问题：为了提高decoder的生成效率，decoder总是使用有限的vocabulary，在decode过程中，decoder的vocabulary可能缺少用于描述source重要信息的tokens，尤其是source中的一些重要实体和关系，此时decoder生成<UNK>。为了缓解这种情况，常给生成式摘要模型增加copy mechanism，即当decoder的vocabulary没有包含某个描述source重要信息的token时，从source中复制该token，而非生成<UNK>

实践中来看，增加copy mechanism的生成式摘要模型生成的摘要的抽象度（不从source中copy token的概率）往往大幅下降

针对问题

从多文档摘要、生成标题

INTRODUCTION

信息爆炸时代通过标题决定文章是否有阅读价值很有用。
所提模型 "from Multi-Document to Headline"，包含两阶段：多文档摘要跟多文档标题生成。

该模型可以生成接近用户偏好的真实定制化标题，而不是hard-template方式输入用户名跟目的地（这俩个是数据集里面的属性吧）

不同于TemPEST，Rerank增加了用户点击历史，用以找出用户偏好的模板风格。这里选择用户偏好的模板直接开始，避免了编码器稀疏输入的问题（没看TemPEST不大好理解，难道是所有模板都输入，只有少数偏好的，因此较为稀疏？），Rewrite部分使用 single selective encoder（啥？网上没有）

贡献

提出MuD2H，第一个使用图神经网络学习表征嵌入的工作，能捕捉多个文档间句子的关系。靠这些嵌入将单一文档的标题生成SOTA模型扩展到多文档。
MuD2H使用基于template的方法，引入soft template作为额外输入来指导seq2seq模型。标题template的选择基于用户点击历史数据，随后基于句子嵌入和所选template用双向选择编码器（bi-directional slective encoder）生成标题。
创建了多文档标题生成的新数据集
实验显示本文的句子选择方法能选出保持相关性跟多样性的关键句。提出的MuD2H不仅在Rouge方面超越baselines，也能生成用户更满意的标题。

核心思想

整体是二阶段的方法，extract-abstract，创新在于根据用户点击历史数据选择几篇相近文章的标题作为soft template，然后加一个损失项约束生成的标题与之相似，标题使用双向选择编码器（bi-directional slective encoder）生成

方法（模型）流程

本文的模型也分了两个阶段

图1 MuD2H的框架，分成extractor, abstractor两个阶段

在生成输入文档的标题之前，我们抽取句子以生成文档的大体含义。总的来说，第一阶段是extractor，第二阶段是abstractor。图1显示了所提模型的结构。

THE EXTRACTOR

extractor部分，给定文档集D，目的是从这些文档中抽取一些有代表性的句子，每个文档\(d_i\)又由句子集S组成，用\(M_i\)表示\(d_i\)中的句子数量

传统的基于抽取的摘要方法依赖于人工特征。为了解决这个问题，我们提出了一种数据驱动方法，采用了基于图的学习方法模型。建立了一个句子关系图来捕捉句子之间的关系，每个句子都被送入一个递归神经网络来生成句子嵌入。接下来用图卷积网络处理句子关系图，并将句子嵌入作为输入节点特征，这样可以为每个句子产生一个高阶隐藏特征。

之后，我们使用线性层来估计每个句子的显著性得分，这样有助于模型从文档中提取合适的句子。最后，我们贪心地选择突出句子来表示输入文档集，而不是选择具有最高显著性分数的那些句子。

SENTENCE RELATION GRAPH

句子关系图中，每个顶点表示一个句子\(s_{i,j}\)，\(s_{i,j}\)跟\(s_{i',j'}\)之间无向边的权重代表相似度。

我们使用每个句子对\((s_{i,j},\; s_{i',j'})\)之间的余弦相似性来构造一个完整的图。然而，如果我们直接输入这个语义句子关系完整图，该模型就不能有效地工作，因为完整图中有太多的冗余信息。

为了强调具有更高相似度的句子，我们设置了阈值\(t_g\)，并删除了权重低于阈值的边。句子关系图通过显著性估计的图卷积网络表示为邻接矩阵A。关系图生成过程的算法形式在算法1中给出。

图算法1 句子关系图

SENTENCE EMBEDDING

给定文档集D，编码所有句子，对于句子\(s_{i,j}\)里的所有单词，每个词都转换成词向量，然后喂入句编码器去生成\(s_{i,j}\)的句编码\(s'_{i,j}\)，其维度是\(d_s\)，使用GRU作为句编码器，最后一个隐层的状态作为句编码。所有文档集的句编码如下拼接

\[X = \left[s_{ 1, 1}^{\prime} \ldots s_{ i, j}^{\prime}\right]^T \in \mathbb{R}^{M\times d_s} \tag{1} \]

注意M表示所有出现在文档集D的句子数量。矩阵X是用于图卷积网络的特征矩阵。

SALIENCE ESTIMATION

图卷积网络是一种多层神经网络，它直接对图进行操作，并基于其邻居的属性导出结点的嵌入向量。分层线性公式（Layer-wise linear formulation）允许模型捕获句子中更高级别的隐藏特征。在该步骤中，使用邻接矩阵A来表示句子图，并使用X作为其特征矩阵的表示。

\(A \in \mathbb{R}^{M\times M}\)，是句子关系图的邻接矩阵，M是顶点数量，其中1表示结点相连，0表示不相连
\(X \in \mathbb{R}^{M\times d_s}\)，输入的结点特征矩阵，\(d_s\)是特征向量维度

这一步的输出是每个结点的高级隐特征，\(S^{\prime\prime} \in \mathbb{R}^{M\times F}\)，其中F是输出向量嵌入的维度。为了在聚合（aggregate？）中纳入结点自己的特征，为邻接矩阵A增加了self-loops，有\(\tilde{A} = A + I_M\)，其中\(I_M\)是单位矩阵（identity matrix），propagation规则如下：

\[S^{\prime\prime}=ELU(\hat{A}\cdot E L U(\hat{A}X W_{0}+b_{0})W_{1}+b_{1}) \tag{2} \]

\(\hat{A}\ =\ D^{-\frac{1}{2}}\tilde{A}D^{-\frac{1}{2}}\) 是归一化的对称邻接矩阵，D是度矩阵，第i个对角元素恰好为\(\tilde{A}\)第i行元素和，

注：度矩阵是对角阵，对角上的元素为各个顶点的度，顶点\(v_{i}\)的度表示和该顶点相关联的边的数量。
再注：推测加的self-loops表示结点到自身的一条边，所以D的元素才会是\(\tilde{A}\)第i行元素和

\(W_l\)是要在第i层中学习的输入-隐层权重矩阵（这\(W_l\)是不是该写成\(W_i\)，毕竟l都没出现过），\(b_i\)是偏置向量。我们使用指数线性单元（ELU）代替线性整流函数（或修正线性单元，Rectified Linear Unit, ReLU）作为激活函数，因为指数线性单元倾向于更快地将损失（cost）收敛到零，并更好地处理消失梯度问题。随后，我们使用线性层将每个句子的高级隐藏特征投影为显著性得分。此外，我们通过softmax标准化显著性得分：

\[sal(s_{i,j})=s o f m a x(s_{i,j}^{\prime\prime}W_{2}+b_{2}) \tag{3} \]

其中\(s_{i,j}\)是第i个文档的第j个句子，而\(s_{i,j}^{\prime\prime}\)是句子集S第(\(\sum_{i^{\prime}=1}^{j}M_{i^{\prime}-1}+j\))行的元素，其中\(M_0=0\)

注：关于ReLU论文的描述是Reflect Linear Unit，这玩意搜不到，感觉说的应该是Rectified Linear Unit

TRAINING

以前的工作，使用交叉熵损失进行训练。用交叉熵训练模型时，损失倾向于输出接近0或1的分数，这可能会给排名造成问题（obstacle for ranking）。为了克服这个问题，我们训练了具有对比损失的模型。

由于通过显著性得分来选择句子，所以句子选择问题可以被认为是一个排序问题。句子之间的相对排名被认为比绝对分数更重要，而对比损失给出了相对排名分数。因此，参考对比损失，我们将排名损失（ranking loss）定义为

\[\mathcal{L} = \frac{1}{2}\sum_{s_{i},s_{j}\in S}\left((1-y)\cdot D(\mathrm{sal}(s_{i}),\mathrm{sal}(s_{j}))^{2} % + y\cdot\operatorname*{max}\left(\mu-D\big(\ sal(s_{i}),\ sal(s_{j})\big),0\right)^{2}\right) \tag{4} \]

其中y是一个标签，表示距离与\(\sigma = \sqrt{V a r(R(S))}\)比，两个句子的排名是相似（y=0）还是远离（y=1）。μ是设定的边距（margin）。D表示两个给定句子之间的距离，这里使用欧式距离。更准确地说

\[D(x_{i},x_{j})=\left\|x_{i}-x_{j}\right\|. \tag{5} \]

以及

\[y= \begin{cases} 0,\quad if\,D(R(s_{i}),R(s_{j}))\leq\sigma\\ 1,\quad if\,D(R(s_{i}),R(s_{j})) > \sigma \end{cases} \tag{6} \]

其中\(R(s) = s ofm a x(r(s))\)，\(r(s)\)是句子s的ROUGE-1召回分数，与ground-truth比较而来
注：Rouge(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

公式4第一项，y=0时启用，目标函数表示如果两个数据点应当相似（y=0），就最小化它们的显著性分数的差值，尽量将二者拉近。

公式4第二项，y=1时启用，当两个数据点之间的距离应当比较远（y=1），同时距离又小于margin时，就将距离替换为margin，给损失函数一个惩罚（因为此时实际距离不够远），否则离得够远以至于小于\(\mu\)，这时损失为0，看起来像一个hinge loss

公式6的\(\sigma\)根据公式是R(S)方差的平方根，S大写，按前面所说是整个句子集，所以\(\sigma\)是所有句子ROUGE-1召回分数的标准差，用在这里像是起到阈值的作用，只要两个句子的分数差小于它就被认为是相近的，y赋为0

SENTENCE SELECTION

在根据模型的预测分数按降序排列句子后，开始选择句子。并非直观地选择Top-k个句子，而是应用贪心策略，它能够选择多样化的句子，而不是重复意义的句子。

每次从列表顶部选择一个句子时，检查它是否与现有句子重复。为了确定句子是否冗余，使用tf-idf余弦相似度。

图算法2：句子选择算法

参考伪代码算法2，对于句子s和所选句子集C，如果s和C中某个句子之间的余弦相似性高于阈值\(t_s\)，则该句子被认为是多余的，丢弃。否则只要非空就选择该句子，重复这个步骤，直到达到预期的句子数n。算法形式如算法2所示。（redThe algorithmic form us shown in Algorithm 2，什么破句子）

这种方法作者称之为贪心，跟top-k差别在于多了个去重操作

THE ABSTRACTOR

在abstractor中，我们的目标是生成一个标题，它需要个性化、吸引人、忠于原文且在长度限制内。因此，我们参考了以往abstractor中基于template的摘要框架。

abstractor的输入是extractor生成的句子集合。这些句子是连在一起的，因此可以认为是一篇文章。每个文章\(A_r\)由n个单词\(\{x_{i}^{a}\mid i\in[1,n]\}\)构成。设T表示训练语料库中的一组模板，\(T＝\{t_i|i\in [1，p]\}\)，其中p是数据集中所有候选模板的数量。

对于给定的文章，我们使用信息检索（IR）平台从T中找出一些soft template候选，然后通过重新排列或用户点击历史来进一步选择最佳模板\(T'=(x^t_1，x^t_2，…x^t_n)\)。随后，我们扩展了seq2seq模型，通过从\(A_r\)和\(T'\)学习重要信息来生成标题。

RETRIEVE AND RERANK

Retrieve和Rerank的目标是为\(A_r\)选择最佳 template t。Retrieve旨在从训练语料库中返回一些template候选，假设相似的句子具有相似的摘要模式。

因此，给定一篇文章，在训练语料库中找到其相似的文章（analogy），并选择其标题作为模板候选。给定\(A_r\)，使用IR系统\(Pylucene^2\)检索一组类似的文章，它们的标题将被视为模板候选。对于每个\(A_r\)，选择前30个搜索结果作为模板候选。

检索过程仅基于单词匹配或文本相似性，不测量它们的深层语义关系。因此，使用Doc2Vec嵌入来计算余弦相似度，以识别候选模板中的最佳模板。

此外，在我们的工作中，我们希望生成的标题是个性化的，因此我们添加了用户点击历史，以帮助我们选择模板。我们将用户单击的产品的标题记录为用户单击历史。因此，在Rerank过程中，我们加入用户点击历史以计算候选模板的余弦相似度，从而为\(A_r\)选择所需的模板t。

REWRITE

我们在Rewrite中的实现模型受到BiSET和选择性机制的启发。在Rewrite之前，注意有一篇源文章\(A_r\)及其从Retrieve和Rerank中学习到的模板T′。我们使用两层BiLSTM作为编码器层，分别将文章和模板编码为隐藏状态\(h^a_i\)和\(h^t_j\)。

图2 选择编码器

Rewrite的作用是选择重要信息。如图2所示，有两个选择门：模板到文章（T2A）门和文章到模板（A2T）门。

T2A门可以应用模板来过滤文章表示。我们将最后一个前向隐藏状态\(\overrightarrow{h_n^t}\)和后向隐藏状态\(\overleftarrow{h_1^t}\)连接起来作为模板表示\(h^t\)。对于每个时间步i，它将\(h^t\)和\(h^a_i\)作为输入，以输出模板门向量\(g^i\)，用以从\(h^a_i\)中选择 :

\[g_{i}=\sigma\left(W_{a}h_{i}^{a}+W_{t}h^{t}+b_{a}\right) \tag{7} \]

\[h_{i}^{a^{\prime}}=h_{i}^{a}\odot g_{i} \tag{8} \]

其中\(\sigma\)表示sigmoid激活函数，\(\odot\)是逐元素乘法，经过T2A门之后得到了向量序列\((h_{1}^{a^{\prime}}, h_{2}^{a^{\prime}}, \ldots, h_{n}^{a^{\prime}}).\)

这个门看起来就是根据template隐向量输出门向量，将文章向量\(h^a_i\)做一个过滤，见图2下半部分，结果\(h_{i}^{a^{\prime}}\)应该是带有template信息的文章向量

A2T门的目的是控制\(h_{n}^{a^\prime}\)在最终文章表示中的比例。假定源文档可信，因此当前阶段文章\(A_r\)也是可信的，可以学习置信度d来决定\(h_{n}^{a^{\prime}}\)的比例

\[d=\sigma\left((h^{a})^{\top}W_{d}h^{t}+b_{d}\right) \tag{9} \]

\(h^a\)跟\(h^t\)产生方式一样：拼接前向隐藏状态\(\overrightarrow{h_{n\prime}^a}\)和后向隐藏状态\(\overleftarrow{h_1^a}\)，（感觉这个\(n\prime\)上标好像是多余的啊）

最终文章表达通过\(h^{a}\)和\(h^{a'}\)的加权和来计算得到：

\[z_{i}^{a}=d\cdot(h_{i}^{a^{\prime}})+(1-d)\cdot(h_{i}^{a}) \tag{10} \]

上述是输入文章的编码部分，选择重要信息然后给出向量表达。应该是通过门机制将一部分模板信息融入了文章中。

在解码部分（这里对应图1下半部分中间的Decoder部分），堆了两层LSTM，然后使用注意力机制生成标题。每个时间步t，LSTM读入前一个词嵌入\(w_{t-1}\)和上一步的隐层状态\(h^c_{t-1}\)，然后为当前步生成一个新的一层状态：

\[h_{t}^{c}=L S T M(w_{t-1},h_{t-1}^{c}) \tag{11} \]

其中LSTM初始隐层状态就是原始文章表达\(h^a\)

这作者讲得真的好细，每一步，每个状态怎么来的，感觉很适合刚入门的人阅读，挺友好，只是有些标记出来得仍有些突然。

当前时间步长t的上下文向量\(c_t\)通过串联注意力机制?（concatenate attention mechanism）来计算，该机制使用\(h^c_t\)和\(z^a\)来获得重要性得分。然后将重要性得分归一化以通过加权和获得当前上下文向量：

\[c_{t}=\sum_{i=1}^{L}a_{t,i}z_{i}^{a} \tag{12} \]

\[a_{t,i}={\frac{\exp(e_{t,i})}{\sum_{i=1}^{L}\exp(e_{t,i})}} \tag{13} \]

\[e_{t,i}=(z_{i}^{a})^\mathsf{T}W_{c}h_{t}^{c} \tag{14} \]

这公式实际上得倒着看，先算重要性分数\(e_{t,i}\)再根据它加权\(z_{i}^{a}\)得到当前的上下文向量\(c_{t}\)

之后使用连接层将\(h^c_t\)和上下文向量\(c_t\)组合为新的readout隐层状态\(h^o_t\)：

\[h_{t}^{o}=\operatorname{tanh}\left(W_{o}[c_{t};h_{t}^{c}]\right) \tag{15} \]

最终\(h^o_t\)喂入softmax来输出目标词分布，以根据已有的词\(w_1,w_2,\ldots,w_{t-1}\)预测下一个词\(w_t\)：

\[p\bigl(w_{t}\mid w_{1},\ldots,w_{t-1}\bigr)=s o f\iota m a x\bigl(W_{p}h_{t}^{o}\bigr) \tag{16} \]

TRAINING

目标函数包括两部分。为了学习标题的生成，我们最小化生成的标题w和人类书写的标题\(w^*\)之间的负对数似然:

\[\mathcal{L}_{h}=-\frac{1}{M}\sum_{i=1}^{M}\sum_{j=1}^{L}\log p(w_{j}^{*(i)}|w_{j-1}^{(i)},x^{a(i)},x^{t(i)}) \tag{17} \]

为了学习template的风格，最小化生成标题w跟template \(w^t\)之间的负对数似然：

\[\mathcal{L}_{t}=-\frac{1}{M}\sum_{i=1}^{M}\sum_{j=1}^{L}\log p(w_{j}^{t(i)}| w_{j-1}^{(i)}, x^{a(i)}, x^{t(i)}) \tag{18} \]

换句话说，调整\(\mathcal{L}_{h}\)优化了来自输入文档的信息。如果\(\mathcal{L}_{h}\)很小，那么它接近于输入集的原始含义。另一方面，调整\(\mathcal{L}_{t}\)可以优化标题的个性化风格。当\(\mathcal{L}_{t}\)较小时，它更接近用户的偏好模板，因此输出个性化的标题。结合上面两个可得最终的目标函数：

\[\mathcal{L} = \mathcal{L}_{h} + \alpha\mathcal{L}_{t} \tag{19} \]

这个\(\mathcal{L}_{t}\)应该就是利用RETRIEVE AND RERANK部分选择的soft template指导标题生成，M：所有出现在文档集D的句子数量；直接约束生成的标题跟template接近，真够soft，\(\alpha\)估计得小于1，不然意思怕是要被带偏，毕竟template跟groundtruth肯定是有差别的。

而这里的soft是与hard template相对的，hard方式实际上是填空，感觉类似prompt，模型抽出关键词填入template留空的位置，比较僵硬

EXPERIMENT

这项工作的目标是为输入文档集生成合适的标题。更具体地说，我们将
问题转化为以下几个点：

如何构建句子关系图以实现模型的最佳性能？
我们的抽取器是否优于其他基于extraction的摘要模型？
使用完整的两阶段架构模型是否比仅使用abstractor模型更好？

DATASETS

表1 展示数据集中产品介绍跟描述的差异

自建的新数据集来自KKday（总部位于台湾的在线深度旅游体验平台），内含产品描述、产品介绍跟博客文章。数据集可参考表1。博客文章介绍一个景点（attraction）且包含多个与之有关的产品，因此博客文章及其标题是用以跟生成的标题进行比较的baseline。

KKday提供来自90多个国家的30000多种产品，包括当地旅游、活动和门票。我们使用产品介绍、描述和标题来训练extractor。

KKday博客数据集提到的多个文档中不同的产品为MuD2H应用提供了研究材料。平均而言，每个博客都提到了八种产品。MuD2H生成的标题与博客文章的原始标题进行了比较。

图3 产品介绍和博客数据之间的关系。博客标题当做其中介绍的k个产品的多文档标题

表2 数据集概述

总之，80%的数据集被分配用于训练，20%用于验证和测试。图3描述了产品介绍和博客信息之间的关系。补充材料中提供了数据集和实现细节，不过下发的pdf没有附录就偷个懒吧。数据集概述见表2。

IMPLEMENTATION DETAILS

为了设置句子关系图的边权重，我们根据以下实验设置\(t_g=0.1\)，这是上述SENTENCE RELATION GRAPH部分用于修剪句子图的阈值。每个文档都由Chinese Knowledge and Information Processin（CKIP）标记。Word2Vec和Doc2Vec嵌入使用gensim实现，并在最新的中文维基百科数据集上进行预训练。句子嵌入的输出维度与单词嵌入相同，即250。

对于图卷积网络，将第一卷积层的嵌入大小设置为400，将第二卷积层的嵌入大小设置为128。batch size为16。学习率为0.0075，使用Adam进行随机梯度下降，窗口大小为10，并且启用early stopping。我们在线性层之前应用概率为0.2的dropout。句子选择中的阈值\(t_s\)为0.8（根据验证集调整）。

对于abstractor，我们参考BiSET构建我们的架构，BiSET是从流行的seq2seq框架OpenNMT扩展而来的。单词嵌入和LSTM隐藏状态的大小设置为500。此外，使用Adam优化器以0.001的学习率优化目标函数。对于所有baseline，我们使用其原始论文或实现中的默认参数设置。

EVALUATION METRICS

为了分析句子关系图中不同方法的影响，我们使用ormalized Discounted Cumulative Gain（NDCG）进行评估。NDCG是一种排名评估指标，训练extractor时将问题视为ranking问题，因此我们使用NDCG进行性能比较。

对于摘要任务，我们采用Rouge分数进行自动评估。Rouge-1和Rouge-2是最大公共子序列长度的比率，Rouge-L可以找出原始摘要和预测摘要之间最长的单词公共子序列。

此外，我们使用Word2Sec余弦相似度来度量输出和每个文档之间的平均相似度，因为希望输出能够表达每个文档的含义。

注：Rouge-N的N是n-gram的n，看起来表示连续的n个词；L即是LCS(longest common subsequence，最长公共子序列)的首字母。Rouge-N跟Rouge-L计算公式不同，而且Rouge-家族还有其他的成员，但都是用于衡量自动生成的摘要与参考摘要之间的“相似度”。

SENTENCE RELATION GRAPH COMPARISON

将句子转换为数字结果，不同转换方法将影响我们的句子关系图。作者尝试了不同的方法，包括两种嵌入方法（LexRank和TextRank）。将\(t_g\)值从0转换为0.2，以观察影响。考虑的方法包括：

Cosine：计算每个句子对的Word2Vec余弦相似度
TextRank：创建一个加权图，其中结点是句子，边基于单词重叠的相似性度量定义。然后使用类似于PageRank的算法来计算句子的重要性和精确的边权重。提取PageRank中使用的描述马尔可夫链的转移矩阵。
LexRank：一种广泛使用的、基于句子图中特征向量中心性概念的多文档抽取式摘要器，用于设置边权重。我们构建了一个以句子为节点的图，并通过tf-idf余弦相似度对边进行加权，然后运行类似PageRank的算法。
tf-idf：将一个句子视为查询，将多文档中的所有句子视为文档。权重对应于每个查询对之间的余弦相似度。

表3 基于NDCG构建的句子关系图分析

表3是实验结果。我们为其余的MuD2H模型（本文模型）选择了实验结果最佳的方法和参数。结果表明，在NDCG评估中，使用余弦相似度构建句子关系图明显优于其他方法。可能的原因是余弦相似性依赖于句子的语义，而不是其单词匹配。

QUALITATIVE RESULTS

表4 多种多样基于抽取的模型在测试集上的Rouge召回分数

首先，将extractor模型与一些基于抽取的摘要进行了比较。表4显示了ROUGE召回分数的结果。Random表示在本文的句子选择集中随机选择k个句子，Top-k通过余弦相似性获取最相似的句子。与传统方法相比，例如TextRank和Continuous LexRank（Cont.LexRank），本文的模型在Rouge评分中表现更好。

基于图的SOTA方法SemSentSum是一个完全数据驱动的模型，使用交叉熵作为目标函数。跟设想的一样，它在Rouge-2和Rouge-L中优于其他传统baseline，但本文的模型仍然表现更好。

这是因为句子排名在深层开始变得不稳定，因为SemSentSum将交叉熵作为其目标函数，损失趋于消失，而我们的对比损失函数发挥了作用。

最大边际相关性（Maximal Margin Relevenc, MMR）是一种著名的多文档贪心算法，并且有了不少改进被提出。为了进行比较，我们使用SOTA基于短语嵌入的MMR作为baseline。它专注于生成非冗余摘要，因此其输出具有相对较高的单词多样性。

Top-k的Rough-1得分（标红的第二行）高于Rouge-2和Rouge-L得分。可以看出，Top-k的这些分数与所提出的方法接近，这意味着Top-k也可以包括含义相近的句子。

表6 展示句子选择方法优势的案例研究（Case study）。每个例子包含7个句子，top-k选的第二句是重复的，跟第一句含义相似。避免重复的句子可以是得模型捕获更多的意思（英文根据中文翻译）

然而，表6提供了一个案例研究证明Top-k的局限性。简而言之，Top-k会选择具有重复意义的句子。如表6所示，Top-k选择的第一句和第二句都是关于环球快车通行证（Universal Express Pass）的。

相反，本文提出的方法可以通过考虑多样性和相关性来选择句子，结果显示了所提方法的优点。然而，很难确定找多样的句子是否关键，因为可能找到更多离题的句子。从结果来看，基于图的方法，包括我们的模型和SemSentSum在内，在ROUGE召回分数方面优于MMR。

在多文档摘要任务中，一个重要的目标是生成的结果需要表达每个文档的焦点。这个问题是在语义层面，所以我们采用了Word2Sec相似性。我们测量输出和每个输入文档之间的平均相似度和标准差。平均相似度应尽可能大，但标准差应尽可能小。

表5 extractor输出跟每个文档之间的平均Word2Vec余弦相似度跟标准差

表7 不同extractor加上abstractor的实验结果

表5显示了不同模型的余弦相似性。我们的模型具有最高的平均余弦相似度。由于我们的输入文档集具有明确的关系，例如，同一博客中提到的产品必须来自同一个城市，因此成功的多文档模型至少应该抓住城市特征。如果模型捕捉到了共同特征，则很容易在实验中获得高分。换句话说，我们选择的模型很难获得低分。

为了证明我们的两阶段模型有用，分别使用不同extractor的输出和直接拼接文档作为模型的输入。表7显示了实验结果。

使用Rouge F1分数衡量生成的标题和人类书写标题的相似度，使用平均Word2Sec余弦相似度衡量生成的标题和每个文档。

当我们在第一阶段使用extractor时，模型的性能更好。作者认为这是因为extractor专注于捕获跨文档的信息（capturing cross-documents）。此外，我们的完整模型优于所有基线模型，展示了在真实数据集应用上的最佳结果。

QUANTITATIVE RESULTS

HUMAN EVALUATION

除了自动评估，我们还在真实案例中进行人工评估摸索模型性能（access model performanc）。对31名用户进行了用户调查，包括计算机科学研究生和网络用户。每个示例都包含一组由不同方法生成的产品介绍和标题，要求用户按照1到4的级别（scale）对每个标题进行排名。

表8 人类评估的排名结果，Average（最后一列）是平均排名

表8中的结果显示，最吸引人的标题是人类书写的，第二名是由本文的模型生成的。在我们的统计中，65%的人认为人类书写的标题是最好的，50%的人认为本文的模型生成的标题仅次于人类书写的。不管怎么说，本文的模型比所有这些自动生成的标题都更好。

CASE STUDY

表9 本文完整模型产生的个性化标题的输入样例（英语由中文翻译而来）

表10 本文完整模型产生的个性化标题结果（英语由中文翻译而来）

表9和表10显示了个性化（customized）标题生成任务的案例研究。给定如表9所示的多个产品介绍，我们提出的模型可以根据不同模板生成不同风格的标题，如表10所示。用户可能会青睐不同模板，因此会受到不同标题的吸引。我们根据其他产品的点击历史来设计用户特定的标题。

CONCLUSION

在这项研究中，提出了一个两阶段模型MuD2H，它为多个文档生成摘要和标题。据我们所知，这是第一个为多文档生成标题的模型。为了评估所提出的模型MuD2H，我们从旅游产品的电子商务网站收集了一个新的数据集，其中包含产品描述、产品介绍、博客文章和用户浏览记录。

我们研究的第一阶段涉及基于图的抽取式摘要（extractive summarization）。我们应用图卷积网络来学习句子特征以进行显著性估计，交叉计算确保输出摘要覆盖输入文档集的含义，而不是重复单词或句子。

第二阶段是基于template的生成式摘要（abstractive summarization）。我们从用户的浏览历史中了解他们的文本偏好，然后将他们最喜欢的标题类型作为soft template来指导seq2seq模型。

MuD2H优于现有的摘要模型，并满足公司为不同用户生成个性化标题的要求。此外也提供了人类评估跟样例研究来阐明模型结果。

评价

文章写作清晰易懂，提出的概念、公式都会解释，图漂亮，但图1图2不是很清晰。即便对于完全不熟悉该领域的新手也很友好。只是符号真的太多，阅读恐怕得做下笔记，分两三天看完全不记得标记什么意思。而且公式也很多，对于编写学习报告来说太痛苦了。

原本以为跟图神经网络关系很大，还特意找了相关内容看，结果这里的重点完全不是这个，比较意外

待解明

标签：Documents,Based,Generator,模型,摘要,生成,文档,标题,句子
From： https://www.cnblogs.com/Stareven233/p/16932975.html

[论文阅读] Template-Based Headline Generator for Multiple Documents

pre

摘要模型

抽取式摘要模型

生成式摘要模型

针对问题

INTRODUCTION

贡献

核心思想

相关研究

抽取式摘要

生成式摘要

混合式摘要

方法（模型）流程

THE EXTRACTOR

SENTENCE RELATION GRAPH

SENTENCE EMBEDDING

SALIENCE ESTIMATION

TRAINING

SENTENCE SELECTION

THE ABSTRACTOR

RETRIEVE AND RERANK

REWRITE

TRAINING

EXPERIMENT

DATASETS

IMPLEMENTATION DETAILS

EVALUATION METRICS

SENTENCE RELATION GRAPH COMPARISON

QUALITATIVE RESULTS

QUANTITATIVE RESULTS

HUMAN EVALUATION

CASE STUDY

CONCLUSION

评价

待解明

相关文章

赞助商

阅读排行