摘要生成—通过摘要风格控制摘要的生成/抽取，原文阅读与理解：GEMINI: Controlling The Sentence-Level Summary Style in Abstractive Te

标签：Style 摘要生成器生成 GEMINI 风格我们句子

GEMINI: Controlling The Sentence-Level Summary Style in Abstractive Text Summarization

GEMINI：在抽象文本摘要中控制句子级摘要风格

paper: https://arxiv.org/abs/2304.03548

github: https://github.com/baoguangsheng/gemini

本文介绍了一种自适应摘要抽取/生成方法，通过一个风格检测器，检测输入文本的文本风格，从而确定要使用抽取式还是抽象式的方法进行摘要总结，方法值得学习。

1.背景动机

介绍文本摘要的方法：

目前主要使用两种方法，即抽取式摘要和抽象式摘要。

抽取法从输入中识别出突出的文本片段并将其组合成输出摘要，从而得到冗余且不连贯的摘要，这时可以用重写技术来进一步减少冗余和增加连贯性。
抽象方法在合成输出时应用了自然语言生成，从而获得更简洁、更连贯的摘要，但代价是忠实度下降。

介绍文本摘要的文本风格：

抽取法和抽象法的有效性取决于摘要的总结风格。研究表明，人类在撰写每个摘要句子时会采用不同的文体，本文将其大致分为抽取文体和抽象文体。抽取式文体主要是直接传达文章句子中的观点，而抽象式文体则是传达从不同文章句子中引申出来的新观点。

介绍本文提出的方法—模拟文本风格：

为了更好地适应人类摘要的风格，提出了一个自适应模型GEMINI，其中包含一个重写器和一个生成器，分别用于模仿提取风格和抽象风格。

重写器和生成器集成在一个解码器中，使用一个风格控制器来切换生成器的风格。风格控制器会分配不同的组标签，以便利用输入中的相关句子来引导解码器。在抽象风格中，解码器并不关注特定的句子，而在提取风格中，解码器则更多地关注特定的改写句子。

2.MODEL

1.摘要风格的自动发现：

以往的研究主要在摘要层面测量摘要风格。例如，提取片段的coverage和density来衡量提取度。novel n-grams（出现在摘要中但不在输入文档中）的比例作为抽象性指标。

本文提出融合指数来衡量上下文信息的融合程度，其中考虑了两个因素：

一个文档句子能从摘要句子中召回多少信息？如果召回率高，则该句子更有可能是提取式的，因为只需改写文档句子即可生成。
摘要句与多少文档句子相关？此类句子的数量越多，表明融合度越高，摘要句更有可能是抽象式的。我们的融合指数就是根据这两个因素计算出来的。

Recall：通过将摘要句子与文档句子进行匹配，来衡量可重新调用信息的百分比。给定摘要句子 S S S 和源文件 D = { S 1 , S 2 , . . . , S ∣ D ∣ } D=\{S_{1},S_{2},...,S_{|D|}\} D={S1,S2,...,S∣D∣}，找出最佳匹配句子

R C ( S ∣ D ) = max ⁡ 1 ≤ i ≤ ∣ D ∣ R ( S ∣ S i ) , (1) \small\begin{split}RC(S\mid D)=\max_{1\leq i\leq|D|}R(S\mid S_{ i}),\end{split}\tag{1} RC(S∣D)=1≤i≤∣D∣maxR(S∣Si),(1)
其中， R ( S ∣ S i ) R(S|S_{i}) R(S∣Si) 是给定 S i S_{i} Si 的 S S S 的 ROUGE-1/2/L 召回的平均值，表示句子 S i S_{i} Si 所涵盖的句子 S S S 信息的百分比。

Scatter，分散性：通过将摘要句子与所有文档句子进行匹配来衡量其内容的分散性。如果匹配得分在所有文档句子中平均分布，则散度高；如果匹配得分除一个文档句子外均为零，则散度低。使用从匹配得分中得出的分布熵来计算散度。
S C ( S ∣ D ) = − ∑ j = 1 K p j log ⁡ p j / log ⁡ K , (2) \small\begin{split}SC(S\mid D)=-\sum_{j=1}^{K}p_{j}\log p_{j}/\log K,\end{split}\tag{2} SC(S∣D)=−j=1∑Kpjlogpj/logK,(2)
其中， p j p_{j} pj 是估计的 S S S 是否由相应的文档句子 S i S_{i} Si 生成的概率，计算时使用了前 K K K 最佳匹配值 { r j } ∣ j = 1 K \{r_{j}\}|_{j=1}^{K} {rj}∣j=1K，即
p j = r j ∑ j = 1 K r j , r j ∣ j = 1 K = T o p ( { R ( S ∣ S i ) ∣ 1 ≤ i ≤ ∣ D ∣ } , K ) (3) p_{j} = r_{j}\sum_{j=1}^{K}r_{j}, \\ {r_{j}}|_{j=1}^{K}=\mathrm{Top}(\{R(S|S_{i})\mid 1 \leq i\leq|D|\},K) \tag{3} pj=rjj=1∑Krj,rj∣j=1K=Top({R(S∣Si)∣1≤i≤∣D∣},K)(3)
根据Recall (RC)和Scatter(SC)计算融合指数（FI）。
F I ( S ∣ D ) = ( 1 − R C ( S ∣ D ) ) ∗ S C ( S ∣ D ) , (4) \small FI(S\mid D)=(1-RC(S\mid D))*SC(S\mid D),\tag{4} FI(S∣D)=(1−RC(S∣D))∗SC(S∣D),(4)
表示融合程度，0 表示无融合，1 表示极度融合，其他介于两者之间。

2.介绍GEMINI框架：

GEMINI 采用预训练好的 BART，使用一个风格控制器来决定摘要风格。根据风格，rewriter或generator将被激活以生成每个句子。

3.介绍模型的输入输出：

本文引入了特殊的标识符标记，包括 < S > <S> <S>- 文档的开始，“< S k S_{k} Sk>-句子 k k k 的开始，_,以及 < / S > </S> </S>-句子的结束。我们将输入文档表述为< S S S> < S 1 S_1 S1>t sentence one.< / S /S /S> < S 2 S_{2} S2>sentence two< / S /S /S>…”，其中，序列以标识符"< S S S>“开头，并用”< S k S_k Sk>“和”< / S /S /S>< / S /S /S>“括起每个句子。我们将输出摘要表述为”< S 2 S_2 S2> sentence one . < / S /S /S>< S S S> sentence two . < / S /S /S> …“，其中每个句子都以”< S k S_k Sk>“或”< S S S>“开头，以”< / S /S /S>“结尾。如果摘要句子以”< S k S_k Sk>“开头，去码程序将根据第 k 个文档句子生成该句子。如果摘要句以”< S S S>"开头，解码器将根据整个文档生成句子。

4.文档编码器：

本文扩展了嵌入表，使其包括标识符标记，这样_style controller_就可以匹配它们的嵌入来决定摘要样式，为每个输入句子分配一个组标签，这rewriter就可以依靠这些组标签，利用多头注意力定位改写后的句子

形式上，我们将组标记嵌入表表示为 E m b t a g Emb_{tag} Embtag，并根据每个句子的索引从 X X X 生成唯一的组标记序列 G X G_{X} GX，即

G X = { k if w i ∈ S k else 0 } ∣ i = 1 ∣ X ∣ , (5) G_{X}=\{k\text{ if }w_{i}\in\text{S}_{k}\text{ else }0\}|_{i=1}^{|X|}, \tag{5} GX={k if wi∈Sk else 0}∣i=1∣X∣,(5)
其中，对于第 k k k句子 S k S_{k} Sk中的标记 w i w_{i} wi，会分配一个编号为 k k k的组标记。将 G X G_{X} GX 转换为嵌入式编码，并将其注入 BART 编码器。采用标准的 Transformer 编码层。

5.摘要生成解码器：

用样式控制器和重写器扩展了 BART 解码器，而对于生成器，使用默认的解码器。

文体控制器 使用 Vinyals 等人（2015 年）的注意力指针来预测文体，对每个输入句子（对"< S k S_{k} Sk>“的注意力）或整个文档（对”< S S S>“的注意力）进行权衡。如果”< S S S>"获得的关注分值最大，就选择abs样式；如果< S k S_{k} Sk>获得的关注分值最大，就选择ext样式。

在摘要的开头或摘要句的结尾，我们预测下一个摘要句的风格。我们将标记输出与编码器输出相匹配，以决定选择。

y m a t c h = y o u t × ( x o u t ∗ α + x e m b ∗ ( 1 − α ) ) T , (7) y_{match}=y_{out}\times(x_{out}*\alpha+x_{emb}*(1-\alpha))^{T}, \tag{7} ymatch=yout×(xout∗α+xemb∗(1−α))T,(7)
其中 α \alpha α 是一个可训练的标量，用于混合编码器输出 x o u t x_{out} xout 和标记嵌入 x e m b x_{emb} xemb。我们将这些混合嵌入与解码器输出 y o u t y_{out} yout 匹配，从而获得指针分布的对数 y m a t c h y_{match} ymatch。我们只保留句子标识符的对数，包括"< S S S>“和”< S k S_{k} Sk>"，并使用软最大函数预测分布。

重写器和生成器 ：使用标准解码器作为重写器和生成器的骨干。在改写器中，我们沿用了鲍和张的方法（2021 年），在解码器的输入中应用组标记嵌入。对于生成器，我们不应用分组标记嵌入，因此它不对应任何文档句子。

形式上，给定摘要 Y = { w j } ∣ j = 1 ∣ Y ∣ Y=\{w_{j}\}|_{j=1}^{|Y|} Y={wj}∣j=1∣Y∣，我们根据标识符标记"< S k S_{k} Sk>“和”< S S S>“从 Y Y Y 生成唯一的 G Y G_{Y} GY，即以”< S k S_{k} Sk>“开头的句子中的每个标记 w i w_{i} wi 的组标记为 k k k，以”< S S S>“开头的句子中的组标记为 0 0 0。例如，如果 Y Y Y 是”< S 2 S_{2} S2> w 1 w_{1} w1 w 2 w_{2} w2 w 3 w_{3} w3 w 4 w_{4} w4 < S 7 S_{7} S7>… "序列， G Y G_{Y} GY 将是 { 2 , 2 , 2 , 2 , 0 , 0 , 0 , 0 , 7 , . . . } \{2,2,2,2,0,0,0,0,7,...\} {2,2,2,2,0,0,0,0,7,...} 。

我们不改变解码层，每个解码层都包含一个自我注意模块、一个交叉注意模块和一个前馈模块：

6.Training and Inference:

将 MLE loss 用于标记预测和风格预测。我们计算的总损失为

在inference过程中，样式控制器首先被激活，以决定使用 ext/abs 样式。如果选择 ext 样式，匹配的句子标识符"< S k S_{k} Sk>"将用于为下面的标记符生成分组标记。如果它选择的是 abs 风格，就会为这些标记生成一个 0 的特殊组标记。

7.实验设置：

使用了三个代表不同风格和领域的英语基准数据集。

CNN/DailyMail：由在线新闻文章和人类撰写的要点组成。

XSum：是一个摘要式摘要数据集，由专业作者撰写新文章的一句话摘要。

WikiHow：是从在线知识库WikiHow中提取的一个多样化摘要数据集，该数据集由人类作者撰写。

采用两阶段策略对 GEMINI 进行训练：对新参数进行预微调，然后对所有参数进行联合微调。

8.结论

结果表明，自适应方法比纯抽象模型具有明显优势。

自适应方法比纯重写器更有效

结果表明，与纯粹的改写器和隐式风格控制相比，具有自适应风格的模型更具优势。

3.原文阅读

Abstract

人类专家使用不同的技术撰写摘要，包括从文件中提取句子并改写，或融合文件中的各种信息进行抽象。这些技术非常灵活，因此很难被任何单一方法模仿。为了解决这个问题，我们提出了一个自适应模型 GEMINI，它集成了一个重写器和一个生成器，分别用于模仿句子重写和抽象生成。GEMINI 可以自适应地选择重写特定的文档句子或从头开始生成摘要句子。实验证明，在三个基准数据集上，我们的自适应方法优于纯粹的抽象和重写基线，在 WikiHow 上取得了最佳效果。有趣的是，经验结果表明，根据上下文，摘要句子的人类摘要风格是可以预测的。我们在 https://github.com/baoguangsheng/gemini上发布了我们的代码和模型。

1 Introduction

介绍文本摘要的方法：

文本摘要旨在为给定的文本文档自动生成流畅简洁的摘要。目前主要使用两种方法，即抽取式摘要和抽象式摘要。抽取法从输入中识别出突出的文本片段并将其组合成输出摘要，从而得到忠实但可能冗余且不连贯的摘要，这时可以使用重写技术来进一步减少冗余和增加连贯性。相比之下，抽象方法在合成输出时应用了自然语言生成（NLG）技术，从而获得更简洁、更连贯的摘要，但代价是忠实度下降。

介绍文本摘要的文本风格：

抽取法和抽象法的有效性取决于摘要的总结风格。研究表明，人类在撰写每个摘要句子时会采用不同的文体，我们将其大致分为抽取文体和抽象文体。抽取式文体主要是直接传达文章句子中的观点，而抽象式文体则是传达从不同文章句子中引申出来的新观点。图 1 是一个例子，摘要由两个句子组成。第一个句子是通过改写文档中的句子 < S 2 S_{2} S2> 生成的。与此相反，第二个摘要句子是通过抽象各种句子生成的。这些风格都很灵活，因此很难被单一方法模仿。
在这里插入图片描述

介绍本文提出的方法—模拟文本风格：

在本文中，我们旨在模仿人类摘要的风格，我们相信这可以提高我们控制摘要风格的能力，并加深我们对人类摘要产生方式的理解。为了更好地适应人类摘要的风格，我们提出了一个自适应模型GEMINI，其中包含一个重写器和一个生成器，分别用于模仿提取风格和抽象风格。对于重写器，我们采用了（2021 年）上下文化重写方法，并集成了内部句子提取器。对于生成器，我们使用标准的 seq2seq 摘要器。

重写器和生成器集成在一个解码器中，使用一个风格控制器来切换生成器的风格。风格控制器会分配不同的组标签，以便利用输入中的相关句子来引导解码器。在抽象风格中，解码器并不关注特定的句子，而在提取风格中，解码器则更多地关注特定的改写句子。为了训练这种自适应摘要器，我们使用句子级摘要样式的自动检测来生成oracle提取/抽象样式。

我们在三个具有代表性的基准数据集上评估了我们的模型。结果表明，GEMINI 能够区分摘要风格，使模型更好地适应训练数据。我们的自适应改写生成器网络在基准数据上的表现明显优于强抽象基线和最新的改写模型。有趣的是，实验还表明，在测试期间，句子的摘要风格可以被一致预测，这表明人类在上下文中对摘要句子的摘要风格的选择存在一致性。据我们所知，我们是第一个明确控制每个摘要句风格的人，同时还提高了 ROUGE 分数。我们的自动文体检测指标可在未来对摘要文体进行进一步的定量分析。

2 Related Work

抽象总结器通过在预训练的 seq2seq 模型上进行微调，取得了有竞争力的结果。我们的工作与对摘要句子进行新颖风格控制的贡献不谋而合，因此模型能更好地适应 "句子改写 "和 "长范围抽象 "风格的人类摘要。我们的生成器是一个标准的seq2seq模型，其架构与BART相同，而我们的重写器则与之前的单句重写以及上下文化重写相关。

我们的重写器使用了上下文化重写机制，该机制考虑了每个重写句子的文档上下文，从而可以调用上下文中的重要信息，并保持跨句子的连贯性。不过，与 Bao 和 Zhang（2021 年）依赖外部提取器来选择句子不同，我们使用 Vinyals 等人（2015 年）的指针机制整合了内部提取器，类似于 NeuSum Zhou 等人（2020 年）的自回归选择句子。据我们所知，我们是第一个将改写器和生成器整合到独立抽象摘要器中的公司。

我们的 GEMINI 模型也可以看作是专家混合模型，它可以在重写器和生成器之间动态切换。一个相关的工作是用于 seq2seq 建模的指针生成器网络 See 等人（2017 年），它也可以看作是一个专家混合物模型。另一个相关工作是 HydraSum，它有两个专家进行解码。这些模型可被视为软专家混合物，它学习潜在的专家，并通过整合他们的输出做出决策。相比之下，我们的模型可以看作是一种 "硬 "专家混合模型，它在做出决策时会咨询改写者或生成者。这两种模型的一个显著区别是，我们的 GEMINI 模型是针对每一句话做出决策，而之前的工作是在令牌层面做出决策。这两种模型的目标截然不同。

3 Summary Style at Sentence Level

3.1.Human Evaluation of Summary Style

摘要风格的人工评估：

我们对每个摘要句的摘要风格进行人工评估，如果摘要句可以由其中一个文章句子暗示，则标注为抽取风格；如果摘要句需要多个文章句子暗示，则标注为抽象风格。我们为每个数据集抽取 100 个摘要句，并请三位注释者对其进行注释，我们将获得至少两次投票的样式作为最终标签。

文体的平均分布如表 1 所示。CNN/DM 以提取式为主，有 88.6% 的摘要句子以提取式撰写。相比之下，XSum 主要是抽象风格，88.2% 的摘要句子是以抽象风格撰写的。WikiHow 的摘要风格分布较为均衡，约 60% 的摘要句子为抽象风格。结果表明，即使是著名的提取型数据集 CNN/DM 和抽象型数据集 XSum，真实摘要也是多种风格的混合体。

在这里插入图片描述

3.2.Automatic Detection of Summary Style

摘要风格的自动发现：

由于人工标注的成本较高，我们转而采用自动方法来检测句子层面的摘要风格。以往的研究主要在摘要层面测量摘要风格。例如，提取片段的_coverage_和_density_来衡量提取度。novel n-grams（出现在摘要中但不在输入文档中）的比例作为抽象性指标。我们采用这些指标来衡量句子，并将它们作为我们方法的基准。

我们提出融合指数来衡量上下文信息的融合程度，其中考虑了两个因素：1) 一个文档句子能从摘要句子中召回多少信息？如果召回率高，则该句子更有可能是提取式的，因为只需改写文档句子即可生成。2) 摘要句与多少文档句子相关？此类句子的数量越多，表明融合度越高，摘要句更有可能是抽象式的。我们的融合指数就是根据这两个因素计算出来的。

Recall：我们通过将摘要句子与文档句子进行匹配，来衡量可重新调用信息的百分比。给定摘要句子 S S S 和源文件 KaTeX parse error: Expected 'EOF', got '}' at position 28: …{2},...,S_{|D}|}̲\}，我们找出最佳匹配句子

Scatter，分散性：我们通过将摘要句子与所有文档句子进行匹配来衡量其内容的分散性。如果匹配得分在所有文档句子中平均分布，则散度高；如果匹配得分除一个文档句子外均为零，则散度低。我们使用从匹配得分中得出的分布熵来计算散度。
S C ( S ∣ D ) = − ∑ j = 1 K p j log ⁡ p j / log ⁡ K , (2) \small\begin{split}SC(S\mid D)=-\sum_{j=1}^{K}p_{j}\log p_{j}/\log K,\end{split}\tag{2} SC(S∣D)=−j=1∑Kpjlogpj/logK,(2)
其中， p j p_{j} pj 是估计的 S S S 是否由相应的文档句子 S i S_{i} Si 生成的概率，计算时使用了前 K K K 最佳匹配值 { r j } ∣ j = 1 K \{r_{j}\}|_{j=1}^{K} {rj}∣j=1K，即

p j = r j ∑ j = 1 K r j , r j ∣ j = 1 K = T o p ( { R ( S ∣ S i ) ∣ 1 ≤ i ≤ ∣ D ∣ } , K ) (3) \small p_{j}=r_{j}\sum_{j=1}^{K}r_{j}, \\ {r_{j}}|_{j=1}^{K}=\mathrm{Top}(\{R(S|S_{i})\mid 1 \leq i\leq|D|\},K) \tag{3} pj=rjj=1∑Krj,rj∣j=1K=Top({R(S∣Si)∣1≤i≤∣D∣},K)(3)
超参数 K K K 是在人类评估集上通过经验搜索确定的。

**我们根据_Recall (RC)_和_Scatter (SC)_计算融合指数（FI）。

F I ( S ∣ D ) = ( 1 − R C ( S ∣ D ) ) ∗ S C ( S ∣ D ) , (4) \small FI(S\mid D)=(1-RC(S\mid D))*SC(S\mid D),\tag{4} FI(S∣D)=(1−RC(S∣D))∗SC(S∣D),(4)
表示融合程度，0 表示无融合，1 表示极度融合，其他介于两者之间。

如表 2 所示，我们将我们的指标与之前研究中的候选指标一起进行了评估，并报告了与人类注释的摘要风格之间的皮尔逊相关性。我们提出的融合指标与摘要风格的相关性最好。相比之下，在以往的指标中，只有新颖的 1-gram 具有最接近的相关性，但平均仍比融合指数低约 0.14。结果表明，在句子层面，融合指数是一种更合适的提取-抽象度量方法。

在这里插入图片描述

3.3.Oracle Label for Summary Style

摘要风格的oracle标签：

我们利用自动融合指数生成oracle提取/抽象标签，这样我们就能在句子层面训练具有明确风格控制的摘要器。如果融合指数高于阈值，我们就将该句子视为抽取式。如果融合指数低于阈值，我们就将该句子视为抽象风格。我们通过开发实验为每个数据集寻找最佳阈值。

4 GEMINI: Rewriter-Generator Network

介绍GEMINI框架：

如图 2 所示，GEMINI 采用预先训练好的 BART，使用一个风格控制器来决定摘要风格。根据风格，_rewriter_或_generator_将被激活以生成每个句子。

直观地说，当 GEMINI 在具有均衡风格的数据集上工作时，它的性能最佳，这使得重写器和生成器能够相辅相成；当oracle风格具有较高的准确性时，它的性能最佳，这使得训练监督具有较高的质量。

4.1.Input and Output

介绍模型的输入输出：

我们引入了特殊的标识符标记，包括 < S > <S> <S>- 文档的开始，“< S k S_{k} Sk>-句子 k k k 的开始，_,以及 < / S > </S> </S>-句子的结束。我们将输入文档表述为< S S S> < S 1 S_1 S1>t sentence one.< / S /S /S> < S 2 S_{2} S2>sentence two< / S /S /S>…”，其中，序列以标识符"< S S S>“开头，并用”< S k S_k Sk>“和”< / S /S /S>< / S /S /S>“括起每个句子。我们将输出摘要表述为”< S 2 S_2 S2> sentence one . < / S /S /S>< S S S> sentence two . < / S /S /S> …“，其中每个句子都以”< S k S_k Sk>“或”< S S S>“开头，以”< / S /S /S>“结尾。如果摘要句子以”< S k S_k Sk>“开头，去码程序将根据第 k 个文档句子生成该句子。如果摘要句以”< S S S>"开头，解码器将根据整个文档生成句子。

4.2.Document Encoder

文档编码器：

我们扩展了嵌入表，使其包括标识符标记，这样_style controller_就可以匹配它们的嵌入来决定摘要样式。我们效仿 Bao 和 Zhang（2021 年）的上下文化改写方法，为每个输入句子分配一个组标签，这样_rewriter_就可以依靠这些组标签，利用多头注意力定位改写后的句子，如图 2 中的组标签 1 2 3 所示。

具体来说，第一个摘要句子和第二个文档句子具有相同的组标签（2），这些组标签被转换为组标签嵌入，并添加到句子中的标记嵌入中。利用编码器和解码器之间共享的组标记嵌入表，可以训练解码器在生成第一个摘要句时集中处理第二个文档句。

形式上，我们将组标记嵌入表表示为 E m b t a g Emb_{tag} Embtag，并根据每个句子的索引从 X X X 生成唯一的组标记序列 G X G_{X} GX，即

G X = { k if w i ∈ S k else 0 } ∣ i = 1 ∣ X ∣ , (5) G_{X}=\{k\text{ if }w_{i}\in\text{S}_{k}\text{ else }0\}|_{i=1}^{|X|}, \tag{5} GX={k if wi∈Sk else 0}∣i=1∣X∣,(5)
其中，对于第 k k k句子 S k S_{k} Sk中的标记 w i w_{i} wi，我们会分配一个编号为 k k k的组标记。我们将 G X G_{X} GX 转换为嵌入式编码，并将其注入 BART 编码器。

我们采用标准的 Transformer 编码层，其中包含一个自注意模块和一个前馈模块：

x ( l ) = LN ( x ( l − 1 ) + SelfAttn ( x ( l − 1 ) ) ) , x ( l ) = LN ( x ( l ) + FeedForward ( x ( l ) ) ) , (6) \begin{split} x^{(l)}&=\text{LN}(x^{(l-1)}+\text{ SelfAttn}(x^{(l-1)})),\\ x^{(l)}&=\text{LN}(x^{(l)}+\text{FeedForward}(x^ {(l)})),\end{split}\tag{6} x(l)x(l)=LN(x(l−1)+ SelfAttn(x(l−1))),=LN(x(l)+FeedForward(x(l))),(6)
其中 LN 表示层归一化 Ba 等人（2016 年）。最后一层 L L L 输出编码器的最终输出 x o u t = x ( L ) x_{out}=x^{(L)} xout=x(L)。向量 x e m b x_{emb} xemb 和 x o u t x_{out} xout 被传递给解码器进行预测。

4.3.Summary Decoder

摘要生成解码器：

我们用样式控制器和重写器扩展了 BART 解码器，而对于生成器，我们使用默认的解码器。

文体控制器 我们使用 Vinyals 等人（2015 年）的注意力指针来预测文体，我们对每个输入句子（对"< S k S_{k} Sk>“的注意力）或整个文档（对”< S S S>“的注意力）进行权衡。如果”< S S S>"获得的关注分值最大，我们就选择abs样式；如果< S k S_{k} Sk>获得的关注分值最大，我们就选择ext样式。

在摘要的开头或摘要句的结尾，我们预测下一个摘要句的风格。我们将标记输出与编码器输出相匹配，以决定选择。

重写器和生成器* 我们使用标准解码器作为重写器和生成器的骨干。在改写器中，我们沿用了鲍和张的方法（2021 年），在解码器的输入中应用组标记嵌入。对于生成器，我们不应用分组标记嵌入，因此它不对应任何文档句子。

我们不改变解码层，每个解码层都包含一个自我注意模块、一个交叉注意模块和一个前馈模块：

y ( l ) = LN ( y ( l − 1 ) + SelfAttn ( y ( l − 1 ) ) ) , y ( l ) = LN ( y ( l ) + CrossAttn ( y ( l ) , x o u t ) ) , y ( l ) = LN ( y ( l ) + FeedForward ( y ( l ) ) ) , (8) \begin{split} y^{(l)}&=\text{LN}(y^{(l-1)}+\text{ SelfAttn}(y^{(l-1)})),\\ y^{(l)}&=\text{LN}(y^{(l)}+\text{CrossAttn}(y^{(l) },x_{out})),\\ y^{(l)}&=\text{LN}(y^{(l)}+\text{FeedForward}(y^{(l) })),\end{split}\tag{8} y(l)y(l)y(l)=LN(y(l−1)+ SelfAttn(y(l−1))),=LN(y(l)+CrossAttn(y(l),xout)),=LN(y(l)+FeedForward(y(l))),(8)
其中 LN 表示层归一化 Ba 等人（2016）。最后一层 L L L 输出最终解码器输出 y o u t y_{out} yout。解码器输出 y o u t y_{out} yout 然后与标记嵌入相匹配，以预测下一个标记。

4.4.Training and Inference

我们将 MLE loss 用于标记预测和风格预测。我们计算的总损失为

L = L t o k e n + κ ∗ L s t y l e , (9) \mathcal{L}=\mathcal{L}_{token}+\kappa*\mathcal{L}_{style}, \tag{9} L=Ltoken+κ∗Lstyle,(9)
其中， L s t y l e \mathcal{L}_{style} Lstyle 是样式预测的 MLE 损失， L t o k e n \mathcal{L}_{token} Ltoken 是标记预测的 MLE 损失。由于样式和标记的性质不同，我们使用一个超参数 κ \kappa κ 来协调它们的收敛速度。在实践中，我们根据开发集上的最佳性能来选择 κ \kappa κ。

在_inference_过程中，样式控制器首先被激活，以决定使用 ext/abs 样式。如果选择 ext 样式，匹配的句子标识符"< S k S_{k} Sk>"将用于为下面的标记符生成分组标记。如果它选择的是 abs 风格，我们就会为这些标记生成一个 0 的特殊组标记。

5 Experimental Settings

在这里插入图片描述

我们使用了三个代表不同风格和领域的英语基准数据集，如表 3 所示。

CNN/DailyMailHermann 等人（2015 年）是最受欢迎的单文档摘要数据集，由在线新闻文章和人类撰写的要点组成。

XSumNarayan et al.（2018）是一个摘要式摘要数据集，由专业作者撰写新文章的一句话摘要。

WikiHowKoupaee和Wang（2018）是从在线知识库WikiHow中提取的一个多样化摘要数据集，该数据集由人类作者撰写。

为了生成oracle样式，我们对 CNN/DM、XSum 和 WikiHow 分别使用了 γ = 0.7 \gamma=0.7 γ=0.7、 γ = 0.7 \gamma=0.7 γ=0.7 和 γ = 0.3 \gamma=0.3 γ=0.3 的融合指数阈值。

我们采用两阶段策略对 GEMINI 进行训练：对新参数进行预微调，然后对所有参数进行联合微调。由于我们在预训练的 BART 中引入了额外的结构和新参数，直接对这两类参数进行联合微调可能会导致预训练参数的降级。我们引入了_pre-finetuning_来准备随机初始化参数，在联合微调之前冻结预训练参数并微调 8$ epochs。我们在两个阶段使用相同的 MLE 损失，收敛协调参数为 κ = 1.1 \kappa=1.1 κ=1.1。

6 Results

6.1.Automatic Evaluation

在这里插入图片描述

如表 4 所示，我们在三个基准数据集上评估了我们的模型，并与其他基于 BART 的模型在公平设置上进行了比较。我们报告了自动度量 ROUGE-1/2/L Lin（2004 年）。

与抽象的 BART 基线相比，GEMINI 在 CNN/DM、XSum 和 WikiHow 上的 ROUGE 分数分别平均提高了 1.01、0.48 和 1.25。在CNN/DM 的 ROUGE-L 和 WikiHow 的 ROUGE-2 尤其显著，分别达到 1.44 和 1.56。结果表明，自适应方法比纯抽象模型具有明显优势。

与依赖外部提取器提供重写句子的重写基准 BART-Rewriter 相比，GEMINI 在 CNN/DM 上将 ROUGE-1/L 分数提高了约 1.0，这表明自适应方法比纯重写器更有效。HydraSum 使用混合专家隐式表达摘要风格，但获得的 ROUGE 分数低于 BART 基线，相比之下，GEMINI 使用显式风格控制提高了 ROUGE 分数。结果表明，与纯粹的改写器和隐式风格控制相比，具有自适应风格的模型更具优势。

表 4 列出了近期使用更大的预训练、组装、重排和强化学习技术的其他工作。不过，这些模型与我们的模型不能直接比较。例如，PEGASUS（大型）有 5.68 亿个参数，比 BART（大型）的 4 亿个参数多出 42%。BRIO 使用 4 个英伟达 RTX 3090 GPU 在 CNN/DM 上训练每个历元需要 20 个小时，总共需要 15 个历元，而我们的模型在同一设备上训练每个历元只需要 2 个小时，总共需要 11 个历元，只使用了 BRIO 7% 的计算资源。我们没有将这些模型作为基线，因为它们在不同的工作领域使用的技术与本研究不尽相同。更重要的是，我们关注的是句子级摘要风格及其控制，而不仅仅是 ROUGE 的改进。

6.2.Human Evaluation

在这里插入图片描述

我们进行了人工评估，以量化衡量生成摘要的质量。我们将 GEMINI 与 BART 和 BART-Rewriter 基线进行了比较，研究了四种质量，包括_信息性_、一致性、可读性_和_忠实性。我们按照最近的 HydraSum（Goyal 等人，2022 年）和 SummaReranker（Ravaut 等人，2022 年）的方法，从 CNN/DM 的测试集中抽取 50 篇文档进行评估。我们聘请了三位具有专业英语水平的研究生（托福成绩在 100 分以上，满分 120 分）对每份候选摘要进行注释，从 1 分（最差）到 5 分（最佳）不等，并报告三位注释者的平均得分。

如表 5 所示，GEMINI 的总体得分最高，尤其是在简洁性和可读性方面。与 BART-Rewriter 相比，GEMINI 在信息量和忠实性方面得分接近，但在简洁性和可读性方面得分更高。与 BART 相比，GEMINI 在四个指标上都获得了更好的分数。

GEMINI 的显式风格控制起到了粗略规划器的作用，限制了内容的生成。根据经验，在 CNN/DM 上，GEMINI 生成的摘要句子数量（3.3 sents/摘要）少于 BART（3.9 sents/摘要）和 BART-Rewriter （3.7 sents/摘要）。因此，GEMINI 生成的摘要更简洁，长度比 BART 短 20%，比 BART-Rewriter 短 10%，但仍能获得更高的 n-gram 召回率，如表 4 中更高的 ROUGE-1/2 所示，这表明 GEMINI 生成的摘要往往具有更密集的信息。我们推测，GEMINI 的高可读性是其在文体预测和句子生成方面自动回归建模的结果，通过这种建模，文体转换得到了优化。我们在附录 A 中列举了两个案例来说明 GEMINI 在简洁性和可读性方面的优势。

6.3.Ablation Study

Rewriter vs. Generator. 我们通过观察重写器和生成器各自的贡献，进一步研究我们的自适应模型。我们根据平均融合指数将 CNN/DM 中的测试样本分为 10 个桶，得到每个桶的平均 ROUGE-1/2/L 分数。我们将图 3 对比了重写器（rwt）和生成器（gen）的 ROUGE 分数。我们可以看到，重写器在低融合指数区域的性能占主导地位，而生成器则统治着高融合指数区域。重写器和生成器的 ROUGE 分数分布说明了两种风格的特殊性。

Pre-finetuning. 预微调会改变随机初始化参数的分布。以 CNN/DM 上的 GEMINI 为例。句子标识符和组标签的初始平均嵌入规范都是 0.06，这是为了减少对预训练网络的负面影响而特意设置的小值。如果我们直接对模型进行微调，训练后的模型在句子标识符和组标签方面的平均值分别为 0.44 和 0.17。但是，如果我们对模型进行 8 个历元的预微调，平均规范值就会分别攀升至 0.92 和 0.63。经过后续微调后，平均值分别收敛到 0.66 和 0.50，远高于直接微调后的模型。

如果取消预微调，GEMINI 在 CNN/DM 上的性能在 ROUGE-1/2/L 上分别从 45.27、21.77 和 42.34 下降到 44.76、21.60 和 41.71，这表明预微调阶段是必要的。

7 Analysis

我们试图回答与句子级摘要样式控制相关的两个关键问题如下。

7.1.Are sentence-level summary styles predictable?

在这里插入图片描述

我们使用oracle文体来训练我们的模型，这样可以更容易地训练模型。但是，在测试过程中，每个句子的摘要样式可以任意选择。测试集中的文体是否在某种程度上是可预测的，这仍然是一个有趣的研究问题。

我们尝试通过对 CNN/DM 上的风格分布进行定量分析来回答这个问题。我们得到的文体预测 F1 为 0.78，更详细的分布如图 4 上部的子图所示。预测风格的分布与甲骨文风格的分布相吻合，除了在 15 个以上句子位置的狭窄范围内，预测的abs 风格的可能性低于甲骨文的abs 风格。至于文体转换的分布，如下面的子图所示，从 ext 到 abs 和从 abs 到-ext 的转换在预测和甲骨文文体之间存在一些差异，预测文体转换的频率总体上低于甲骨文文体转换的频率，但趋势相同。这些数字显示了预测风格和甲骨文风格分布的一致性，表明风格在一定程度上是可以预测的。

我们通过比较使用随机样式和甲骨文样式的 GEMINI 解码的性能，进一步评估了预测样式的贡献。如表 6 所示，当我们用随机样式替换预测样式时，CNN/DM 的性能平均下降了 2.58 个 ROUGE 点，而 WikiHow 的性能平均下降了 1.26 个 ROUGE 点。性能下降表明，模型对文体的预测为生成高质量摘要提供了有用的信息。预测能力来自对输入文档的理解。这也表明，在根据现有上下文选择摘要句子的摘要风格时，存在着一致的趋势。

7.2.When will the adaptive model perform the best?

直观地说，GEMINI 在具有均衡风格的数据集上效果最佳，这样改写器和生成器就能相互补充。更重要的是，要获得高质量的监督信号，甲骨文样式必须准确无误。

首先，数据集的分布很重要。在三个数据集中，WikiHow 的风格最为均衡，61.1% 的摘要句子偏爱改写者。因此，与纯抽象基线相比，GEMINI 在 WikiHow 上的性能提高最多，平均提高了 1.25 个 ROUGE 点，这证实了我们关于数据集分布与模型性能之间关系的直觉。

其次，互补的重写器和生成器是必不可少的前提条件。如图 3 所示，CNN/DM 上的重写器和生成器能力相对均衡，当融合指数低于 0.55 时，重写器优先，高于 0.55 时，生成器优先。相比之下，如图 5 所示，WikiHow 上的重写器和生成器的能力有所偏差，其中重写器的能力较弱，只有在融合指数低于 0.15 时才会被优先考虑。因此，GEMINI 只为 19.3% 的摘要句子生成了外延式摘要，而人工评估结果为 61.1%。分析表明，WikiHow 上的 GEMINI 可以通过使用更好的重写器得到进一步增强，而这有可能通过使用改进的句子提取器来实现。

最后，oracle 风格的质量决定了两个生成器的专业性。如表 2 所示，WikiHow 的融合指数的皮尔逊相关性仅为 0.56，远低于 CNN/DM 的 0.76。这表明，通过开发更好的自动度量标准，oracle 风格还有进一步改进的空间。

8 Discussion

在本文中，我们在句子层面上模拟了人类摘要的风格，让人们更好地了解人类摘要是如何产生的。基于这种理解，研究人员可以将 GEMINI 用于不同的目的。首先，在开发新数据集时，可以使用自动度量融合指数来分析风格分布。其次，GEMINI 可用于在句子层面控制摘要风格。由于ext风格的摘要句子比abs风格的摘要句子更不容易产生幻觉，因此我们可以通过确定abs风格摘要句子的比例来控制忠实风险。最后，GEMINI 会为每个摘要句生成明确的文体，因此我们甚至可以通过在关键应用中标记那些腹语式摘要句来警告忠实风险。

限制： GEMINI 可以适应特定数据集的摘要风格，从而使改写者和生成者在不同情况下发挥专长，这可能会提高改写者和生成者的质量。但是，我们不知道这种自适应方法是否真的能提高摘要生成模型的 "抽象 "能力。我们目前还没有一个可靠的抽象能力衡量标准来评估训练有素的生成器。我们将在今后的研究中加以考虑。

9 Conclusion

我们研究了人类撰写的摘要的句子级摘要风格，并评估了三个基准数据集的风格分布。我们提出了一种自动检测句子级摘要风格的融合指数测量方法，并利用这种方法生成了用于训练自适应模型的oracle风格。实验表明，在基准数据集上，我们的 GEMINI 明显优于纯抽象和重写基线，证明了对摘要风格进行细粒度控制的有效性。

标签：Style,摘要,生成器,生成,GEMINI,风格,我们,句子
From： https://blog.csdn.net/weixin_44362044/article/details/141113609

摘要生成—通过摘要风格控制摘要的生成/抽取，原文阅读与理解：GEMINI: Controlling The Sentence-Level Summary Style in Abstractive Te

文章目录～

1.背景动机

2.MODEL

3.原文阅读

Abstract

1 Introduction

2 Related Work

3 Summary Style at Sentence Level

3.1.Human Evaluation of Summary Style

3.2.Automatic Detection of Summary Style

3.3.Oracle Label for Summary Style

4 GEMINI: Rewriter-Generator Network

4.1.Input and Output

4.2.Document Encoder

4.3.Summary Decoder

4.4.Training and Inference

5 Experimental Settings

6 Results

6.1.Automatic Evaluation

6.2.Human Evaluation

6.3.Ablation Study

7 Analysis

7.1.Are sentence-level summary styles predictable?

7.2.When will the adaptive model perform the best?

8 Discussion

9 Conclusion

相关文章

赞助商

阅读排行