A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models
文本摘要的系统综述:从统计方法到大型语言模型
paper: https://arxiv.org/abs/2406.11289
文章目录~
- 原文阅读
- Abstract
- 1.Introduction
- 2. Background
- 3. Summarization Methods Prior to LLMs
- 4. Llm-Based Summarization Research
- 5. Open Problems and Future Directions
- 6 CONCLUSION
原文阅读
Abstract
随着深度神经网络、预训练语言模型 (PLM) 和最近的大型语言模型 (LLM) 的出现,文本摘要研究经历了几次重大转变。因此,本综述通过这些范式转变的视角,全面回顾了文本摘要的研究进展和演变。它分为两个主要部分:(1)详细概述 LLM 时代之前的数据集、评估指标和摘要方法,涵盖传统统计方法、深度学习方法和 PLM 微调技术;(2)首次详细研究 LLM 时代基准测试、建模和评估摘要的最新进展。通过综合现有文献并提出一个有凝聚力的概述,本综述还讨论了研究趋势、未解决的挑战,并提出了摘要方面的有希望的研究方向,旨在指导研究人员了解摘要研究的不断发展。
1.Introduction
文本摘要是自然语言处理 (NLP) 中最关键、最具挑战性的任务之一。它被定义为从一个或多个来源提炼出最重要的信息,为特定用户和任务生成精简版本的过程。自互联网出现以来,随着网上文本信息量的激增,摘要研究引起了广泛关注。
构建自动文本摘要 (ATS) 系统的早期努力可以追溯到 20 世纪 50 年代。随后,随着 20 世纪 90 年代和 21 世纪初统计机器学习的进步,无监督的基于特征的系统应运而生。在 2010 年代,摘要研究的重点转向以监督方式训练深度学习框架,利用大规模训练数据的可用性。最近,BERT 和 T5 等自监督预训练语言模型 (PLM) 的出现,通过“预训练,然后微调”的流程显著提高了摘要性能。这一进程最终导致了当前大型语言模型 (LLM) 主导的时代。回顾摘要方法的发展历史,我们通常可以根据底层范式将其分为四个阶段:统计阶段、深度学习阶段、预训练语言模型微调阶段和当前的大型语言模型阶段,如图 1 所示。
最近,LLM 的出现彻底改变了学术界的 NLP 研究和工业产品,因为它们具有理解、分析和生成具有大量预训练知识的文本的卓越能力。通过利用大量文本数据,LLM 可以捕捉复杂的语言模式、语义关系和上下文线索,从而能够生成可与人类编写的摘要相媲美的高质量摘要。毫无疑问,LLM 已经将摘要领域推向了一个新时代。
与此同时,许多 NLP 研究人员正在经历由 LLM 系统惊人成功引发的生存危机。文本摘要无疑是受影响最严重的领域之一,研究人员认为摘要(几乎)已消亡。**在我们对摘要领域的理解发生如此颠覆性的变化之后,我们还能做什么?**LLM 的格局不断发展,其特点是不断发展更大、更强大的模型,这为摘要领域的研究人员和从业者带来了机遇和挑战。
这篇综述论文旨在全面概述 LLM 新时代最先进的摘要研究工作。我们首先对现有方法进行分类,并讨论问题的表述、评估指标和常用数据集。接下来,我们系统地分析 LLM 时代之前的代表性文本摘要方法,包括传统统计方法、深度学习方法和 PLM 微调技术。此外,我们综合了 LLM 时代最近的摘要文献的见解,讨论了研究趋势和未解决的挑战,并提出了摘要方面的有希望的研究方向。本调查旨在加深对利用 LLM 进行文本摘要的进步、挑战和未来前景的了解,最终促进 NLP 研究的持续发展和完善。
1.1.Major Differences
已经进行了多项调查来研究摘要的各个方面。然而,现有的调查主要集中在研究传统的统计方法和基于深度学习的摘要方法。缺乏全面的最新调查研究和缺乏共识继续阻碍进展。随着预训练语言模型和最近的大型语言模型引发的重大范式转变,仍然缺乏全面涵盖新时代摘要领域持续进步的深入调查。
例如,早期的调查论文 [54, 151] 对基于统计和深度学习的自动文本摘要模型进行了全面的调查,讨论了它们的详细分类和应用。随后,Cajueiro 等人对 ATS 的方法、数据、评估和编码进行了全面的文献综述,直至预训练语言模型的出现。
研究人员还制作了具有更具体重点的调查。调查论文重点关注学术文章和商业报告等长文档的数据集、方法和评估指标。另一项工作 [181] 侧重于基于图神经网络 (GNN) 的自动文本摘要方法。曹 [17] 对神经抽象摘要方法进行了调查,并探讨了抽象摘要系统的事实一致性。
考虑到摘要方法的快速发展和 LLM 带来的颠覆性变化,我们认为有必要回顾 LLM 时代之前和期间的代表性方法的细节,分析每种方法的独特性,并讨论开放的挑战和未来方向,以促进该领域的进一步发展。
1.2.Main Contributions
本调查报告的主要贡献在于从范式转变的角度研究文本摘要方法,并回顾 LLM 时代的最新研究成果。本调查报告的详细贡献包括
- 本调查报告是对新时代 LLM 文本摘要任务的首次全面研究。我们在图 8 中根据目标和方法首次提出了基于 LLM 的摘要文献分类法。表 3、表 4 和表 5 还列出了研究工作的必要详细信息,包括基准研究、建模研究和基于 LLM 的摘要评估研究。
- 从传统统计模型到深度学习模型,再到 PLM 微调方法。这些作品的分类如图 4 所示,详细信息如表 2 所示。
- 此外,我们还讨论了摘要方法的分类,在表1中总结了带URL链接的文本摘要常用数据集,回顾了流行的摘要评价指标,并在表6中介绍了CNN/DM数据集的量化结果比较。
- 最后,我们分析了摘要研究的基本趋势,讨论了该领域中尚未解决的挑战,并勾勒出新时代 LLM 的前瞻性研究方向,以促进进一步发展。
1.3.Organization
本综述的组织结构如下:第 2 节介绍文本摘要的背景,包括方法分类、问题表述、评估指标和常用数据集。第 3 节回顾了 LLM 时代之前的主要摘要方法,包括统计方法、基于深度学习的方法和 PLM 微调方法。第 4 节探讨了 LLM 摘要基准测试(§4.1)、开发基于 LLM 的摘要系统(§4.2)以及使用 LLM 评估摘要(§4.3)方面的最新进展。最后,第 5 节讨论了摘要方面的未解决问题和未来研究方向。
2. Background
本节提供文本摘要的基本背景信息。首先,我们在图 2 中概述了文本摘要任务的一般分类,并讨论了提取和抽象摘要的典型问题表述。此外,我们回顾了在 LLM 出现之前用于评估摘要性能的常见评估指标。最后,我们概述了广泛使用的摘要基准数据集,如表 1 所示。
2.1.Categorization
文本摘要方法分类:
文本摘要是一项任务,用于为较长的文本文档创建简短、准确且流畅的摘要。它广泛应用于新闻聚合、文档摘要、社交媒体分析等各个领域。它的主要目标是帮助用户快速掌握文档或内容的要点,而无需通读整个文本。然而,文本摘要面临着诸多挑战,例如保持连贯性和保留重要细节、处理各种类型的内容以及确保摘要准确而简洁。
如图 2 所示,根据输入文档的格式、摘要输出的样式和底层范式,文本摘要方法可分为不同的类型。
2.1.1. Input: Single-document vs. Multi-document vs. Query-focused
根据输入不同分类:单文档/多文档/聚焦查询
常见的文本摘要方法可根据输入源文档的格式分为单文档摘要 (SDS)、多文档摘要 (MDS) 和以查询为中心的摘要 (QFS):
- SDS 摘要一篇文章,
- 而 MDS 则以一组文档(通常为同一主题)作为输入。
- QFS 旨在生成专门针对输入查询(例如主题、关键字或实体)的摘要。
- 此外,一些摘要任务涉及多语言输入(例如从中文翻译成英文)和多模态输入(例如结合文本和图像)。
2.1.2. Output: Extractive vs. Abstractive vs. Hybrid
根据输出不同分类:抽取/生成/混合:
根据输出摘要的生成方式,文本摘要方法还分为提取式、抽象式和混合式。如图 3 中的示例所示:
- 提取式方法通过从原始文档中提取句子来创建摘要:
- 抽象式方法逐字生成具有新内容的摘要。
- 混合方法结合了提取和抽象技术。
具体而言,提取式摘要系统旨在从原始文档中识别和选择重要的文本跨度和句子来形成摘要。这些摘要本质上是忠实、流畅和准确的,但它们可能存在冗余和不连贯等问题。基于统计和深度学习的摘要系统 大多是提取式的,通常将提取式摘要构建为序列标记和排名问题,以识别最突出的句子。
相比之下,抽象式摘要系统从头开始生成摘要,类似于人类撰写摘要的方式。这些系统可以生成更灵活、更简洁的摘要,但可能会遇到幻觉和不忠实等问题。抽象摘要通常被表述为序列到序列 (seq2seq) 问题,并使用编码器-解码器框架或自回归语言模型。
混合摘要方法试图结合提取和抽象方法的优势,以实现更平衡的结果。这些系统通常首先从源文档中提取关键信息,然后使用提取的信息来指导抽象摘要生成过程。
2.1.3. Backbone Paradigm: Statistical vs. Deep learning vs. PLM fine-tuning vs. LLM
根据backbone不同分类:统计/深度/预训练/大模型:
如前所述,文本摘要的发展可以根据底层范式分为四个主要阶段:统计阶段、深度学习阶段、预训练语言模型微调阶段和当前的大型语言模型阶段。
- 统计阶段采用无监督摘要方法,包括基于启发式的方法、基于优化的方法和基于图的方法。手工制作的特征和基于频率的特征(如词频-逆文档频率 (TF-IDF))是常用的。
- 深度学习阶段的方法依赖于源文档-摘要对形式的领域特定训练数据,以监督方式训练神经网络。词嵌入技术 也很常用。在此阶段,研究人员引入了各种训练语料库来推进摘要的发展。
- PLM 微调阶段:此阶段依赖于大规模、自监督预训练语言模型的进步。来自 Transformer 的双向编码器表示 (BERT) 的引入标志着此阶段的开始,从而显著提高了性能。使用大量文本数据进行预训练使 PLM 具备语言模式和参数知识,这对于文档理解和文本生成非常重要,从而使下游任务受益。此阶段采用“预训练,然后微调”流程,根据任务特定数据对预训练语言模型进行微调,以进一步提高下游任务的性能。
- LLM 阶段:最近,大型语言模型的进步重塑了摘要研究。这些模型强大的理解和指令遵循能力推动了零样本和少样本摘要系统的发展,为这个新兴时代带来了新的机遇。这一阶段的开始以 OpenAI 推出的生成式预训练 Transformer 3 (GPT-3) 为标志,其模型大小为 1750 亿个参数,具有强大的少样本能力。
2.2.Problem Formulation
问题描述:
2.2.1. Extractive Summarization Formulation
抽取式摘要总结公式:
抽取式摘要通过识别并直接从源文档中提取关键句子来生成摘要。在不失一般性的情况下,我们在此介绍单个文档
标签:Summarization,LLM,综述,模型,摘要,生成,文档,Statistical,文本 From: https://blog.csdn.net/weixin_44362044/article/details/141754280