首页 > 其他分享 >文本摘要综述—从统计方法到大型语言模型综述介绍,原文阅读:A Systematic Survey of Text Summarization: From Statistical Methods to

文本摘要综述—从统计方法到大型语言模型综述介绍,原文阅读:A Systematic Survey of Text Summarization: From Statistical Methods to

时间:2024-09-25 12:50:10浏览次数:8  
标签:Summarization LLM 综述 模型 摘要 生成 文档 Statistical 文本

A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models

文本摘要的系统综述:从统计方法到大型语言模型

paper: https://arxiv.org/abs/2406.11289

文章目录~

原文阅读

Abstract

随着深度神经网络、预训练语言模型 (PLM) 和最近的大型语言模型 (LLM) 的出现,文本摘要研究经历了几次重大转变。因此,本综述通过这些范式转变的视角,全面回顾了文本摘要的研究进展和演变。它分为两个主要部分:(1)详细概述 LLM 时代之前的数据集、评估指标和摘要方法,涵盖传统统计方法、深度学习方法和 PLM 微调技术;(2)首次详细研究 LLM 时代基准测试、建模和评估摘要的最新进展。通过综合现有文献并提出一个有凝聚力的概述,本综述还讨论了研究趋势、未解决的挑战,并提出了摘要方面的有希望的研究方向,旨在指导研究人员了解摘要研究的不断发展。

1.Introduction

文本摘要是自然语言处理 (NLP) 中最关键、最具挑战性的任务之一。它被定义为从一个或多个来源提炼出最重要的信息,为特定用户和任务生成精简版本的过程。自互联网出现以来,随着网上文本信息量的激增,摘要研究引起了广泛关注。

构建自动文本摘要 (ATS) 系统的早期努力可以追溯到 20 世纪 50 年代。随后,随着 20 世纪 90 年代和 21 世纪初统计机器学习的进步,无监督的基于特征的系统应运而生。在 2010 年代,摘要研究的重点转向以监督方式训练深度学习框架,利用大规模训练数据的可用性。最近,BERTT5 等自监督预训练语言模型 (PLM) 的出现,通过“预训练,然后微调”的流程显著提高了摘要性能。这一进程最终导致了当前大型语言模型 (LLM) 主导的时代。回顾摘要方法的发展历史,我们通常可以根据底层范式将其分为四个阶段:统计阶段、深度学习阶段、预训练语言模型微调阶段和当前的大型语言模型阶段,如图 1 所示。

最近,LLM 的出现彻底改变了学术界的 NLP 研究和工业产品,因为它们具有理解、分析和生成具有大量预训练知识的文本的卓越能力。通过利用大量文本数据,LLM 可以捕捉复杂的语言模式、语义关系和上下文线索,从而能够生成可与人类编写的摘要相媲美的高质量摘要。毫无疑问,LLM 已经将摘要领域推向了一个新时代。

与此同时,许多 NLP 研究人员正在经历由 LLM 系统惊人成功引发的生存危机。文本摘要无疑是受影响最严重的领域之一,研究人员认为摘要(几乎)已消亡。**在我们对摘要领域的理解发生如此颠覆性的变化之后,我们还能做什么?**LLM 的格局不断发展,其特点是不断发展更大、更强大的模型,这为摘要领域的研究人员和从业者带来了机遇和挑战。

这篇综述论文旨在全面概述 LLM 新时代最先进的摘要研究工作。我们首先对现有方法进行分类,并讨论问题的表述、评估指标和常用数据集。接下来,我们系统地分析 LLM 时代之前的代表性文本摘要方法,包括传统统计方法、深度学习方法和 PLM 微调技术。此外,我们综合了 LLM 时代最近的摘要文献的见解,讨论了研究趋势和未解决的挑战,并提出了摘要方面的有希望的研究方向。本调查旨在加深对利用 LLM 进行文本摘要的进步、挑战和未来前景的了解,最终促进 NLP 研究的持续发展和完善。

在这里插入图片描述

1.1.Major Differences

已经进行了多项调查来研究摘要的各个方面。然而,现有的调查主要集中在研究传统的统计方法和基于深度学习的摘要方法。缺乏全面的最新调查研究和缺乏共识继续阻碍进展。随着预训练语言模型和最近的大型语言模型引发的重大范式转变,仍然缺乏全面涵盖新时代摘要领域持续进步的深入调查。

例如,早期的调查论文 [54, 151] 对基于统计和深度学习的自动文本摘要模型进行了全面的调查,讨论了它们的详细分类和应用。随后,Cajueiro 等人对 ATS 的方法、数据、评估和编码进行了全面的文献综述,直至预训练语言模型的出现。

研究人员还制作了具有更具体重点的调查。调查论文重点关注学术文章和商业报告等长文档的数据集、方法和评估指标。另一项工作 [181] 侧重于基于图神经网络 (GNN) 的自动文本摘要方法。曹 [17] 对神经抽象摘要方法进行了调查,并探讨了抽象摘要系统的事实一致性。

考虑到摘要方法的快速发展和 LLM 带来的颠覆性变化,我们认为有必要回顾 LLM 时代之前和期间的代表性方法的细节,分析每种方法的独特性,并讨论开放的挑战和未来方向,以促进该领域的进一步发展。

1.2.Main Contributions

在这里插入图片描述

本调查报告的主要贡献在于从范式转变的角度研究文本摘要方法,并回顾 LLM 时代的最新研究成果。本调查报告的详细贡献包括

  • 本调查报告是对新时代 LLM 文本摘要任务的首次全面研究。我们在图 8 中根据目标和方法首次提出了基于 LLM 的摘要文献分类法。表 3、表 4 和表 5 还列出了研究工作的必要详细信息,包括基准研究、建模研究和基于 LLM 的摘要评估研究。
  • 从传统统计模型到深度学习模型,再到 PLM 微调方法。这些作品的分类如图 4 所示,详细信息如表 2 所示。
  • 此外,我们还讨论了摘要方法的分类,在表1中总结了带URL链接的文本摘要常用数据集,回顾了流行的摘要评价指标,并在表6中介绍了CNN/DM数据集的量化结果比较。
  • 最后,我们分析了摘要研究的基本趋势,讨论了该领域中尚未解决的挑战,并勾勒出新时代 LLM 的前瞻性研究方向,以促进进一步发展。

1.3.Organization

本综述的组织结构如下:第 2 节介绍文本摘要的背景,包括方法分类、问题表述、评估指标和常用数据集。第 3 节回顾了 LLM 时代之前的主要摘要方法,包括统计方法、基于深度学习的方法和 PLM 微调方法。第 4 节探讨了 LLM 摘要基准测试(§4.1)、开发基于 LLM 的摘要系统(§4.2)以及使用 LLM 评估摘要(§4.3)方面的最新进展。最后,第 5 节讨论了摘要方面的未解决问题和未来研究方向。

2. Background

在这里插入图片描述

在这里插入图片描述

本节提供文本摘要的基本背景信息。首先,我们在图 2 中概述了文本摘要任务的一般分类,并讨论了提取和抽象摘要的典型问题表述。此外,我们回顾了在 LLM 出现之前用于评估摘要性能的常见评估指标。最后,我们概述了广泛使用的摘要基准数据集,如表 1 所示。

2.1.Categorization

文本摘要方法分类:

文本摘要是一项任务,用于为较长的文本文档创建简短、准确且流畅的摘要。它广泛应用于新闻聚合、文档摘要、社交媒体分析等各个领域。它的主要目标是帮助用户快速掌握文档或内容的要点,而无需通读整个文本。然而,文本摘要面临着诸多挑战,例如保持连贯性和保留重要细节、处理各种类型的内容以及确保摘要准确而简洁。

如图 2 所示,根据输入文档的格式、摘要输出的样式和底层范式,文本摘要方法可分为不同的类型。

2.1.1. Input: Single-document vs. Multi-document vs. Query-focused

根据输入不同分类:单文档/多文档/聚焦查询

常见的文本摘要方法可根据输入源文档的格式分为单文档摘要 (SDS)、多文档摘要 (MDS) 和以查询为中心的摘要 (QFS)

  • SDS 摘要一篇文章,
  • 而 MDS 则以一组文档(通常为同一主题)作为输入。
  • QFS 旨在生成专门针对输入查询(例如主题、关键字或实体)的摘要。
  • 此外,一些摘要任务涉及多语言输入(例如从中文翻译成英文)和多模态输入(例如结合文本和图像)。
2.1.2. Output: Extractive vs. Abstractive vs. Hybrid

在这里插入图片描述

根据输出不同分类:抽取/生成/混合:

根据输出摘要的生成方式,文本摘要方法还分为提取式、抽象式和混合式。如图 3 中的示例所示:

  • 提取式方法通过从原始文档中提取句子来创建摘要:
  • 抽象式方法逐字生成具有新内容的摘要。
  • 混合方法结合了提取和抽象技术。

具体而言,提取式摘要系统旨在从原始文档中识别和选择重要的文本跨度和句子来形成摘要。这些摘要本质上是忠实、流畅和准确的,但它们可能存在冗余和不连贯等问题。基于统计和深度学习的摘要系统 大多是提取式的,通常将提取式摘要构建为序列标记和排名问题,以识别最突出的句子。

相比之下,抽象式摘要系统从头开始生成摘要,类似于人类撰写摘要的方式。这些系统可以生成更灵活、更简洁的摘要,但可能会遇到幻觉和不忠实等问题。抽象摘要通常被表述为序列到序列 (seq2seq) 问题,并使用编码器-解码器框架或自回归语言模型。

混合摘要方法试图结合提取和抽象方法的优势,以实现更平衡的结果。这些系统通常首先从源文档中提取关键信息,然后使用提取的信息来指导抽象摘要生成过程。

2.1.3. Backbone Paradigm: Statistical vs. Deep learning vs. PLM fine-tuning vs. LLM

根据backbone不同分类:统计/深度/预训练/大模型:

如前所述,文本摘要的发展可以根据底层范式分为四个主要阶段:统计阶段、深度学习阶段、预训练语言模型微调阶段和当前的大型语言模型阶段

  • 统计阶段采用无监督摘要方法,包括基于启发式的方法、基于优化的方法和基于图的方法。手工制作的特征和基于频率的特征(如词频-逆文档频率 (TF-IDF))是常用的。
  • 深度学习阶段的方法依赖于源文档-摘要对形式的领域特定训练数据,以监督方式训练神经网络。词嵌入技术 也很常用。在此阶段,研究人员引入了各种训练语料库来推进摘要的发展。
  • PLM 微调阶段:此阶段依赖于大规模、自监督预训练语言模型的进步。来自 Transformer 的双向编码器表示 (BERT) 的引入标志着此阶段的开始,从而显著提高了性能。使用大量文本数据进行预训练使 PLM 具备语言模式和参数知识,这对于文档理解和文本生成非常重要,从而使下游任务受益。此阶段采用“预训练,然后微调”流程,根据任务特定数据对预训练语言模型进行微调,以进一步提高下游任务的性能。
  • LLM 阶段:最近,大型语言模型的进步重塑了摘要研究。这些模型强大的理解和指令遵循能力推动了零样本和少样本摘要系统的发展,为这个新兴时代带来了新的机遇。这一阶段的开始以 OpenAI 推出的生成式预训练 Transformer 3 (GPT-3) 为标志,其模型大小为 1750 亿个参数,具有强大的少样本能力。

2.2.Problem Formulation

问题描述:

2.2.1. Extractive Summarization Formulation

抽取式摘要总结公式:

抽取式摘要通过识别并直接从源文档中提取关键句子来生成摘要。在不失一般性的情况下,我们在此介绍单个文档

标签:Summarization,LLM,综述,模型,摘要,生成,文档,Statistical,文本
From: https://blog.csdn.net/weixin_44362044/article/details/141754280

相关文章

  • 无线安全综述
    目录无线安全综述(一)未经授权的访问(二)数据窃取(三)网络干扰(四)恶意软件传播(一)使用强密码(二)启用加密(三)隐藏无线网络名称(SSID)(四)启用MAC地址过滤(五)定期更新固件(一)Aircrack-ng(二)Wireshark(三)Netsh一、无线安全术语SSID(ServiceSetIdentifier):服务集标识符,用于标识一......
  • 药物分子生成算法综述:从生成对抗网络到变换器模型的多样化选择
    创作不易,您的打赏、关注、点赞、收藏和转发是我坚持下去的动力!基于已有的药物数据生成新的药物分子是一项复杂的任务,通常涉及到生成模型和机器学习算法。以下是一些常用的算法和方法:1.生成对抗网络(GANs)特点:由生成器和判别器两个神经网络组成,生成器生成新分子,判别......
  • 【人工智能时代】- 同济大学发布最新检索增强(RAG)的LLM生成技术综述
    摘要1引言1.1大型语言模型的进步1.2面临的挑战1.3解决方案:检索增强生成(RAG)1.4RAG的研究和发展1.5研究背景2背景2.1RAG的定义2.2RAGvs微调2.3RAG的优势3RAG框架3.1原始RAG(NaiveRAG)3.2高级RAG(AdvancedRAG)3.2.1预检......
  • 自然语言处理综述笔记
    自然语言处理综述自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。自然语言处理主要分两个流程:自然语言理解(NLU)和自然语言生成(NLG)处理流程大致可分为五步:第一步获取语料。第二步对语料进行预处理,其中包括语料......
  • Nature Genetics | Rajeev K. Varshney综述:解锁植物遗传学的端粒到端粒(T2T)基因组组装
    近期,RajeevK.Varshney团队在Naturegenetics发表综述文章:Unlockingplantgeneticswithtelomere-to-telomeregenomeassemblies。摘要连续基因组序列组装将帮助我们实现作物转化基因组学的全面潜力。最近在测序技术方面的进步,尤其是长读长测序策略,使得构建无间隙的端粒到端粒(T......
  • 论文阅读笔记 --- 图模互补:知识图谱与大模型融合综述 --- 按参考文献整理
    论文阅读笔记---图模互补:知识图谱与大模型融合综述---按参考文献整理关于首次发表日期:2024-09-13论文原文链接:http://xblx.whu.edu.cn/zh/article/doi/10.14188/j.1671-8836.2024.0040/将文章中的参考文献整理一下,基本保持原文的目录结构引言、相关介绍KnowledgeGra......
  • 2024年的端到端自动驾驶综述
    2024年的端到端自动驾驶综述这是一篇比较新的2024年端到端自动驾驶的综述文章。目前在arXiv上可以阅读到。https://arxiv.org/abs/2306.16927v3​arxiv.org/abs/2306.16927v3阅读之后写下这篇文章记录我的一些学习心得。本文将遵循整篇论文的框架进行写作,但是我不太愿意......
  • 多模态大语言模型综述(中)-算法实用指南
    IV.算法实用指南多模态的算法可分为两类:基础模型和大规模多模态预训练模型。基础模态是多模态的基本框架,许多新的大规模多模态预训练模型都是基于它进行改进的。下图是论文涉及的算法清单,含模型名字、年份、技术要点、功能及参考编号,以及代码开源情况。如果您也对A......
  • 使用ChatGPT高质量撰写文献综述全攻略实操指南,五步轻松搞定!
    大家好,感谢关注。我是七哥,一个在高校里不务正业,折腾学术科研AI实操的学术人。关于使用ChatGPT等AI学术科研的相关问题可以和作者七哥(yida985)交流,多多交流,相互成就,共同进步,为大家带来最酷最有效的智能AI学术科研写作攻略。在学术研究中,文献综述很重要,但完成的过程又很费时费力......
  • IP传递方式的综述
    IP的传递方式单播(Unicast):单播是主机间一对一的通讯模式。网络中的设备根据网络报文中包含的目的地址选择传输路径,将单播报文传送到指定的目的地,只对接收到的数据进行转发,不会进行复制。采用单播方式时,系统为每个需求该数据的用户单独建立一条数据传输通路,并为该用户发送一份......